今天,我們正式發(fā)布 DeepSeek-V3.1。本次升級(jí)包含以下主要變化:
官方 App 與網(wǎng)頁(yè)端模型已同步升級(jí)為 DeepSeek-V3.1。用戶可以通過(guò)“深度思考”按鈕,實(shí)現(xiàn)思考模式與非思考模式的自由切換。 DeepSeek API 也已同步升級(jí), 另外,我們?cè)黾恿藢?duì) Anthropic API 格式的支持,讓大家可以輕松將 DeepSeek-V3.1 的能力接入 Claude Code 框架。(詳見(jiàn)官方文檔:https://api-docs./zh-cn/guides/anthropic_api) 工具調(diào)用/智能體支持增強(qiáng)編程智能體 ![]() 表 1:編程智能體測(cè)評(píng)(SWE 使用內(nèi)部框架測(cè)評(píng),相比開(kāi)源框架 OpenHands 所需輪數(shù)更少;Terminal Bench 使用官方 Terminus 1 framework) 在代碼修復(fù)測(cè)評(píng) SWE 與命令行終端環(huán)境下的復(fù)雜任務(wù)(Terminal-Bench)測(cè)試中,DeepSeek-V3.1 相比之前的 DeepSeek 系列模型有明顯提高。 搜索智能體 ![]() 表 2:搜索智能體測(cè)評(píng)(測(cè)試結(jié)果調(diào)用商用搜索引擎 API+網(wǎng)頁(yè)過(guò)濾+128K context window;R1-0528 使用內(nèi)部 workflow 模式測(cè)試;HLE 測(cè)試同時(shí)使用 python 與 search 工具) DeepSeek-V3.1 在多項(xiàng)搜索評(píng)測(cè)指標(biāo)上取得了較大提升。在需要多步推理的復(fù)雜搜索測(cè)試(browsecomp)與多學(xué)科專家級(jí)難題測(cè)試(HLE)上,DeepSeek-V3.1 性能已大幅領(lǐng)先 R1-0528。 思考效率提升 我們的測(cè)試結(jié)果顯示,經(jīng)過(guò)思維鏈壓縮訓(xùn)練后,V3.1-Think 在輸出 token 數(shù)減少 20%-50% 的情況下,各項(xiàng)任務(wù)的平均表現(xiàn)與 R1-0528 持平。 ![]() 在各項(xiàng)評(píng)測(cè)指標(biāo)得分基本持平的情況下(AIME 2025: 87.5/88.4, GPQA: 81/80.1, liveCodeBench: 73.3/74.8),R1-0528 與 V3.1-Think 的 token 消耗量對(duì)比圖 同時(shí),V3.1 在非思考模式下的輸出長(zhǎng)度也得到了有效控制,相比于 DeepSeek-V3-0324 ,能夠在輸出長(zhǎng)度明顯減少的情況下保持相同的模型性能。 API & 模型開(kāi)源 模型開(kāi)源V3.1的 Base 模型在 V3 的基礎(chǔ)上重新做了外擴(kuò)訓(xùn)練,一共增加訓(xùn)練了 840B tokens。Base 模型與后訓(xùn)練模型均已在 Huggingface 與魔搭開(kāi)源。 Base 模型:
后訓(xùn)練模型:
需要注意的是,DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的參數(shù)精度。另外,V3.1 對(duì)分詞器及 chat template 進(jìn)行了較大調(diào)整,與 DeepSeek-V3 存在明顯差異。建議有部署需求的用戶仔細(xì)閱讀新版說(shuō)明文檔。 價(jià)格調(diào)整 我們將于北京時(shí)間 2025 年 9 月 6 日凌晨起,對(duì) DeepSeek 開(kāi)放平臺(tái) API 接口調(diào)用價(jià)格進(jìn)行如下調(diào)整:
![]() 在 9 月 6 日前,所有 API 服務(wù)仍按原價(jià)格政策計(jì)費(fèi),您可繼續(xù)享受當(dāng)前優(yōu)惠。 同時(shí),為更好地滿足用戶的調(diào)用需求,我們已進(jìn)一步擴(kuò)容 API 服務(wù)資源,歡迎使用! |
|
來(lái)自: 積沙成塔0u3svg > 《Deepseep》