智源最新模型評(píng)測(cè)發(fā)布：豆包大模型“客觀評(píng)測(cè)”排名國(guó)產(chǎn)第一

江海博覽 2024-06-21 發(fā)布于浙江

展開(kāi)全文

近日，智源研究院旗下的 FlagEval 大模型評(píng)測(cè)平臺(tái)發(fā)布最新評(píng)測(cè)榜單。

榜單顯示，在閉源大模型的“客觀評(píng)測(cè)”中，豆包大模型（Doubao-Pro-4k）以綜合評(píng)分75.96分排名第二，僅次于 GPT-4，是得分最高的國(guó)產(chǎn)大模型。在“主觀評(píng)測(cè)”中，豆包大模型同樣排名第二。

FlagEval 大模型評(píng)測(cè)能力榜單（客觀評(píng)測(cè)）

FlagEval 大模型評(píng)測(cè)平臺(tái)由智源研究院與多個(gè)高校團(tuán)隊(duì)共建，以人類(lèi)認(rèn)知能力的發(fā)展階梯為基準(zhǔn)，對(duì)齊大模型所能達(dá)到的認(rèn)知水平。FlagEval 構(gòu)建了大量原創(chuàng)的非公開(kāi)評(píng)測(cè)集，確保評(píng)測(cè)質(zhì)量和公正性。自2023年6月上線(xiàn)以來(lái)，F(xiàn)lagEval 已完成了1,000多次覆蓋全球大模型的評(píng)測(cè)。

評(píng)測(cè)成績(jī)顯示，豆包大模型（Doubao-Pro-4k）的數(shù)學(xué)能力、知識(shí)運(yùn)用、任務(wù)解決等多項(xiàng)能力在客觀評(píng)測(cè)和主觀評(píng)測(cè)中都有著出色表現(xiàn)。其中，知識(shí)運(yùn)用和數(shù)學(xué)能力得分排名客觀評(píng)測(cè)第一、主觀評(píng)測(cè)前三，任務(wù)解決測(cè)試得分在主客觀評(píng)測(cè)中均排名前三。

豆包大模型由字節(jié)跳動(dòng)自主研發(fā)，通過(guò)火山引擎正式對(duì)外提供服務(wù)。今年5月15日，火山引擎正式發(fā)布了包含豆包通用模型pro、豆包通用模型lite、豆包·角色扮演模型、豆包·語(yǔ)音合成模型、豆包·聲音復(fù)刻模型、豆包·語(yǔ)音識(shí)別模型、豆包·文生圖模型、豆包·Function Call模型、豆包·向量化模型等9款大模型在內(nèi)的豆包大模型家族，企業(yè)可以根據(jù)自身業(yè)務(wù)場(chǎng)景需求，靈活選擇并快速落地。

豆包大模型家族

火山引擎希望以豆包大模型更強(qiáng)模型、更低價(jià)格、更易落地的優(yōu)勢(shì)特點(diǎn)，幫助企業(yè)輕松構(gòu)建高質(zhì)量 AI 應(yīng)用，在帶來(lái)創(chuàng)新業(yè)務(wù)體驗(yàn)的同時(shí)，驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng)。

更強(qiáng)模型：大使用量才能打磨出更好模型。豆包大模型目前已經(jīng)在字節(jié)跳動(dòng)內(nèi)部50多個(gè)業(yè)務(wù)、多場(chǎng)景應(yīng)用中落地，經(jīng)過(guò)千億級(jí)日 tokens 的持續(xù)打磨，模型能力和推理效果得到市場(chǎng)的廣泛認(rèn)可。

更低價(jià)格：為了讓每一家企業(yè)都能用得起大模型，火山引擎大幅度降低大模型應(yīng)用推理成本。例如本次登榜的豆包通用模型pro，其 32k 版模型推理輸入價(jià)格僅為0.0008元/千 tokens。

更易落地：火山引擎去年發(fā)布了一站式大模型服務(wù)平臺(tái)火山方舟，通過(guò)模型即服務(wù)的理念，幫助企業(yè)在高效、安全的環(huán)境里應(yīng)用各類(lèi)模型。近期，火山引擎對(duì)方舟平臺(tái)進(jìn)行了全面升級(jí)，升級(jí)后的火山方舟2.0將大幅提升模型效果、核心插件、系統(tǒng)性能以及平臺(tái)體驗(yàn)，幫助企業(yè)推進(jìn)大模型的價(jià)值創(chuàng)造。

目前，豆包大模型已在金融、汽車(chē)、智能終端、電商零售、教育科研等多個(gè)行業(yè)實(shí)踐落地。未來(lái)，火山引擎將持續(xù)探索大模型在千行百業(yè)里的實(shí)踐應(yīng)用，繼續(xù)沉淀字節(jié)跳動(dòng)內(nèi)部和外部客戶(hù)的實(shí)踐經(jīng)驗(yàn)，通過(guò)豆包大模型、火山方舟的全棧 AI 服務(wù)，幫助企業(yè) AI 轉(zhuǎn)型落地，釋放增長(zhǎng)潛能，實(shí)現(xiàn)商業(yè)價(jià)值。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：江海博覽 > 《科技》

舉報(bào)/認(rèn)領(lǐng)