• <tfoot id="ukgsw"><input id="ukgsw"></input></tfoot>
    
    • 久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
      分享

      12月AI大模型橫評-O1第一,deepseek第五

       zhouzd 2025-01-01 發布于四川

      知乎上業界玩家做的這個大模型真實評測排名,還有一定參考價值。轉發給大家。

      #1 參賽選手
      本次新增模型:
      O1
      gemini-2.0-flash-thinking-exp-1219
      DeepSeek V3
      Gemini 2.0 Flash
      Qwen-QwQ 32b
      Qwen-plus 1127、1220
      豆包241215
      天工 O1 Preview
      hunyuan turbo 1223


      #2 前情提要
      本評測是個人性質,結合自己需求和對大模型的理解,使用私有題庫進行長期跟蹤評測。不夠權威,不夠全面。但可以從一個側面觀察各個大模型的長期進化趨勢。
      任何評測都無法給出無死角的權威排行榜,筆者寫這個系列也是分享一種評測思路,以及個人見解。每個人應該根據自己所需,對大模型進行考察。


      對于V3題庫的說明,此處不贅述,新讀者請參見:https://zhuanlan.zhihu.com/p/695717926
      但請允許筆者再次表述一次V3題庫的局限,新題庫聚焦最能反映硬邏輯能力的題型,盡可能逼近模型能力極限,因此不再能反映用戶實際體驗。可以把V3題庫看作高考用來拉開區分度的大題(極限能力),但能做對大題也不代表前面簡單題就全對(用戶體驗)。讀者需要意識到,你所體驗到的大模型能力,是綜合了各種工程優化之后的結果,不單是邏輯能力。


      #3 題目和打分
      本次增加Hard題1道,此處列出所有題目大綱和核心考點
      1、程序改錯:代碼理解
      2、基于多重規則判斷單據合法性:規則理解,復雜約束,日期計算
      3、旅游路徑規劃:長文本理解,工具調用能力
      4、【Medium】公元紀年推算天干紀年:計算能力,規則理解
      5、【Medium】閱讀代碼輸出結果:代碼理解,代碼推導
      6、【Medium】計算有時間重疊下最少會議室數量:計算能力
      7、【Medium】從代碼中推測json結構:代碼理解,短期記憶,數據結構理解
      8、【Medium】提供上下文的代碼補全:代碼理解,指令遵守
      9、【Medium】密文解碼:模擬計算
      10、【Medium】棋盤上的圖形:圖形想象,二維記憶能力
      11、【Medium】不提供規則,閱讀某中文編程代碼,并推導輸出:符號理解,遷移學習能力
      12、【Medium】撲克牌按規則洗牌求順序:規則遵循,一維記憶
      13、【Medium】正則匹配:推理推演正則匹配結果
      14、【Medium】4x4 數獨題:多步推理,短期記憶,規則遵循
      15、【Medium】島嶼面積計算:DFS非編程推算
      16、【Medium】信息提取:指令遵守,文本迷惑性,輸出格式要求
      17、【Medium】第2題進階版,增加輸出要求,增加題目細節
      18、【Medium】第6題變體,增加會議室數量,會議人數條件約束
      19、【Medium】故事推理,故事包含復雜物品交換規則,求最終物品和主人對應關系
      20、【Hard】按規則擰魔方后求魔方顏色:三維記憶能力
      21、【Hard】符號重定義后求表達式:規則理解,邏輯陷阱
      22、【Hard】壓縮算法模擬:規則理解,文本計算
      23、【Hard】按提示猜單詞:利用規則推導,排除干擾
      24、【Hard】給定熱量的沙拉搭配:數學計算,數學規則
      25、【Hard】二維字符迷宮:求入口到出口路徑
      26、【Hard】模擬桌游:提供相互影響的復雜規則,推導4位玩家的結局狀態
      27、【Hard】幾何計算:多條線段求交點:直線方程,幾何理解【New】


      其中【Hard】是指目前正確率偏低的題目。【Medium】指回答正確率接近半數的題目。
      打分規則
      1、每道題有至少1個得分點,回答每正確一點即得1分。最終得分是得分除以得分點總數,再乘以10。(即每道題滿分10分)
      2、要求推導過程必須正確,猜對的答案不得分。
      3、要求回答必須完全符合題目要求,如果明確要求不寫解釋,而回答包含了解釋部分,即使正確,也記0分。

      圖片


      #4 成績解析
      1)O1:基本通關V3題庫,除了個別題目的個別細化陷阱點未識別到導致扣分,其他題目均滿分,包括對大模型不友好的逐字符問題,滿分率80%。O1由于隱藏了思考過程,回答結果相當簡略,大部分問題直接給出答案,和簡單的對答案的解析(并不是過程)。幾道和字符相關的問題,如15島嶼面積,O1并沒有像其他所有模型那樣直接數字符個數,而是有一點人的直覺,知道要從二維視角全盤審查。25迷宮問題,先前模型基本卡在第一個岔路口,得分極低,O1是首次全對,但沒有給推導過程。
      由于Hard題偏少,目前的測試并不能反映O1的極限素質,還有待后續的進一步加測。

      2)Gemini 2.0 Flash和thinking-exp:Flash作為輕量模型,確實離之前Exp系列有一些差距。個別難題Exp能穩定做對的,Flash依然拿不到分。但其他問題僅比Exp多一些小錯誤,落后幅度很小。并且在需要逐步推導的題目中,比Exp有更明顯的思維連模式。
      而思維鏈版本的thinking模型就比較厲害了,直接追平O1 mini,并且輸出速度也要比mini快。二者對比的話,O1 mini在處理逐字符問題上更得心應手,flash對編程問題得分稍高。而計算,逐步推導這類思維鏈優勢項目,flash和O1 mini基本都是滿分。

      3)DeepSeek V3:DeepSeek在10號更新一版V2.5之后預告V3,但沒想到僅過了2周V3就來了,小作坊下料就是猛。V3官方宣稱能力在4o之上,實測確實如此。二者相比,V3有部分題目思維鏈模式發揮優勢,得分比4o高。這部分題目V3和之前R1 Lite的推導流程如出一轍。而余下題目,4o靠更低失誤率扳回不少分。不難推測,普通用戶實際使用,或者用簡單問題考察,可能發現4o更好,這也符合預期。
      V3還是保留了許多2.5的硬傷,編程能力下降還未恢復,R1 Lite做的對的數學題,V3只能對一半,可見V3并不是R1的完整版。可以預見下一個版本有望打進前三。

      4)Qwen系列:本次參與評測的有來個模型,先說備受關注的QwQ。QwQ總分和gemini flash相近,二者對比,QwQ在部分字符處理,計算,多步推導相關問題上優勢明顯,flash錯誤率極高。而剩余的同樣需要多步推導,但難度更高的問題上,QwQ明顯力不從心,表現甚至不如flash。而QwQ似乎沒訓練過編程題目,相關問題得分低下。總體來看QwQ實驗驗證性質偏多,還難以用于線上生產。
      plus系列相比自家max系列,迭代更頻繁,價格也更低,但實力整體和max接近。二者在多數題目上回答近似,得分近似,互有優劣,但相差不大。plus在細節處理上更好,max在需要更多步推理的問題上表現更好。
      值得注意的是,plus最后一次更新1220版,整體劣于1127。

      5)豆包:長期以來,豆包憑借運營推廣,和綜合服務多樣性獲得了較多的用戶口碑。但豆包的模型能力和用戶口碑并不匹配,硬實力只在第二梯隊末尾。豆包Pro 1215更新,模型能力提升巨大,總分來到了57分,進入第一梯隊。官方宣稱和4o能力相當,對比來看,豆包在大部分問題上稍弱于4o,表現在細節疏漏較多,復雜指令要求遵循不到位。但也有少數題目,豆包憑借微弱的長文本理解優勢,得分稍高。用戶體驗應該是不如4o,但相差已經不遠。


      #5 附錄 - 歷史成績
      歷史成績只展示百分值,具備可比性。

      圖片
      圖片




      #6 全年
      去年的全年總結里( https://zhuanlan.zhihu.com/p/673886532)有寫到,彼時國內能超越ChatGPT3.5的模型還只有文心4.0通義2.1兩個,而今年底主流廠商基本都完成了對3.5的超越,并且有廠商已深入到GPT4和同代的O1區間。來自北美的大模型廠商領先時間從去年11-12個月,被縮短到3-4個月。在語言大模型以外的領域,像文生圖,文生視頻,國內也不斷涌現出新的勢力,與北美頭部也有一戰之力。
      另一方面我們也不能忽視北美廠商的先發優勢依然強大,創新能力鋒銳不減。2025年將是淘汰賽的一年,預計國內頭部在保持追趕的同時,中尾部跟不上的玩家將逐漸被淘汰出局。競爭依然殘酷。
      為了應對明年頭部紛紛向思維鏈和融合模式轉化,目前V3題庫也需要進一步擴充,計劃將Hard題型占比提升到50%以上,重點補充復雜計算、人類直覺、圖形推理三類題目。希望筆者的評測在25年依然能幫到各位讀者,管中窺豹,從另一個側面了解大模型進化。


        本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發現有害或侵權內容,請點擊一鍵舉報。
        轉藏 分享 獻花(0

        0條評論

        發表

        請遵守用戶 評論公約

        類似文章 更多

        主站蜘蛛池模板: 国产欧美日韩高清在线不卡| 久久97人人超人人超碰超国产| 日韩在线视频线观看一区| 国产在线精品一区二区夜色| 亚韩精品中文字幕无码视频| 日本一道一区二区视频| 人妻大战黑人白浆狂泄| 中文字幕亚洲人妻一区| 精品一区二区不卡无码AV | 99久久精品费精品国产一区二 | 欧美亚洲综合成人A∨在线| 久久精品中文闷骚内射| 亚洲中文字幕日产无码成人片| 无码人妻久久一区二区三区APP | 国产对白老熟女正在播放| 欧美性色欧美A在线图片| 羞羞影院午夜男女爽爽免费视频| 亚洲精品乱码久久久久久不卡| 人妻少妇偷人无码视频| 波多野结衣在线精品视频| 正在播放的国产A一片| 中文 在线 日韩 亚洲 欧美| AV最新高清无码专区| 国产午夜福利免费入口| 亚洲熟妇无码一区二区三区| 丁香婷婷色综合激情五月| 日韩人妻无码精品系列| 久久大香伊蕉在人线免费AV| 日韩国产精品中文字幕| A级大胆欧美人体大胆666| 欧美成人VA免费大片视频| 91中文字幕一区二区| 丁香色欲久久久久久综合网 | 亚洲欧美日韩精品久久| 宾馆人妻4P互换视频| 3D动漫精品啪啪一区二区免费 | 一本一本久久A久久精品综合不卡| 欧美变态另类zozo| 国产乱女乱子视频在线播放| 国产成人AV性色在线影院| 在线a级毛片无码免费真人 |