12月AI大模型橫評-O1第一，deepseek第五

zhouzd 2025-01-01 發布于四川

展開全文

知乎上業界玩家做的這個大模型真實評測排名，還有一定參考價值。轉發給大家。

#1 參賽選手
本次新增模型：
O1
gemini-2.0-flash-thinking-exp-1219
DeepSeek V3
Gemini 2.0 Flash
Qwen-QwQ 32b
Qwen-plus 1127、1220
豆包241215
天工 O1 Preview
hunyuan turbo 1223

#2 前情提要
本評測是個人性質，結合自己需求和對大模型的理解，使用私有題庫進行長期跟蹤評測。不夠權威，不夠全面。但可以從一個側面觀察各個大模型的長期進化趨勢。
任何評測都無法給出無死角的權威排行榜，筆者寫這個系列也是分享一種評測思路，以及個人見解。每個人應該根據自己所需，對大模型進行考察。

對于V3題庫的說明，此處不贅述，新讀者請參見：https://zhuanlan.zhihu.com/p/695717926
但請允許筆者再次表述一次V3題庫的局限，新題庫聚焦最能反映硬邏輯能力的題型，盡可能逼近模型能力極限，因此不再能反映用戶實際體驗。可以把V3題庫看作高考用來拉開區分度的大題（極限能力），但能做對大題也不代表前面簡單題就全對（用戶體驗）。讀者需要意識到，你所體驗到的大模型能力，是綜合了各種工程優化之后的結果，不單是邏輯能力。

#3 題目和打分
本次增加Hard題1道，此處列出所有題目大綱和核心考點：
1、程序改錯：代碼理解
2、基于多重規則判斷單據合法性：規則理解，復雜約束，日期計算
3、旅游路徑規劃：長文本理解，工具調用能力
4、【Medium】公元紀年推算天干紀年：計算能力，規則理解
5、【Medium】閱讀代碼輸出結果：代碼理解，代碼推導
6、【Medium】計算有時間重疊下最少會議室數量：計算能力
7、【Medium】從代碼中推測json結構：代碼理解，短期記憶，數據結構理解
8、【Medium】提供上下文的代碼補全：代碼理解，指令遵守
9、【Medium】密文解碼：模擬計算
10、【Medium】棋盤上的圖形：圖形想象，二維記憶能力
11、【Medium】不提供規則，閱讀某中文編程代碼，并推導輸出：符號理解，遷移學習能力
12、【Medium】撲克牌按規則洗牌求順序：規則遵循，一維記憶
13、【Medium】正則匹配：推理推演正則匹配結果
14、【Medium】4x4 數獨題：多步推理，短期記憶，規則遵循
15、【Medium】島嶼面積計算：DFS非編程推算
16、【Medium】信息提取：指令遵守，文本迷惑性，輸出格式要求
17、【Medium】第2題進階版，增加輸出要求，增加題目細節
18、【Medium】第6題變體，增加會議室數量，會議人數條件約束
19、【Medium】故事推理，故事包含復雜物品交換規則，求最終物品和主人對應關系
20、【Hard】按規則擰魔方后求魔方顏色：三維記憶能力
21、【Hard】符號重定義后求表達式：規則理解，邏輯陷阱
22、【Hard】壓縮算法模擬：規則理解，文本計算
23、【Hard】按提示猜單詞：利用規則推導，排除干擾
24、【Hard】給定熱量的沙拉搭配：數學計算，數學規則
25、【Hard】二維字符迷宮：求入口到出口路徑
26、【Hard】模擬桌游：提供相互影響的復雜規則，推導4位玩家的結局狀態
27、【Hard】幾何計算：多條線段求交點：直線方程，幾何理解【New】

其中【Hard】是指目前正確率偏低的題目。【Medium】指回答正確率接近半數的題目。
打分規則：
1、每道題有至少1個得分點，回答每正確一點即得1分。最終得分是得分除以得分點總數，再乘以10。（即每道題滿分10分）
2、要求推導過程必須正確，猜對的答案不得分。
3、要求回答必須完全符合題目要求，如果明確要求不寫解釋，而回答包含了解釋部分，即使正確，也記0分。

#4 成績解析
1）O1：基本通關V3題庫，除了個別題目的個別細化陷阱點未識別到導致扣分，其他題目均滿分，包括對大模型不友好的逐字符問題，滿分率80%。O1由于隱藏了思考過程，回答結果相當簡略，大部分問題直接給出答案，和簡單的對答案的解析（并不是過程）。幾道和字符相關的問題，如15島嶼面積，O1并沒有像其他所有模型那樣直接數字符個數，而是有一點人的直覺，知道要從二維視角全盤審查。25迷宮問題，先前模型基本卡在第一個岔路口，得分極低，O1是首次全對，但沒有給推導過程。
由于Hard題偏少，目前的測試并不能反映O1的極限素質，還有待后續的進一步加測。

2）Gemini 2.0 Flash和thinking-exp：Flash作為輕量模型，確實離之前Exp系列有一些差距。個別難題Exp能穩定做對的，Flash依然拿不到分。但其他問題僅比Exp多一些小錯誤，落后幅度很小。并且在需要逐步推導的題目中，比Exp有更明顯的思維連模式。
而思維鏈版本的thinking模型就比較厲害了，直接追平O1 mini，并且輸出速度也要比mini快。二者對比的話，O1 mini在處理逐字符問題上更得心應手，flash對編程問題得分稍高。而計算，逐步推導這類思維鏈優勢項目，flash和O1 mini基本都是滿分。

3）DeepSeek V3：DeepSeek在10號更新一版V2.5之后預告V3，但沒想到僅過了2周V3就來了，小作坊下料就是猛。V3官方宣稱能力在4o之上，實測確實如此。二者相比，V3有部分題目思維鏈模式發揮優勢，得分比4o高。這部分題目V3和之前R1 Lite的推導流程如出一轍。而余下題目，4o靠更低失誤率扳回不少分。不難推測，普通用戶實際使用，或者用簡單問題考察，可能發現4o更好，這也符合預期。
V3還是保留了許多2.5的硬傷，編程能力下降還未恢復，R1 Lite做的對的數學題，V3只能對一半，可見V3并不是R1的完整版。可以預見下一個版本有望打進前三。

4）Qwen系列：本次參與評測的有來個模型，先說備受關注的QwQ。QwQ總分和gemini flash相近，二者對比，QwQ在部分字符處理，計算，多步推導相關問題上優勢明顯，flash錯誤率極高。而剩余的同樣需要多步推導，但難度更高的問題上，QwQ明顯力不從心，表現甚至不如flash。而QwQ似乎沒訓練過編程題目，相關問題得分低下。總體來看QwQ實驗驗證性質偏多，還難以用于線上生產。
plus系列相比自家max系列，迭代更頻繁，價格也更低，但實力整體和max接近。二者在多數題目上回答近似，得分近似，互有優劣，但相差不大。plus在細節處理上更好，max在需要更多步推理的問題上表現更好。
值得注意的是，plus最后一次更新1220版，整體劣于1127。

5）豆包：長期以來，豆包憑借運營推廣，和綜合服務多樣性獲得了較多的用戶口碑。但豆包的模型能力和用戶口碑并不匹配，硬實力只在第二梯隊末尾。豆包Pro 1215更新，模型能力提升巨大，總分來到了57分，進入第一梯隊。官方宣稱和4o能力相當，對比來看，豆包在大部分問題上稍弱于4o，表現在細節疏漏較多，復雜指令要求遵循不到位。但也有少數題目，豆包憑借微弱的長文本理解優勢，得分稍高。用戶體驗應該是不如4o，但相差已經不遠。

#5 附錄 - 歷史成績
歷史成績只展示百分值，具備可比性。

#6 全年
去年的全年總結里（ https://zhuanlan.zhihu.com/p/673886532）有寫到，彼時國內能超越ChatGPT3.5的模型還只有文心4.0和通義2.1兩個，而今年底主流廠商基本都完成了對3.5的超越，并且有廠商已深入到GPT4和同代的O1區間。來自北美的大模型廠商領先時間從去年11-12個月，被縮短到3-4個月。在語言大模型以外的領域，像文生圖，文生視頻，國內也不斷涌現出新的勢力，與北美頭部也有一戰之力。
另一方面我們也不能忽視北美廠商的先發優勢依然強大，創新能力鋒銳不減。2025年將是淘汰賽的一年，預計國內頭部在保持追趕的同時，中尾部跟不上的玩家將逐漸被淘汰出局。競爭依然殘酷。
為了應對明年頭部紛紛向思維鏈和融合模式轉化，目前V3題庫也需要進一步擴充，計劃將Hard題型占比提升到50%以上，重點補充復雜計算、人類直覺、圖形推理三類題目。希望筆者的評測在25年依然能幫到各位讀者，管中窺豹，從另一個側面了解大模型進化。