【原】如何評價 Deepseek 新發布的 DeepSeek-Prover-V2-671B 模型?

方小米 2025-05-02 發布于浙江

展開全文

開門見山：AI 玩轉數學的硬核時刻

最近幾年，AI 的發展簡直像開了掛，大型語言模型早就不是只會寫寫文章、翻翻語言的小能手了，而是直接沖進了數學這種硬核地帶。2025 年 4 月，DeepSeek 放大招，推出了 DeepSeek-Prover-V2-671B，參數高達 6710 億，專為在 Lean 4 語言里證明數學定理而生。這家伙在 MiniF2F 測試里拿下 88.9% 的通過率，還在 PutnamBench 上搞定了 49 個問題（總共 658 個），在 AI 搞形式化數學推理這塊，絕對算得上是大事件。

我搞計算機視覺和 AI 有段時間了，看到這模型真挺興奮。它不光是秀了一把 AI 在邏輯推理上的肌肉，還可能給數學研究、教學，甚至軟件驗證帶來新花樣。當然，它燒的算力不少，證明靠不靠譜也得再掂量掂量。這篇文章，我想從技術的角度聊聊它，看看架構怎么搭的、訓練怎么搞的、表現咋樣，還有未來能玩出啥花頭，希望給有點技術底子的朋友一點靈感。

數學定理證明有多硬核，AI 能插上手嗎？

定理證明是個啥

數學定理證明是數學的核心活兒，從公理和已知條件出發，一步步推到新結論。這事兒得邏輯嚴絲合縫，還得有點靈光一現的感覺。以前，這都是數學家憑腦子和經驗慢慢磨出來的，費時費力，所以大家都想著，能不能讓 AI 來搭把手。

要是用上 Lean 4 這種形式化證明工具，難度就更上一層樓了。數學家得先把問題從日常語言變成機器能讀懂的形式化代碼，再寫出能跑通的證明。這不光考數學功底，還得懂編程。對 AI 來說，既得抓得住抽象概念，還得理出一串長長的邏輯鏈子，保證代碼不出岔子，真不是件輕松活兒。

AI 能幫啥忙

大型語言模型靠著海量文本和代碼喂出來的本事，已經能在數學推理上露兩手。不過定理證明可不是猜對答案就行，得給出能驗的證明過程。早期的 GPT-3 在自然語言數學題上還能湊合，一到形式化證明就露怯，不是邏輯亂套就是語法崩盤。DeepSeek-Prover-V2-671B 的橫空出世可是個大躍進，實力已經能跟一些人類專家過過招了。

模型架構：大而靈活

混合專家的路子

DeepSeek-Prover-V2-671B 是從 DeepSeek-V3-Base 改出來的，用了個叫混合專家（MoE）的架構，總參數有 6710 億，但實際干活時只調大概 370 億。這設計把模型拆成了一堆“專家”，每個專家管一塊，算起來特別省勁。據說有 256 個專家，每次挑 8 個動態上場，按任務分活兒，既快又不占太多內存。

MoE 這招的好處就是省資源。傳統那種密集模型，比如 GPT-4，干活得把所有參數都拉出來跑，而 MoE 這種稀疏激活能省下 80% 的算力，有點像人腦的分工，誰擅長啥就讓誰上。這模型能在 2048 個 NVIDIA H800 GPU 上跑得飛起，效率真挺高。