![]() 我搞計算機視覺和 AI 有段時間了,看到這模型真挺興奮。它不光是秀了一把 AI 在邏輯推理上的肌肉,還可能給數學研究、教學,甚至軟件驗證帶來新花樣。當然,它燒的算力不少,證明靠不靠譜也得再掂量掂量。這篇文章,我想從技術的角度聊聊它,看看架構怎么搭的、訓練怎么搞的、表現咋樣,還有未來能玩出啥花頭,希望給有點技術底子的朋友一點靈感。 數學定理證明有多硬核,AI 能插上手嗎?定理證明是個啥數學定理證明是數學的核心活兒,從公理和已知條件出發,一步步推到新結論。這事兒得邏輯嚴絲合縫,還得有點靈光一現的感覺。以前,這都是數學家憑腦子和經驗慢慢磨出來的,費時費力,所以大家都想著,能不能讓 AI 來搭把手。 要是用上 Lean 4 這種形式化證明工具,難度就更上一層樓了。數學家得先把問題從日常語言變成機器能讀懂的形式化代碼,再寫出能跑通的證明。這不光考數學功底,還得懂編程。對 AI 來說,既得抓得住抽象概念,還得理出一串長長的邏輯鏈子,保證代碼不出岔子,真不是件輕松活兒。 AI 能幫啥忙大型語言模型靠著海量文本和代碼喂出來的本事,已經能在數學推理上露兩手。不過定理證明可不是猜對答案就行,得給出能驗的證明過程。早期的 GPT-3 在自然語言數學題上還能湊合,一到形式化證明就露怯,不是邏輯亂套就是語法崩盤。DeepSeek-Prover-V2-671B 的橫空出世可是個大躍進,實力已經能跟一些人類專家過過招了。 模型架構:大而靈活混合專家的路子DeepSeek-Prover-V2-671B 是從 DeepSeek-V3-Base 改出來的,用了個叫混合專家(MoE)的架構,總參數有 6710 億,但實際干活時只調大概 370 億。這設計把模型拆成了一堆“專家”,每個專家管一塊,算起來特別省勁。據說有 256 個專家,每次挑 8 個動態上場,按任務分活兒,既快又不占太多內存。 MoE 這招的好處就是省資源。傳統那種密集模型,比如 GPT-4,干活得把所有參數都拉出來跑,而 MoE 這種稀疏激活能省下 80% 的算力,有點像人腦的分工,誰擅長啥就讓誰上。這模型能在 2048 個 NVIDIA H800 GPU 上跑得飛起,效率真挺高。 長上下文和大腦力這模型支持 128,000 token 的上下文長度,比很多同類(比如 GPT-4 的 32,000 token)強多了。定理證明常要連著好多定義和引理,長的上下文很關鍵。DeepSeek 可能用了多頭潛在注意力(MLA),壓縮緩存來撐長上下文,還不拖慢速度。 精度和優化它支持 BF16、FP8、F32 多種精度,FP8 尤其省內存。Hugging Face 上看,它的權重用 safetensors 存著,分了 163 個文件,總共 685 GB,規模大但結構挺模塊化。 訓練過程:數據加聰明算法先打基礎DeepSeek-Prover-V2-671B 從 DeepSeek-V3-Base 開始,這是個在 14.8 萬億 token 上預訓練的模型,數學、代碼、Lean 4 都練過一遍,基礎很扎實。 自己造數據從 DeepSeek-Prover-V1.5 的報告看,他們用了不少合成數據。從高中、本科的數學競賽題(像 AIME、IMO)入手,翻譯成 Lean 4 語句,再生成證明,攢了大概 800 萬條數據。V2 估計數據更多,或者難度更高了。 微調加強化預訓練后,先用監督微調教它寫證明,數據是問題-證明對,重點練 Lean 4 的語法和邏輯。然后用強化學習(RLPAF),讓 Lean 4 驗證證明,錯了就改,慢慢變好。這有點像 AlphaGo,靠反饋優化。 搜索新招V2 還加了個 RMaxTS,是蒙特卡洛樹搜索(MCTS)的變種,鼓勵模型多試幾種證明路子,比 V1.5 的單線推理強多了。 表現怎么樣測試成績它在幾個測試里表現不錯:
跟別人比比起其他證明模型,V2 領先不少。V1.5 在 MiniF2F 是 63.5%,ProofNet 25.3%,GPT-4 在 FIMO 上一個都沒證明。V2 的進步靠的是模型大、數據多、搜索聰明。 能干啥,有啥影響幫數學家干活它能當數學家的助手,驗證證明、提思路,甚至找新定理。比如驗證幾何定理,省時省力。在 Lean 4 里還能跟證明庫聯動,加速研究。 教學生教育上,它能教學生形式化推理,生成例子或檢查作業。ProverBench 的競賽題說明它很適合 AIME、IMO 備考。 驗軟件證明技術還能用在軟件驗證上,檢查操作系統、加密算法、智能合約,確保沒問題,尤其在航空、醫療這些地方很重要。 推 AI 研究它的訓練法(RLPAF、RMaxTS)也能用到別的推理任務,像軟件調試、法律推理、科學驗證。開源(權重在 Hugging Face)也方便大家研究。 挑戰和未來計算量大6710 億參數得用 2048 個 H800 GPU 訓練,推理也得大集群,一般人用不起。以后可能得壓縮模型或優化推理。 證明靠不靠得住AI 的證明有時會出錯,實際用還得人工或工具再查。未來可以加強錯誤檢查,或者人機合作。 數據咋來的V1.5 用 800 萬條數據,V2 的細節沒說全。公開數據對研究很重要,DeepSeek 可以多透露點。 更高難度現在高中、本科題做得好,但研究生或前沿數學(像代數幾何)還沒測。以后可以試試更難的,或跨到物理證明。 開源和地緣因素DeepSeek 受美國管制影響,可能缺GPU硬件,但開源策略讓全球研究者受益。未來得平衡開源和賺錢。 最后說兩句DeepSeek-Prover-V2-671B 是 AI 證明數學定理的一個大步。它的 MoE 架構、智能訓練和開源讓人眼前一亮,在 MiniF2F、PutnamBench 上成績亮眼。從研究到教學到驗證,潛力很大。不過計算量、可靠性、數據透明還得改進。 我挺看好它的未來。它把數學和 AI 結合得更緊,也給推理任務立了個標桿。以后算力強了,方法更好了,這種模型可能會改變我們探索知識的方式。你覺得 AI 證明定理會怎么影響數學研究?歡迎聊聊! |
|