來源丨新智元(ID:AI_era) 作者丨編輯部 谷歌DeepMind的AI智能體,又破紀錄了! 這個名叫AlphaGeometry的AI系統,能做出國際數學奧林匹克(IMO)的30道幾何題中的25道,這個表現,已經接近了人類的奧數金牌得主。 從此,AI在數學領域的推理能力再次實現史詩級升級,超越此前的最高水平。 這一研究已經登上Nature。 論文地址:https://www./articles/s41586-023-06747-5 下面這道IMO大賽幾何真題,曾經難倒了一大批參賽選手,而如今,AI卻能把做出來了! 更特別的是,這個模型是靠合成數據訓練出來的,而非通常使用的真實數據。 訓練過程是這樣的:先初始生成了十億個隨機幾何圖形,全面分析每個圖形中點和線的所有關系。 隨后,AlphaGeometry找出了每個圖形中所有的證明,并反向追溯出為得到這些證明所需添加的額外幾何元素(如果有的話)。 就這樣,AlphaGeometry結合了神經語言模型和符號演繹引擎的優勢,已經形成了一個神經符號系統。 兩個系統中一個提供快速提供直覺式的想法,另一個負責更謹慎理性的決策。一個大膽假設,一個小心求證,不斷改進方案,為復雜的幾何定理找到證明。 而合成數據的思路,也為大模型語料不足的問題,提供了嶄新的出路。 網友驚呼:這簡直就是創造了歷史! OpenAI研究科學家,德撲AI之父Noam Brown表示,「祝賀GoogleDeepMind團隊取得這個成績!看到AI在高等數學方面取得了如此大的進步,令人興奮」。 真題實測 話不多說,我們直接上真題。 已知等腰三角形ABC中,AB和AC的邊長相等,求證:∠ABC=∠BCA。 等腰三角形的底角相等,這是學過初中數學的人都知道的常識(等腰定理1),可是要怎么證明? AlphaGeometry的做法是,通過運行符號推理引擎,來啟動證明搜索。 這個引擎會從定理前提中不知疲倦地推導出新語句,直到定理被證明,或新語句被窮盡。 但如果符號引擎無法找到證明,語言模型就會構造一個輔助點,在符號引擎重試之前增加證明狀態。 如是循環,一直到找到解決方案為止。 比如,在第一個輔助構造「D作為BC的中點」之后,環路終止了。 隨后就開始證明過程,證明由另外兩個步驟組成,這兩個步驟都利用了中點的特性:「BD = DC」,「B,D,C是共線的」。 此后不斷循環,直至證明∠ABC=∠BCA。 與此同時,2015年IMO的P3,也被AlphaGeometry輕松搞定。 如果要做對這道題,需要構建三個輔助點。 在這兩種解決方案中,研究者將語言模型的輸出(藍色)和符號引擎輸出交錯排列,反映出了執行順序。(具體證明過程見論文) 甚至,AlphaGeometry還在IMO 2004 P1中,發現了未被使用的前提。 由于提取最小前提所需的回溯算法,AlphaGeometry識別了一個對證明工作來說不必要的前提:O不必是BC的中點,P、B、C 就是共線。 其中,右上是原始定理圖,底部是廣義定理圖,其中O從其中點位置釋放出來,而P仍然停留在直線BC上。 原始問題要求P介于B和C之間,這是廣義定理和解決方案無法保證的條件。但AlphaGeometry就解決了這一點。 此外,在做2008年IMO P6的證明題中,AlphaGeometry卻失敗了。這是所有30個問題集中最難的一個,人類平均得分僅為0.28/7。 值得一提的是,北大韋神曾連續兩屆以滿分拿下了IMO 2008、IMO 2009的金牌。 為什么考AI要用奧數題 怎么評價一個AI系統的數學和邏輯推理能力夠不夠強? 那自然是給它上最難的數學題,比如IMO的原題。 畢竟,能參加國際數學奧林匹克競賽的,都是全世界數學最優秀的高中生,可以說代表了全人類的最高水平。 所以這一次測試,也可以看作AI和人類的對決! 專家們從2000年至2022年間的IMO競賽題中,選出了30道,組成了IMO-AG-30基準測試集,然后在限定的比賽時間內,讓「選手」們展開對決。 對決結果是,谷歌DeepMind的AlphaGeometry,已經接近了IMO金牌選手的水平。 人類金牌選手平均能解出25.9道題,而AlphaGeometry能解出25道,可以說已經無限逼近人類。 而此前的SOTA AI系統「吳氏方法」,僅能解出10道題。 除了吳氏方法,在AlphaGeometry與其他最先進的方法比較中,30道IMO試題,GPT-4一道也不會做,直接得了0分! 要知道,以前的AI智能體在處理復雜的數學問題時,時常受困于推理能力不足,以及訓練數據的缺乏。 但AlphaGeometry的不同之處在于,它結合了結合了神經語言模型的預測力,和基于規則的推理引擎,讓這兩個系統協同作業,從而尋找解決方案。 研究者還開發了一種方法,可以生成大量的合成訓練數據——高達1億個獨特樣本。 這樣,就可以在有效解決數據不足的問題,在不依賴人類示范的情況下訓練AlphaGeometry。 通過AlphaGeometry,我們可以看出AI在邏輯推理、發現和驗證新知識方面的能力,在不斷增強。 今天,AI已經可以做出奧林匹克級別的幾何題,再過一段時間,可能就會出現更高級、更通用的AI系統,直至某天出現AGI。 現在,谷歌DeepMind已經把AlphaGeometry的代碼和模型開源,希望它們能和其他合成數據生成和訓練的工具一起,為數學、科學和AI領域帶來新的機遇。 項目地址:https://github.com/google-deepmind/alphageometry ![]() 幾何證明雙重buff:大模型+符號推理引擎 具體來說,AlphaGeometry是由2個主要組件構成的神經符號系統(neuro-symbolic system): 1. 神經語言模型 這個AI系統便是通過以上兩個部分協同工作,實現復雜的幾何定理證明。 谷歌DeepMind團隊在此引用了「思考:快與慢」這本書中的理念。 「這有點像我們的『直覺思維』和『邏輯思維』:一個系統提供快速,基于直覺的想法,而另一個系統則進行更為縝密、基于邏輯的決策」。 這里,神經語言模型就是「系統1」,擅長發現數據中的普遍模式和關系,能夠迅速預見到可能有幫助的幾何構造。 然而,它們往往不擅長嚴密的推理,也不能解釋自己的決策過程。 符號推理引擎則不同,可以看作是「系統2」。 它們基于形式邏輯(formal logic),按照明確的規則得出結論,這些結論既合乎邏輯又能解釋清楚。 不過,符號推理引擎在解決大型、復雜問題,可能會顯得「緩慢」且不夠靈活。 AlphaGeometry在解決一個簡單問題時的過程:首先,給定問題及其定理假設(左圖),AlphaGeometry(中圖)利用其符號引擎對圖形進行邏輯推理,從而推導出新的結論,直至找到答案或無法進一步推導。如果答案未找到,AlphaGeometry的語言模型就會引入一個潛在有助于解題的新圖形元素(以藍色表示),為符號引擎提供新的推理途徑。這個過程會不斷重復,直到找到問題的解決方案(右圖)。在這個示例中,僅需加入一個新的圖形元素。 AlphaGeometry語言模型的作用就在于,指引符號推理引擎尋找解決幾何問題的可能路徑。 一般來說,IMO級別的幾何題往往基于圖表,需要在圖表中添加新的幾何元素,比如點、線或圓,才能找到解答。 AlphaGeometry的語言模型能夠預測,在無限可能中哪些新元素最有助于解題。這些提示有助于補全信息的空缺,使得符號引擎能夠對圖表做出更多推斷,并逐步逼近正確答案。 舉個栗子,AlphaGeometry解決了2015年國際數學奧林匹克競賽第三題(如下),右邊是解題過程的精華部分。 整個解題的過程,共計109步邏輯推理。 圖中的藍色部分表示新增加的圖形元素 此外,谷歌團隊還讓AlphaGeometry去解決IMO 2005的P3,共用了110步完成。 完整解題步驟:https://storage./deepmind-media/DeepMind.com/Blog/alphageometry-an-olympiad-level-ai-system-for-geometry%20/AlphaGeometry%20solution.pdf 1億個合成數據,從0訓練AI AlphaGeometry解決數學的能力如此強悍,而更讓人震驚的是:僅用合成數據從0開始完成訓練。 正如谷歌DeepMind所言,因為缺乏訓練數據,AI系統一直難以解決棘手的幾何問題。 對此,研究人員采用了「合成數據」的技術,模擬知識積累過程,無需任何人類演示教學,從0基礎開始訓練AlphaGeometry。 如下圖所示,便是通過合成數據生成的隨機圖形的部分示例。 谷歌使用了10萬個CPU,最初生成了10億個幾何對象的隨機圖,并對每個圖表中的點和線條之間的所有關系進行了全面的推導(運行符號演算和回溯過程用了3-4天)。 AlphaGeometry合成數據生成過程 AlphaGeometry不僅找到了每個圖表中的所有證明,還逆向追溯,確定為了得出這些證明需要增加哪些圖形構造。 研究人員將這個過程稱為「符號演繹與追溯」。 AlphaGeometry生成合成數據的可視化 在這龐大的數據集中經過篩選,剔除重復的樣本,最終獲得了1億個涵蓋不同難度級別的獨特訓練樣本的數據集。 其中,還包含了900萬個附加構造的樣本。 AlphaGeometry的語言模型通過分析這些構造,如何幫助完成證明的眾多案例,能夠在處理奧林匹克級幾何題時,提供有效建議,設計出新的幾何構造。 對生成的合成數據的分析 IMO金牌得主盛贊,AI開創數學推理先河 AlphaGeometry針對IMO賽題給出的解答,都通過了計算機驗證。 谷歌DeepMind將成果與先前的AI方法,以及奧林匹克競賽中的人類選手表現進行了比較。 AlphaGeometry證明步與IMO參與者在不同問題上的平均得分 值得一提的是,他們還請來數學教練及IMO金牌得主Evan Chen評審了AlphaGeometry的部分解答。
每場IMO競賽中,共有6道題目,通常只有2道與幾何有關。 因此,AlphaGeometry只能在大約三分之一的奧賽題目中發揮作用。 盡管如此,它在幾何領域的能力,已足以讓它成為「世界上首個通過2000年和2015年國際數學奧林匹克銅牌標準的AI模型」。 在幾何題解決方面,AlphaGeometry已經接近IMO金牌選手的水平。 谷歌DeepMind稱自己的野心不止于此,還希望推動下一代AI系統在推理方面的發展。
其實,在構造出AlphaGeometry系統之前,谷歌DeepMind和Google Research在AI數學推理上,做了大量的奠基性工作。 此前,谷歌DeepMind就曾推出FunSearch,打破了LLM首次在數學領域未解之謎上取得發現的紀錄。 而谷歌DeepMind的長期目標,就是打造能跨越不同數學領域、具備解決復雜問題、能夠進行高級推理的AI系統,直到實現AGI。 網友:AGI 奇點臨近 AlphaGeometry誕生,堪比AlphaFold、AlphaCode等「阿爾法家族」面世在AI領域掀起的巨震。 與此同時,「合成數據」的重要性和潛力也愈加凸顯。 Google DeepMind聯合創始人兼首席AGI科學家Shane Legg稱,「我還依稀記得1990年Christchurch的New Zealand IMO訓練營里試圖解決瘋狂的幾何難題,現在看到人工智能在這方面變得如此出色,我有點震驚!AGI越來越近了」。 昨天,UCLA博士生Pan Lu關于數學推理基準MathVista研究被ICLR 2024接收為Oral論文。 在看到谷歌最新研究后,他表示,「2021年,我們探索了幾何學的早期研究:我們的InterGPS,一個神經符號求解器,第一次達到了人類的平均水平。現在,AlphaGeometry標志著歷史性的突破:獲得了奧林匹克級別的技能!」 有網友表示,這簡直就是一個大事件。數學推理可以延伸到物理學,物理學也可以延伸到化學和生物學。未來幾年,人工智能可能會主導研究。奇點正在逼近。 大多數在職的數學家都無法做到這一點,尤其是在規定的時間內。僅用合成數據進行訓練,表明數學沒有數據瓶頸。因為我們可以輕松地生成無限高質量的合成數據。 英偉達機器學習科學家Shengyang Sun好奇地問,「這些合成問題會在IMO 2024出現嗎」? CMU機器學習博士Jing Yu Koh表示,「2024年是合成數據年!我非常喜歡幾何領域,因為你有辦法將其與現實世界相結合,以確保合成數據的有效性」。 參考資料: https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/ https://www./articles/s41586-023-06747-5 關注睿獸分析視頻號 |
|