前兩天,OpenAI發布了下一代的推理模型o3,這是今年早些時候發布的o1推理模型的升級版本。 為啥不叫o2呢?
更準確地說,o3是一個模型系列——就像o1一樣,同時有o3和o3-mini兩個版本,后者是一款更小的精簡版模型,針對特定任務進行了微調。 值得注意的是,o3-mini的訓練者是北大計算機系畢業,后在斯坦福獲得博士學位的任泓宇。 OpenAI研究員任泓宇(左)介紹o3-mini大模型
按OpenAI的說法,o3模型在ARC-AGI圖形邏輯推理基準上獲得了破紀錄的分數。 作為對比,o1模型的得分僅在25%到32%之間。o3的表現幾乎是o1三倍。 AIME 2024(高級數學考試)的正確答案率為96.7%。遠高于o1預覽版的56.7%和o1的83.3%。 最值得關注的是,在全球著名的編碼競賽平臺odeforces評分中,o3取得了2727的評分,而o1評分僅為1891。
人類在ARC-AGI上的平均成就率為84%,因此達到85%被認為是人工智能的一個重要里程碑。
然而,即使使用 OpenAI 的模型,分數在很長一段時間內都沒有任何提高,因為從 2020 年 GPT-3 的 0% 到 2024 年 GPT-4 的 5% 用了四年的時間。 OpenAI聲稱,至少在某些條件下,o3模型可以接近實現AGI。 所謂AGI—— 即“通用人工智能”(artificial general intelligence)的縮寫,泛指能完成人類所能完成的任何任務的人工智能。 ARC-AGI 由人工智能研究員 Fran?ois Cholet 于 2019 年設計,評估人工智能理解抽象概念并將其應用于新情況的能力,而不是簡單地學習數據相關性。 例如,如果您被問到上圖中的輸入和輸出之間有什么區別,你會立即注意到方形空白區域只是用深藍色填充。 這些都是人類很容易理解的規律,但這些問題對于不擅長抽象和推理的傳統人工智能來說卻很難。 OpenAI對此有著自己的定義:“在最具經濟價值的工作上勝過人類的高度自主系統”。 o3 和 o3-mini 最初將通過安全和安保測試計劃向研究人員提供早期訪問權限。如果一切順利,預計將于 2025 年 1 月下旬開始提供 o3-mini,隨后發布完整型號。
別人的iPhone √
|
|