久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    Kimi的數學模型來了,這次甚至能挑戰高考

     九月長安joy168 2024-11-28 發布于廣東

    消停了一陣子之后,國內又有大模型公司打榜 OpenAI 了。

    這不, Kimi 最近推了個數學模型 k0-math ,號稱數學能力可以媲美 OpenAI 的 o1-mini 和 o1-preview ,中高考、考研還有入門競賽題都能跟 o1 過過招。

    Kimi的數學模型來了,這次甚至能挑戰高考

    該說不說, AI 模型開始 “ 炒作 ” 起數學能力,這事兒還挺稀奇,畢竟 AI 的數學能力拉胯也不是一天兩天了,連 strawberry 里有幾個 r 都一直數不清。。。

    就連 OpenAI 的 o1 發布時,也沒有直說自己的數學多么多么厲害,只是點了一下推理能力罷了。

    所以原本以長文本出圈兒的 Kimi ,這回突然卷起了數學,世超確實很好奇,好奇這個 k0-math 到底啥水平???

    而世超在哥們兒的幫助下,也提前體驗了一陣子,今天就借著 Kimi 數學版( 基于 k0-math 模型 )全量開放了,帶著大家瞧瞧這個數學模型有多少斤兩。

    Kimi的數學模型來了,這次甚至能挑戰高考

    目前, Kimi 數學版只能在網頁版上用,入口倒是跟之前的普通版和探索版沒啥區別,但有一點,Kimi 數學版只支持一輪對話。

    像世超一上來,就直戳 Kimi 痛處翻了波舊賬,問它 “13.11% 和 13.8% ,哪個更大? ” 。(之前 Kimi 在這上面翻過車,說 13.11 的整數部分和小數部分都大于 13.8 。。 )

    這次倒是學機靈了,而且很簡單的比數值大小, Kimi 數學版都用上了 “ 為了進一步確認 ”“ 為了確保萬無一失 ”“ 經過多種方法的驗證 ” 這些話術, kuku 輸出了二三十行。

    Kimi的數學模型來了,這次甚至能挑戰高考

    只不過當世超想再次追問的時候,出來的就不是 k0-math 模型了。

    當然,這只是個小插曲,既然官方都已經把 k0-math 的實力挑明,那咱也不客氣了。

    直接上今年高考新課標 1 卷的數學題:已知 cos ( a+ β) =m , tanatan β =2 ,則 cos ( a- β) = ?

    雖說解題過程有些波折,但總算是沒把最后 -3m 的答案弄錯。

    Kimi的數學模型來了,這次甚至能挑戰高考

    這個問題我同時也問了智譜清言和 ChatGPT ,答案倒是沒出入,但區別于一個步驟一個步驟列出來, Kimi 數學版給我一種,它真的在模仿人類思考的過程。

    模型在推導的過程中,懷疑過自己的思路可能是錯誤的,并且對此進行了驗證。

    Kimi的數學模型來了,這次甚至能挑戰高考

    但下面這道概率題, Kimi 數學版就沒那么好運了。

    Kimi的數學模型來了,這次甚至能挑戰高考

    標準答案是 1/2 ,只有 ChatGPT 答對了。

    世超看了眼 Kimi 數學版的推導過程, 24 種可能發生的情況它都列舉出來了,而且每一種情況誰輸誰贏也盤得清清楚楚,甚至最后還檢查了一遍。

    Kimi的數學模型來了,這次甚至能挑戰高考

    但最大的問題出在,它把甲的總得分≥ 2 的次數,漏數了一個。。。實屬可惜。

    咱再找一道 AMC 數學競賽的題目,給 Kimi 數學版試試。

    一個集合由 6 個( 不是不同的 )正整數組成:1 、 7 、 5 、 2 、 5 和 X 。6 個數字的平均值( 算術平均值 )等于集合中的一個值。X 的所有可能值之和是多少?

    這次世超還把豆包也加進來了,同一道題,四個模型只有智譜清言的算錯了。(正確答案是36)

    Kimi的數學模型來了,這次甚至能挑戰高考

    還有個小插曲,本來世超想再給 Kimi 試一道競賽題,結果它直接反過來質疑我。。試了好幾次都是這么個回答,不知道是系統的 bug ,還是它壓根就不會兒這題,干脆裝死。

    Kimi的數學模型來了,這次甚至能挑戰高考

    有一說一,好幾道數學題試下來, Kimi 數學版確實給了我不少驚喜,特別是解題過程中展現出來的思考、推理的能力,又刷新了一波咱對 AI 模型數學能力的認知。

    只可惜幾何題一如既往的菜,只是一道初中級別的幾何選擇題,給 Kimi 數學版的 CPU 都快干燒了,結果還是錯的答案。

    Kimi的數學模型來了,這次甚至能挑戰高考

    至于為啥 Kimi 的 k0-math 模型能有這么大的突破,前段時間世超參加了一場月之暗面的媒體會,月之暗面的創始人楊植麟就告訴世超, k0-math 的成功很大概率要歸功于一個叫做 COT ( Chain of Thought )思維鏈的技術。

    太專業的術語咱也不在這拽了,大伙兒可以把這個 COT 理解為, AI 模型模仿人類的大腦進行邏輯推理,把復雜的任務拆解之后,再一步步地解決。把這個技術運用到模型里,模型就能夠通過 “ 思考 ” 來完成任務并提高正確率。

    而為啥先把這東西用在了一個數學模型上,楊植麟直接引用了伽利略的名言 “ 宇宙是由數學這門語言書寫而成的 ” 。

    Kimi的數學模型來了,這次甚至能挑戰高考

    總之,就是希望先從數學問題入手,再將數學的思維泛化,從而去理解整個世界。

    當然,并不是說模型一旦用上了思維鏈就能得到正確的答案,但這個方式,目前確實可以提高模型對復雜任務的推理能力。

    再舉個例子,咱讓 Kimi 數學版統計 “ chaping debug the world ” 里,有幾個字母 “e” 。

    先分別把 “ chaping ”“ debug ”“ the ”“ world ” 單獨拎出來,再挨個字母一個個查,方法雖然笨,但至少不會出錯。

    就這么說吧,這道簡單的數數題,世超試了一下,只有 Claude 和 Kimi 數學版數對了。

    Kimi的數學模型來了,這次甚至能挑戰高考

    包括在 “ 我有一塊 1 米長的面包,每天吃一半,需要幾天才能把這塊面包吃完 ? ” 的問題中,在大部分 AI 給出永遠吃不完的答案時, Kimi 數學版覺得 “ 是有物理極限的 ” ,認為分到了一納米就不能分了。。。

    Kimi的數學模型來了,這次甚至能挑戰高考

    這種對任務拆解的能力,夸張到什么程度,即使你問它 1+1 等于多少, Kimi 數學版都能給你嘮半天,截圖根本截不完。

    Kimi的數學模型來了,這次甚至能挑戰高考

    另外,在思維鏈的作用下,對糾正 AI 模型犯蠢、不會抓重點的老毛病也有一定效果。

    像前段時間蘋果就發了篇論文,大概意思是說模型壓根就不會推理,隨便加幾個無關痛癢的干擾條件,模型的準確率就會下降。

    但世超這次分別拿 Kimi 數學版和豆包試了試,題目是:超市里,每袋大米售價 50 元,每瓶醬油售價 10 元。如果鮮蝦包購買了 4 袋大米和 4 瓶醬油,并且送給鄰居 1 袋大米和 2 瓶醬油,那么鮮蝦包購買大米比醬油多花了多少錢?

    這道題,還特地加了 “ 送給鄰居 1 袋大米和 2 瓶醬油 ” 的陷阱。

    豆包多少就有點不懂人情世故了,還把自個兒留存的大米和醬油單獨拎出來算。

    Kimi的數學模型來了,這次甚至能挑戰高考

    反觀 Kimi 數學版,深知送出去的禮物潑出去的水。

    Kimi的數學模型來了,這次甚至能挑戰高考

    反正測試下來, k0-math 的解題準確率不能說百分百,但調用了思維鏈之后的邏輯推理過程,很大程度上提高了 Kimi 這個做題家的數學水平。

    而且世超也發現,除了 k0-math 外,國內的幻方 DeepSeek 前兩天也搞了個推理模型 DeepSeek-R1-Lite ,同樣也是紙上水平媲美 o1 。

    Kimi的數學模型來了,這次甚至能挑戰高考

    又是 o1 系列,又是 k0-math 、 DeepSeek-R1-Lite ,可能有差友也好奇,之前不是還在長文本嗎,這怎么突然就卷起了推理能力了?

    其實,傳統的拼算力、拼數據在大模型領域,已經遇到了一定的瓶頸,而靠著強化學習,提高大模型的推理能力,已經成了大伙們卷的新方向。

    這強化學習說白了,就是在訓練時讓 AI 自己試錯,最后摸索出正確答案。

    像 Claude Sonnet 3.5 就是基于強化學習,實現了代碼能力的提升。包括 Kimi 創始人楊植麟在前陣子的媒體分享會上,也無數次 cue 到了強化學習,還說他們接下來會越來越關注基于強化學習的方法去繼續迭代。

    最后,借用楊植麟的 “ 登月論 ” ,如果說,先前的長文本是通往 AGI 的第一步,那么現在讓 AI 學會思考,則是正式開啟了第二階段。

    Kimi的數學模型來了,這次甚至能挑戰高考

      本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發現有害或侵權內容,請點擊一鍵舉報。
      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 国产99视频精品免费专区| 男人扒开女人腿桶到爽免费 | 国产成人精品亚洲资源| 少妇私密推油呻吟在线播放| 亚洲欧美日韩精品久久| 伊人久久无码大香线蕉综合| 成人做受120秒试看试看视频| 免费无码专区毛片高潮喷水| 亚洲国模精品一区二区| 亚洲AV高清一区二区三区尤物| 亚洲精品熟女一区二区| 亚洲国产成人久久精品APP| 成人一区二区不卡国产| 久久婷婷五月综合色国产免费观看 | 亚洲欧洲日产国码AV天堂偷窥| 日产高清砖码砖专区| 狠狠做五月深爱婷婷伊人| 日韩日韩日韩日韩日韩| 久青草国产97香蕉在线视频| 草草影院精品一区二区三区| 久久97人人超人人超碰超国产| A级毛片不卡在线播放| 国产午夜亚洲精品不卡下载| 四虎精品视频永久免费| 亚洲中文字幕无码不卡电影| 午夜成人无码免费看网站| 一本一道久久A久久精品综合| 国产综合有码无码中文字幕| 免费吃奶摸下激烈视频| 无码人妻一区二区三区免费N鬼沢 午夜三级A三级三点在线观看 | 肉大捧一进一出免费视频| 亚洲熟妇自偷自拍另欧美| 美乳丰满人妻无码视频| 欧美老熟妇XB水多毛多| 韩国青草无码自慰直播专区| 2021亚洲国产精品无码| 高清国产MV视频在线观看| 亚洲欧美卡通另类丝袜美腿| 55大东北熟女啪啪嗷嗷叫| 在线天堂中文官网| 成人无码午夜在线观看|