久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    考研數(shù)學(xué)得126分、還能編寫小游戲,智譜首個推理模型來了,人人免費用

     天承辦公室 2025-01-01 發(fā)布于北京

    機器之心報道

    編輯:杜偉

    2024 年的最后一天,智譜 GLM 模型家族迎來了一位新成員——GLM-Zero 的初代版本 GLM-Zero-Preview,主打深度思考與推理

    從年初到年末,在接連推出新一代基座大模型、多模態(tài)模型、視頻生成模型以及語音模型之后,智譜補上了推理模型這塊拼圖。

    據(jù)介紹,GLM-Zero-Preview 是 GLM 家族中專注于增強 AI 推理能力的模型,擅長處理數(shù)理邏輯、代碼和需要深度推理的復(fù)雜問題。同基座模型相比,GLM-Zero-Preview 既沒有顯著降低通用任務(wù)能力,又大幅提升了專家任務(wù)能力。

    以數(shù)學(xué)能力為例,智譜讓 GLM-Zero-Preview 做了一整套 2025 年考研數(shù)學(xué)一,最后得分為 126,達(dá)到了優(yōu)秀研究生水平。從下圖可以看到,模型給出了詳細(xì)的解題步驟。

    圖片

    再看下代碼能力,GLM-Zero-Preview 熟練使用多種編程語言,可以幫助開發(fā)者快速編寫代碼,如下使用 HTML 語言獨立編寫了一個第一人稱射擊游戲。另外它還可以調(diào)試代碼,快速識別錯誤并給出修復(fù)建議。

    圖片

    目前,GLM-Zero-Preview 已經(jīng)上線使用。用戶可以在智譜清言網(wǎng)頁端選擇「Zero 推理模型」智能體,上傳文字或圖片就能免費體驗。另外,GLM-Zero-Preview 的 API 也在智譜開放平臺同步上線以供開發(fā)者調(diào)用。

    圖片

    • 智譜清言:http:///

    • 智譜開放平臺:https:///

    • 2000萬token免費體驗資源包領(lǐng)取地址:https://zhipuaishengchan.datasink./t/7K


    一手實測
    智譜深度推理大摸底

    先來看官方給出的指標(biāo)。作為智譜首個基于擴展強化學(xué)習(xí)技術(shù)訓(xùn)練的推理模型,GLM-Zero-Preview 在多個基準(zhǔn)上與 OpenAI o1-preview 互有勝負(fù),其中在數(shù)學(xué)基準(zhǔn)測試 AIME 2024、MATH500 以及代碼生成基準(zhǔn)測試 LiveCodeBench 中實現(xiàn)小幅超越。

    圖片


    在技術(shù)實現(xiàn)上,由于強化學(xué)習(xí)訓(xùn)練量的增加,GLM-Zero-Preview 的深度推理能力得到穩(wěn)步提升。同時隨著模型在推理階段可以思考的 token 數(shù)變多以及計算量增加,GLM-Zero-Preview 的輸出結(jié)果質(zhì)量也穩(wěn)步提升。

    得益于以上兩點,GLM-Zero-Preview 表現(xiàn)出了類人的思考決策過程,初步具備了「推理過程中自主決策、問題拆解、嘗試多種方式解決問題」等能力。

    是騾子是馬,溜后才知道。GLM-Zero-Preview 在真實世界任務(wù)中的表現(xiàn)如何?機器之心進(jìn)行了一波全方位的測試。

    我們搜羅了各種類型的推理問題,看看 GLM-Zero-Preview 能不能 hold 住這些容易繞暈人的中文邏輯陷阱題,以及需要數(shù)學(xué)、物理等專業(yè)學(xué)科知識與思辨能力的題目。

    比大小不會翻車、有干擾項也無妨

    大模型以前經(jīng)常翻車的小數(shù)點后比大小問題,GLM-Zero-Preview 輕松搞定。我們看到了該模型的深度思考鏈路,它的顯著特點是在理解問題及解題關(guān)鍵的基礎(chǔ)上,從不同的角度分析、驗證并給出答案。整個過程看下來,GLM-Zero-Preview 點「PUA」自己,生怕會出錯,多次檢查并肯定自己的答案無誤。

    圖片

    對于一些設(shè)置了干擾項的推理問題,GLM-Zero-Preview 也絲毫不會受到影響,很快理清思路,排除干擾項。

    圖片

    不落入語言陷阱、拿捏復(fù)雜推理

    中文語境下有很多陷阱,比如歧義性、語境依賴、隱含信息、文化背景等,應(yīng)對起來要求推理大模型「吃透」語言特點,并能夠結(jié)合上下文信息、語義知識和常識推理,明辨其中的彎彎繞。

    面對這類中文陷阱題目,GLM-Zero-Preview 給出的深度思考過程顯示,它從不同的視角考慮和深度推理,排除一切的不可能之后,確認(rèn)最合理的解釋和答案。

    圖片

    另外,面對復(fù)雜的中文邏輯推理問題,尤其涉及多個角色人物時,GLM-Zero-Preview 不會被搞混。通過深度思考進(jìn)行情況羅列與假設(shè)分析,并輔以縝密的條件驗證,整個過程像抽繭剝絲的判案一樣。

    圖片

    GLM-Zero-Preview 給出了邏輯清晰的解題步驟。

    圖片

    常識推理無壓力、時間感知能力強

    如今的大模型在「喂」給足夠多的高質(zhì)量數(shù)據(jù)之后,像人一樣掌握了豐富的常識,做起此類推理題來沒有壓力。

    圖片

    在時間推理中,大模型需要理解時間順序、事件發(fā)生的時序關(guān)系,要有清晰的預(yù)測和推斷能力。比如下面的時間推理場景,想必很多人都會被繞暈,而 GLM-Zero-Preview 做到了對多個角色參與的復(fù)雜時間關(guān)系的準(zhǔn)確判斷。

    圖片

    數(shù)學(xué)小能手上線

    大模型的數(shù)學(xué)能力可以為人們在很多數(shù)學(xué)任務(wù)中提供有力支持,比如代數(shù)、微積分、概率統(tǒng)計。GLM-Zero-Preview 具備了更強的歸納與演繹能力,比如下面這道序列求解題,它在深度思考過程中觀察規(guī)律、找出規(guī)律、驗證規(guī)律。

    圖片

    面對經(jīng)典的青蛙爬井問題,GLM-Zero-Preview 不僅給出了正確的解題思路和答案,還總結(jié)了一波經(jīng)驗心得。

    圖片

    再考它一道出自 2024 高考數(shù)學(xué)北京卷的條件判斷題,顯然難不倒 GLM-Zero-Preview,它通過等價代換的方式得出了正確答案。

    圖片

    hold 弱智吧

    在面對一些弱智吧問題時,GLM-Zero-Preview 一板一眼地進(jìn)行理論層面以及實際可行性的分析,并展開論證,令人忍俊不禁。

    圖片

    視覺推理多面手

    目前,GLM-Zero-Preview 支持上傳 png、jpg、jpeg、webp 等多種格式的圖片,并能夠應(yīng)對很多類型的推理任務(wù),比如解帶有電路圖的高考物理題(2024 北京卷):

    圖片

    以下為完整的解題步驟:

    圖片

    還能理解梗圖:

    圖片

    推理模型大 PK
    誰更勝一籌

    接下來,機器之心讓 GLM-Zero-Preview 與 o1、DeepSeek-R1-Lite 預(yù)覽版、QwQ-32B-Preview 等競品模型來了一場對決。

    先考它們一道數(shù)學(xué)組合題,看看哪個模型邏輯性更強。

    首先是 GLM-Zero-Preview:

    圖片

    然后是 o1:

    圖片

    接著是 DeepSeek-R1-Lite 預(yù)覽版:

    圖片

    最后是 QwQ-32B-Preview:

    圖片

    比較下來,我們可以發(fā)現(xiàn),o1 的推理過程最簡單,缺少驗證的環(huán)節(jié)。其他三個模型在給出解題思路之后都對步驟和計算進(jìn)行了確認(rèn),其中 DeepSeek-R1-Lite 預(yù)覽版、QwQ-32B-Preview 的驗證相對簡單一些,而 GLM-Zero-Preview 不僅解題過程更清晰完整,還展示了自我反思、自我懷疑、自我肯定等擬人化的思維模式。

    再來第二輪較量,這次是一道中文陷阱推理題,看看哪個模型頭腦更清楚。

    首先是 o1 與 QwQ-32B-Preview,思考過程很短:

    圖片

    圖片

    GLM-Zero-Preview、DeepSeek-R1-Lite 預(yù)覽版的解釋更透徹,充分考慮了條件限制與現(xiàn)實世界的可能性。不過,DeepSeek-R1-Lite 預(yù)覽版的一些解釋又略顯重復(fù),不如 GLM-Zero-Preview 明了。

    圖片

    圖片

    思考過程與思維鏈路上的優(yōu)勢,足以讓 GLM-Zero-Preview 不輸其他一眾推理大模型。

    結(jié)語

    在對 GLM-Zero-Preview 體驗一番后,我們的最大感受是:它的深度思考過程讓邏輯推理更加完整、連貫,準(zhǔn)確度和說服力更強。從「審題、分析、多方式證明」到「自我懷疑、驗證、再驗證」到「最后確認(rèn)」,環(huán)環(huán)相扣。

    當(dāng)然,智譜表示,目前 GLM-Zero-Preview 與 o3 還有不少的差距,未來會通過強化學(xué)習(xí)技術(shù)的持續(xù)優(yōu)化迭代,讓它成為更聰明的推理者。正式版 GLM-Zero 將很快推出,到時候深度思考能力會從數(shù)理邏輯擴展到更通用的技術(shù),保證更專精的同時全能性也更強。

    回看這一整年,智譜動作不斷,GLM 家族更加壯大,包括基座模型、多模態(tài)模型、視頻生成模型、語音模型、推理模型以及智能體方面火出圈的 AutoGLM、GLM-PC,如今這家大模型獨角獸的產(chǎn)品矩陣在完整度層面稱得上業(yè)界領(lǐng)先。

    持續(xù)出新的背后是智譜對 AGI 終極目標(biāo)的追求。智譜形成了一套從 L1 到 L5 階段的 AGI 路線圖,在 AI 分級上注入自己的能力進(jìn)化思考。在一步步邁向 AGI 的過程中,從低到高在各個 AI 層級做能力填充,夯實語言、多模態(tài)、邏輯推理、工具使用等基礎(chǔ)能力。GLM-Zero-Preview 代表智譜邁出了 L4 階段的關(guān)鍵一步,大模型開始內(nèi)省,并具備自我學(xué)習(xí)、自我反思、自我改進(jìn)能力

    圖片

    現(xiàn)在,市面上的推理大模型已經(jīng)有了一些,甚至 OpenAI 發(fā)布了更強的 o3 系列模型。智譜在年末最后一天這個時間節(jié)點推出了自己的 GLM-Zero,可見對于所有以 AGI 為目標(biāo)的玩家來說,2025 年模型推理能力無疑是被寄予厚望的一年。

      本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
      轉(zhuǎn)藏 分享 獻(xiàn)花(0

      0條評論

      發(fā)表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 英语老师解开裙子坐我腿中间| 久久亚洲国产精品成人AV秋霞| 精品一区二区不卡无码AV| 国产精品免费久久久久影院| 亚洲av无码精品蜜桃| 久久综合亚洲鲁鲁九月天| 色悠久久久久综合网伊| 亚洲精品香蕉一区二区| 啊轻点灬大JI巴太粗太长了欧美| 奇米网777色在线精品| 国产精品自在拍首页视频8| 国产V片在线播放免费无码| 国产不卡一区二区精品| 色一乱一伦一图一区二区精品| jizzjizz少妇亚洲水多| 日韩免费无码一区二区三区| 国产精品天干天干综合网| 国产清纯在线一区二区| 国产精品国三级国产av| 久久亚洲色WWW成人男男| 久久精品国产亚洲av麻豆不卡| 欧美在线人视频在线观看| 亚洲AV无码乱码在线观看牲色| 人妻系列无码专区免费| 推油少妇久久99久久99久久| 午夜大片爽爽爽免费影院| 99久久无码私人网站| 久9视频这里只有精品试看| 午夜福利国产精品视频| 国产欧美日韩A片免费软件| 精品卡通动漫亚洲AV第一页| 男人的天堂av社区在线| 亚洲午夜福利AV一区二区无码| 亚洲成人av在线资源| 国产欧美久久久精品影院| 免费人成黄页在线观看国产| 亚洲熟妇自偷自拍另类| 国产综合色在线精品| 国产精品久久久久久无码五月| 久久先锋男人AV资源网站| 亚洲av成人无码精品电影在线|