久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    國(guó)內(nèi)首個(gè)對(duì)標(biāo)o1的推理模型發(fā)布:DeepSeek-R1-Lite初體驗(yàn)!

     江海博覽 2024-11-21 發(fā)布于浙江

    2024年9月12日,OpenAI的首個(gè)推理模型o1重磅發(fā)布。從該模型的命名也可以看出,o1走的路和GPT系列模型不是同一條,否則它就應(yīng)該被命名為GPT-5了。

    推理模型的推理二字,是指模型在回答問(wèn)題前會(huì)主動(dòng)思考,將一個(gè)復(fù)雜問(wèn)題拆解為多個(gè)子問(wèn)題,逐個(gè)擊破,再生成最終答案。這種方式和我們?nèi)祟?lèi)解決難題的過(guò)程是一樣的,回想如果我們面對(duì)一道數(shù)學(xué)難題,是不是也是同樣的思路,先思考,然后一步步解答。這個(gè)思考過(guò)程被稱(chēng)為內(nèi)部思維鏈(internal chain of thought)。關(guān)于思維鏈更詳細(xì)的介紹,可以看我這篇文章:《思維鏈(Chain-of-Thought)技術(shù)的背后,是人類(lèi)思考問(wèn)題的方式!》。

    o1模型經(jīng)過(guò)了思維鏈的加持后,在物理、化學(xué)和生物學(xué)等復(fù)雜學(xué)科的高難度基準(zhǔn)任務(wù)上,表現(xiàn)幾乎與博士生相當(dāng)。在數(shù)學(xué)編碼領(lǐng)域則更加出色。在國(guó)際數(shù)學(xué)奧林匹克(IMO)資格考試中,o1模型的正確率達(dá)到了驚人的83%,作為對(duì)比,GPT-4o的正確率為13%。在Codeforces編程競(jìng)賽中,o1的表現(xiàn)達(dá)到了第89百分位(即表現(xiàn)超過(guò)了89%的評(píng)估對(duì)象,排名前11%)。

    在接下來(lái)的幾個(gè)月里,國(guó)內(nèi)的不少AI公司也在紛紛嘗試,但更多的是在應(yīng)用方面,如Kimi、智譜、天工和360的推理型AI搜索。單就推理模型而言,除了上周月之暗面(Kimi)官宣的數(shù)學(xué)推理模型k0-math,并沒(méi)有太多的更新。但由于k0-math還處于PPT階段,并未真正開(kāi)放使用,真實(shí)體驗(yàn)如何還未可知。

    圖片

    然而,今天文章的主角并不是月之暗面的k0-math,而是DeepSeek(中文名:深度求索)的DeepSeek-R1-Lite。和k0-math的宣傳預(yù)熱階段不同,DeepSeek-R1-Lite是已經(jīng)切切實(shí)實(shí)發(fā)布了的對(duì)標(biāo)o1的國(guó)產(chǎn)推理模型。

    關(guān)于DeepSeek

    DeepSeek由知名量化私募幻方量化于2023年成立的AI初創(chuàng)公司,專(zhuān)注于開(kāi)發(fā)通用人工智能(AGI)底層模型和技術(shù)。DeepSeek的產(chǎn)品和技術(shù)以開(kāi)源為主,包括多個(gè)百億級(jí)參數(shù)的模型,如DeepSeek-LLMDeepSeek-Coder,以及混合專(zhuān)家模型(MoE)DeepSeek-V2V2.5。值得一提的是,該公司以高性?xún)r(jià)比和性能著稱(chēng),被稱(chēng)為“AI界的拼多多”。比如,DeepSeek-V2的API定價(jià)為每百萬(wàn)Tokens輸入1元、輸出2元。

    在LMSYS聊天機(jī)器人競(jìng)技場(chǎng)排名榜中,目前DeepSeek-V2.5模型綜合排名為22名。

    圖片

    關(guān)于DeepSeek-R1-Lite

    DeepSeek-R1-Lite是DeepSeek于2024年11月20日發(fā)布的推理模型,目前已經(jīng)發(fā)布的為預(yù)覽版(和OpenAI的o1一樣)。根據(jù)DeepSeek官方介紹,R1系列模型使用強(qiáng)化學(xué)習(xí)訓(xùn)練,推理過(guò)程包含大量反思和驗(yàn)證,思維鏈長(zhǎng)度可達(dá)數(shù)萬(wàn)字。該系列模型在數(shù)學(xué)、代碼以及各種復(fù)雜邏輯推理任務(wù)上,取得了媲美o1-preview的推理效果,并為用戶(hù)展現(xiàn)了o1沒(méi)有公開(kāi)的完整思考過(guò)程。

    下面是DeepSeek官方放出的基準(zhǔn)測(cè)試對(duì)比圖。

    圖片

    DeepSeek-R1-Lite初體驗(yàn)

    目前DeepSeek-R1-Lite在DeepSeek官網(wǎng)上免費(fèi)可用,每用戶(hù)每天使用數(shù)量限制為50次。在這里不得不吐槽Kimi探索版,每人每天只能用5次,我做個(gè)測(cè)試還得分幾天才能測(cè)試完。

    DeepSeek官網(wǎng):https://chat./

    圖片

    另外需要指出的是,和o1一樣,DeepSeek-R1-Lite也是個(gè)純文本模型,目前不支持解析文件。

    1. 幾何推理

    一個(gè)圓的半徑為10,在其內(nèi)部隨機(jī)選擇兩點(diǎn),計(jì)算這兩點(diǎn)之間的平均距離。

    先上結(jié)果。這道需要用到積分的題目結(jié)果完全正確

    圖片

    附上DeepSeek-R1-Lite長(zhǎng)達(dá)61秒的思考過(guò)程。

    圖片

    2. 組合數(shù)學(xué)

    一個(gè)班有12名男生和10名女生,要從中選出6人組成一個(gè)小組,要求至少有2名女生,問(wèn)有多少種不同的選法?

    19秒就得到了答案65769,完全正確。并且還附上了一個(gè)反向思考的驗(yàn)證過(guò)程,有點(diǎn)厲害。

    圖片

    3. 邏輯推理

    觀察以下數(shù)列,推斷規(guī)律并預(yù)測(cè)下一個(gè)數(shù)字:2,6,15,31,56

    這道題目,相鄰數(shù)字的差值為遞增的平方數(shù)4,9,16,25。所以下一個(gè)數(shù)字應(yīng)該是56加36,92。回答正確

    圖片

    4. 真假話推理

    三個(gè)囚犯 A、B 和 C,分別戴著紅帽或藍(lán)帽(但無(wú)法看到自己的帽子)。守衛(wèi)說(shuō):“至少有一個(gè)囚犯戴著紅帽。” A 說(shuō):“我不知道我的帽子顏色。” B 說(shuō):“我也不知道。” C 說(shuō):“我知道了。” 問(wèn) C 的帽子是什么顏色?

    總算有一道題難倒DeepSeek-R1-Lite了,回答錯(cuò)誤。這道題其實(shí)可以簡(jiǎn)單思考,只有A藍(lán)B藍(lán)的情況下,C才能根據(jù)“至少有一個(gè)紅帽”來(lái)斷定自己的帽子顏色。所以C應(yīng)該是紅色。

    經(jīng)過(guò)檢查DeepSeek-R1-Lite的思維鏈,我發(fā)現(xiàn)它把自己繞進(jìn)去了,直到最后也沒(méi)能繞出來(lái),屬于“過(guò)度思考”了。

    圖片

    作為對(duì)比,附上o1-preview的答案。

    圖片

    結(jié)語(yǔ)

    在測(cè)試過(guò)程中,我還遇到了中英文思考、輸出混亂的問(wèn)題。但綜合來(lái)看,DeepSeek-R1-Lite已經(jīng)展現(xiàn)出了一個(gè)推理模型應(yīng)有的推理能力,并且還是免費(fèi)使用,值得嘗試。

      本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
      轉(zhuǎn)藏 分享 獻(xiàn)花(0

      0條評(píng)論

      發(fā)表

      請(qǐng)遵守用戶(hù) 評(píng)論公約

      類(lèi)似文章 更多

      主站蜘蛛池模板: 国内少妇人妻偷人精品| 狠狠亚洲色一日本高清色| 亚洲欧美日韩在线码| 乱码中字在线观看一二区| 51精品免费视频国产专区| 亚洲成A人片在线观看的电影| 亚洲国产成人AⅤ毛片奶水| 国内精品久久人妻无码不卡| 中文字幕亚洲无线码A| 国产偷国产偷亚洲清高| 蜜桃视频一区二区在线观看| 亚洲综合色AAA成人无码| 一本一本久久A久久精品综合不卡| 亚洲精品国产精品国自产观看| 少妇又爽又刺激视频| 清一区二区国产好的精华液| 亚洲香蕉网久久综合影视| 国产精品情侣呻吟对白视频| 又色又污又爽又黄的网站| 视频一区视频二区制服丝袜| 东北女人毛多水多牲交视频| 中文字幕日韩有码国产| 真实国产老熟女粗口对白| 国产精品午夜福利91| 国产精品永久免费视频| 亚洲色成人一区二区三区| 欧美和黑人xxxx猛交视频| 国产亚洲精品第一综合另类灬| 在线高清免费不卡全码| 无码8090精品久久一区| 99久久免费只有精品国产| 日韩V欧美V中文在线| 亚洲小说乱欧美另类| 国产99视频精品免视看9| 办公室强奷漂亮少妇同事| 草草浮力影院| 亚洲成AV人片在线观看麦芽| 四虎国产精品成人| 小嫩批日出水无码视频免费| 婷婷四房播播| 亚洲精品97久久中文字幕无码|