深度求索(DeepSeek)這家公司可謂是一舉成名,迅速在人工智能領(lǐng)域引起了廣泛關(guān)注。不過,我在訪問官網(wǎng)時發(fā)現(xiàn),在 DeepSeek 的官網(wǎng)上,展示的模型是 V3: 然而,真正讓 DeepSeek 聲名大噪的,卻是 R1 這一模型。根據(jù)發(fā)布記錄,V3 要早于 R1 發(fā)布。R1 開源發(fā)布,難道是 V3 的精簡版本?就像很多商業(yè)軟件的做法。就這個問題,我問了一問 DeepSeek,得到如下答案:
后面一個答案是開啟了深度思考模式下的答案。這種深度思考模式也是 DeepSeek 引起轟動的原因之一,它會將分析過程展現(xiàn)出來,而不像之前的 GPT,就如同一個黑盒,只給出一個答案。 那么,DeepSeek V3 和 R1 之間到底有什么區(qū)別?為此,我專門去搜了一下資料,進(jìn)行了總結(jié)。由于水平有限,不一定正確,如有錯漏,還望指正。 模型目標(biāo)與設(shè)計(jì)理念
DeepSeek R1 主要針對需要復(fù)雜邏輯推理的任務(wù)進(jìn)行優(yōu)化,并利用強(qiáng)化學(xué)習(xí)技術(shù)來提升推理能力。該模型特別適用于涉及邏輯推理和問題求解的應(yīng)用場景。
DeepSeek V3 采用混合專家(MoE)架構(gòu),主要面向自然語言處理(NLP)任務(wù),旨在提供高效、可擴(kuò)展的解決方案。其廣泛的應(yīng)用涵蓋了客戶服務(wù)、文本摘要、內(nèi)容生成等多個領(lǐng)域。 模型架構(gòu)解析
DeepSeek V3 采用混合專家(Mixture-of-Experts, MoE)架構(gòu),這一設(shè)計(jì)極大地提升了大型語言模型的計(jì)算效率和性能。其關(guān)鍵特點(diǎn)如下:
2. DeepSeek R1 利用 V3 的架構(gòu)優(yōu)化推理 DeepSeek R1 充分利用了 V3 的架構(gòu),但在設(shè)計(jì)上針對推理任務(wù)進(jìn)行了優(yōu)化: DeepSeek R1 依靠動態(tài)門控機(jī)制,使其在推理任務(wù)中表現(xiàn)出色。它可以根據(jù)查詢內(nèi)容選擇性激活相關(guān)專家,從而在保證計(jì)算效率的同時,提供精準(zhǔn)的邏輯推理能力。此外,該模型結(jié)合了負(fù)載均衡策略,確保專家間的合理分工,避免單個專家成為計(jì)算瓶頸。 結(jié)語DeepSeek V3 和 R1 各自擅長不同的任務(wù)領(lǐng)域:
現(xiàn)在 DeepSeek 的 Chat 應(yīng)用,應(yīng)該是結(jié)合了兩個模型的優(yōu)勢。在對話框中如果開啟了深度思考模式,就會啟用 R1模型。想必其它 AI 廠商很快就會跟進(jìn),也會加入深度思考模式。 如何學(xué)習(xí)大模型 AI ?由于新崗位的生產(chǎn)效率,要優(yōu)于被取代崗位的生產(chǎn)效率,所以實(shí)際上整個社會的生產(chǎn)效率是提升的。 但是具體到個人,只能說是: “最先掌握AI的人,將會比較晚掌握AI的人有競爭優(yōu)勢”。 這句話,放在計(jì)算機(jī)、互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)的開局時期,都是一樣的道理。 我在一線互聯(lián)網(wǎng)企業(yè)工作十余年里,指導(dǎo)過不少同行后輩。幫助很多人得到了學(xué)習(xí)和成長。 我意識到有很多經(jīng)驗(yàn)和知識值得分享給大家,也可以通過我們的能力和經(jīng)驗(yàn)解答大家在人工智能學(xué)習(xí)中的很多困惑,所以在工作繁忙的情況下還是堅(jiān)持各種整理和分享。但苦于知識傳播途徑有限,很多互聯(lián)網(wǎng)行業(yè)朋友無法獲得正確的資料得到學(xué)習(xí)提升,故此將并將重要的AI大模型資料包括AI大模型入門學(xué)習(xí)思維導(dǎo)圖、精品AI大模型學(xué)習(xí)書籍手冊、視頻教程、實(shí)戰(zhàn)學(xué)習(xí)等錄播視頻免費(fèi)分享出來。 第一階段(10天):初階應(yīng)用該階段讓大家對大模型 AI有一個最前沿的認(rèn)識,對大模型 AI 的理解超過 95% 的人,可以在相關(guān)討論時發(fā)表高級、不跟風(fēng)、又接地氣的見解,別人只會和 AI 聊天,而你能調(diào)教 AI,并能用代碼將大模型和業(yè)務(wù)銜接。
第二階段(30天):高階應(yīng)用該階段我們正式進(jìn)入大模型 AI 進(jìn)階實(shí)戰(zhàn)學(xué)習(xí),學(xué)會構(gòu)造私有知識庫,擴(kuò)展 AI 的能力。快速開發(fā)一個完整的基于 agent 對話機(jī)器人。掌握功能最強(qiáng)的大模型開發(fā)框架,抓住最新的技術(shù)進(jìn)展,適合 Python 和 JavaScript 程序員。
第三階段(30天):模型訓(xùn)練恭喜你,如果學(xué)到這里,你基本可以找到一份大模型 AI相關(guān)的工作,自己也能訓(xùn)練 GPT 了!通過微調(diào),訓(xùn)練自己的垂直大模型,能獨(dú)立訓(xùn)練開源多模態(tài)大模型,掌握更多技術(shù)方案。 到此為止,大概2個月的時間。你已經(jīng)成為了一名“AI小子”。那么你還想往下探索嗎?
第四階段(20天):商業(yè)閉環(huán)對全球大模型從性能、吞吐量、成本等方面有一定的認(rèn)知,可以在云端和本地等多種環(huán)境下部署大模型,找到適合自己的項(xiàng)目/創(chuàng)業(yè)方向,做一名被 AI 武裝的產(chǎn)品經(jīng)理。
學(xué)習(xí)是一個過程,只要學(xué)習(xí)就會有挑戰(zhàn)。天道酬勤,你越努力,就會成為越優(yōu)秀的自己。 如果你能在15天內(nèi)完成所有的任務(wù),那你堪稱天才。然而,如果你能完成 60-70% 的內(nèi)容,你就已經(jīng)開始具備成為一名大模型 AI 的正確特征了。
|
|
來自: instl > 《deepseek》