最近,AI領域又迎來了一項重磅研究成果—— DeepSeek R1:挑戰與突破并存在AI發展的浪潮中,LLMs正快速迭代,不斷縮小與通用人工智能(AGI)之間的差距。后訓練作為訓練流程的關鍵一環,能有效提升模型在推理任務中的準確率,還能讓模型更好地契合社會價值和用戶偏好。此前,OpenAI的o1系列模型通過增加思維鏈推理過程的長度,在推理任務上取得了顯著進展,但如何實現有效的測試時擴展,仍然是學界亟待解決的難題。 在這樣的背景下,DeepSeek R1的研究團隊另辟蹊徑,嘗試運用純強化學習(RL)來提升語言模型的推理能力。他們的目標很明確:探索LLMs在沒有任何監督數據的情況下,通過純RL過程自我進化出推理能力的潛力。 研究團隊以DeepSeek-V3-Base為基礎模型,采用GRPO(Group Relative Policy Optimization)作為RL框架。在訓練過程中,他們驚喜地發現,DeepSeek R1-Zero(不依賴監督微調的純RL模型)展現出了強大且有趣的推理行為。經過數千次RL訓練步驟,DeepSeek R1-Zero在推理基準測試中的表現大幅提升。以AIME 2024測試為例,其單樣本通過率(pass@1)從最初的15.6% 飆升至71.0%;若采用多數投票策略,這一成績更是能提升到86.7%,與OpenAI-o1-0912的水平相當。 不過, 技術亮點:創新架構與訓練策略DeepSeek R1-Zero:強化學習的深度探索
在獎勵建模方面,團隊采用了基于規則的獎勵系統,主要包含準確性獎勵和格式獎勵。準確性獎勵用于評估模型的回答是否正確,比如在數學問題中,模型需按指定格式給出最終答案,以便進行正確性驗證;格式獎勵則要求模型將思考過程放在“ 為了引導模型的訓練,團隊設計了一個簡潔的模板。該模板要求模型先進行推理,再給出最終答案,并且盡量避免對內容進行特定限制,以便觀察模型在RL過程中的自然發展。 在訓練過程中,DeepSeek R1-Zero展現出了令人驚嘆的自我進化能力。隨著訓練步數的增加,它在AIME 2024測試中的準確率穩步提升。不僅如此,模型還學會了自我反思和探索多種解題方法。在遇到復雜問題時,它會重新評估之前的步驟,嘗試不同的解題思路,這種“頓悟時刻”充分體現了強化學習的魅力,讓模型能夠自主發展出先進的解題策略。 DeepSeek R1:融入冷啟動數據的優化升級
在冷啟動階段,團隊構建并收集了少量高質量的長思維鏈(CoT)數據,對DeepSeek-V3-Base模型進行微調,以此作為RL訓練的初始演員。這些冷啟動數據經過精心設計,具有良好的可讀性,能夠有效避免模型在訓練初期出現不穩定的情況。 在推理導向的強化學習階段,團隊采用了與DeepSeek R1-Zero相同的大規模RL訓練過程,但在此基礎上引入了語言一致性獎勵,以緩解思維鏈中出現的語言混合問題。雖然這一獎勵機制會導致模型性能略有下降,但卻使模型的輸出更符合人類的閱讀習慣。 當推理導向的RL訓練接近收斂時,團隊利用拒絕采樣和監督微調(SFT)來收集更多數據。他們不僅從推理任務中收集數據,還納入了寫作、角色扮演等其他領域的數據,以增強模型的通用能力。在這個過程中,團隊對數據進行了嚴格篩選,過濾掉了語言混合、冗長段落和代碼塊等難以閱讀的內容。 為了使模型更好地符合人類偏好,團隊還進行了全場景的強化學習。在這個階段,他們綜合運用多種獎勵信號和多樣化的提示分布,對模型進行進一步訓練。對于推理數據,仍然采用基于規則的獎勵;對于通用數據,則借助獎勵模型來捕捉人類偏好。通過這種方式,模型在保證推理能力的同時,更加注重對用戶的幫助和無害性。 模型蒸餾:賦予小模型強大推理能力為了讓更高效的小模型也具備強大的推理能力,研究團隊從DeepSeek R1向小模型進行知識蒸餾。他們直接使用DeepSeek R1生成的800k樣本對Qwen和Llama等開源模型進行微調。實驗結果令人驚喜,經過蒸餾的小模型在推理能力上有了顯著提升。例如,DeepSeek-R1-Distill-Qwen-7B在AIME 2024測試中取得了55.5%的成績,超越了QwQ-32B-Preview;DeepSeek-R1-Distill-Qwen-32B在多個測試中表現優異,其成績與o1-mini相當。這一成果表明,將大模型的推理模式蒸餾到小模型中是一種非常有效的方法,能夠讓小模型在保持高效性的同時,獲得強大的推理能力。 實驗結果:全方位超越與領先研究團隊對 在教育導向的知識基準測試中, 在數學任務和編碼算法任務中, 蒸餾后的小模型同樣表現優異, 未來展望:持續創新與拓展DeepSeek R1的出現無疑為LLMs的發展帶來了新的思路和方法,但研究團隊并沒有滿足于此。他們在論文中指出了未來的研究方向,旨在進一步提升DeepSeek R1的性能和應用范圍。 在通用能力方面,DeepSeek R1在函數調用、多輪對話、復雜角色扮演和json輸出等任務上還有提升空間。團隊計劃探索如何利用長思維鏈來優化這些任務的處理能力。 在語言混合問題上,目前DeepSeek R1主要針對中文和英文進行了優化,在處理其他語言的查詢時可能會出現語言混合的情況。未來,團隊將致力于解決這一問題,使模型能夠更好地處理多種語言的任務。 在提示工程方面,DeepSeek R1對提示較為敏感,少樣本提示會導致其性能下降。團隊建議用戶采用零樣本設置來描述問題和指定輸出格式,以獲得最佳效果。未來,他們也將進一步研究如何優化模型對提示的適應性,提高模型在不同提示條件下的穩定性。 在軟件工程任務方面,由于評估時間較長,影響了RL過程的效率,DeepSeek R1在軟件工程基準測試上的提升有限。未來版本將通過對軟件工程數據進行拒絕采樣或在RL過程中引入異步評估來提高效率,從而提升模型在軟件工程任務中的表現。 DeepSeek R1的研究成果為LLMs的推理能力提升提供了重要的參考和借鑒,其創新的訓練方法和優秀的實驗結果讓人對AI的未來發展充滿期待。相信在研究團隊的不斷努力下,DeepSeek R1將在未來取得更大的突破,為AI領域帶來更多的驚喜。作為AI愛好者,我們不妨持續關注DeepSeek R1的發展動態,見證AI技術的不斷進步。 相關地址 |
|