久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    玩不起RLHF?港科大開源高效對齊算法RAFT「木筏」,GPT擴散模型都能用

     黃爸爸好 2023-04-18 發(fā)布于上海

    圖片

    MLNLP社區(qū)是國內(nèi)外知名的機器學習與自然語言處理社區(qū),受眾覆蓋國內(nèi)外NLP碩博生、高校老師以及企業(yè)研究人員。
    社區(qū)的愿景是促進國內(nèi)外自然語言處理,機器學習學術界、產(chǎn)業(yè)界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
    轉(zhuǎn)載自 | 量子位
    作者 | 夢晨

    開源大模型火爆,已有大小羊駝LLaMA、Vicuna等很多可選。

    但這些羊駝們玩起來經(jīng)常沒有ChatGPT效果好,比如總說自己只是一個語言模型、沒有感情blabla,拒絕和用戶交朋友。

    圖片

    歸根結底,是這些模型沒有ChatGPT那么對齊(Alignment),也就是沒那么符合人類用語習慣和價值觀。

    為此,港科大LMFlow團隊提出全新對齊算法RAFT,輕松把伯克利Vicuna-7b模型定制成心理陪伴機器人,從此AI會盡力做你的朋友。

    圖片

    相較于OpenAI所用RLHF對齊算法的高門檻,RAFT(Reward rAnked Fine-Tuning)易于實現(xiàn),在訓練過程中具有較高的穩(wěn)定性,并能取得更好的對齊效果。

    并且任意生成模型都可以用此算法高效對齊,NLP/CV通用。

    用在Stable Diffusion上,還能對齊生成圖片和提示詞,讓模型生成更加符合提示詞描述的圖片。

    圖片

    另外,團隊特別提示RAFT的對齊訓練過程中生成與訓練過程完全解耦。

    這樣就可以在生成過程中利用一些魔法提示詞 (magic prompts),讓最終對齊的模型不需要魔法提示詞也能得到好的效果。從而大大減少了提示詞編寫的難度!

    可以說,RAFT為AIGC社區(qū)的研究者和工作者提供了一種新的可選的AI對齊策略。

    RAFT模型對齊

    OpenAI在ChatGPT前身Instruct論文中介紹了基于人類反饋的強化學習(RLHF)算法。

    首先利用人類標注數(shù)據(jù)訓練一個打分器 (reward model),然后通過強化學習算法(如PPO)來調(diào)節(jié)模型的行為,使得模型可以學習人類的反饋。

    但PPO等強化學習算法高度依賴反向梯度計算,導致訓練代價較高,并且由于強化學習通常具有較多的超參數(shù), 導致其訓練過程具有較高的不穩(wěn)定性。

    相比之下,RAFT算法通過使用獎勵模型對大規(guī)模生成模型的生成樣本進行排序,篩選得到符合用戶偏好和價值的樣本,并基于這些樣本微調(diào)一個對人類更友好的AI模型。

    具體而言,RAFT分為三個核心步驟:

    (1)數(shù)據(jù)收集:數(shù)據(jù)收集可以利用正在訓練的生成模型作為生成器,也可以利用預訓練模型(例如LLaMA、ChatGPT,甚至人類)和訓練模型的混合模型作為生成器,有利于提升數(shù)據(jù)生成的多樣性和質(zhì)量。

    (2)數(shù)據(jù)排序:一般在RLHF中我們都擁有一個與目標需求對齊的分類器或者回歸器,從而篩選出最符合人類需求的樣本。

    (3)模型微調(diào):利用最符合人類需求的樣本來實現(xiàn)模型的微調(diào),使得訓練之后的模型能夠與人類需求相匹配。

    在RAFT算法中,模型利用了更多次采樣 (當下采樣后用以精調(diào)的樣本一定時),和更少次梯度計算(因為大部分低質(zhì)量數(shù)據(jù)被reward函數(shù)篩選掉了),讓模型更加穩(wěn)定和魯棒。

    同時,在某些情況下, 由于有監(jiān)督微調(diào)本身對于超參數(shù)敏感性更低, 有更穩(wěn)健的收斂性, 在相同reward情況下,RAFT可以擁有更好的困惑度 (perplexity, 對應其生成多樣性和流暢性更好)。

    圖片

    完整算法如下所示:

    圖片

    定制垂直領域GPT

    作者在多個任務上進行了實驗,首先是正向影評補全。

    作者實驗發(fā)現(xiàn),給出一個電影評論的起始句,RAFT微調(diào)后的大模型可以輕松補齊電影評論,而且更加積極和流暢。

    如下圖所示,LLaMA未經(jīng)調(diào)整的影評會以隨機概率輸出正面和負面的評論,RAFT和PPO都能夠?qū)⒃u論的態(tài)度傾向正面。

    圖片

    在基于Vicuna制作的一個心理陪伴機器人演示中,作者模擬了一個因為考試失利而心情低落的人和機器人在聊天。

    可以看到在使用RAFT進行對齊之前,模型說自己沒有情感和感情,拒絕和人類交友。

    但是在RAFT對齊之后,模型的共情能力明顯增強,不斷地在安慰人類說,“雖然我是一個AI,但是我會盡力做你的朋友”。

    圖片

    增強Stable Diffusion

    除了在語言模型上的對齊能力以外,作者還在擴散模型上驗證了文生圖的對齊能力,這是之前PPO算法無法做到的事情。

    原始Stable Diffusion在256x256分辨率生成中效果不佳 ,但經(jīng)過RAFT微調(diào)之后不僅產(chǎn)生不錯的效果,所需要的時間也僅為原版的20%。

    對計算資源不足的AIGC愛好者來說無疑是一個福音。

    圖片

    除了提升256分辨率圖片的生成能力以外,RAFT還能夠?qū)R生成圖片和提示詞,讓模型生成更加符合提示詞描述的圖片。

    如下圖所示,給出提示詞“莫奈風格的貓”,原始的stable diffusion生成的圖片里,大多數(shù)沒有貓,而是生成了“莫奈風格”的其他作品,這是由于“莫奈作品”中鮮有貓的身影,而stable diffusion沒有完全理解文本的含義。

    而經(jīng)過RAFT微調(diào)后,stable diffusion認識到“貓”的概念,所以每張圖片里都會有貓的身影。

    圖片

    RAFT來自香港科技大學統(tǒng)計和機器學習實驗室團隊,也是開源LMFlow模型微調(diào)框架的一次重大升級。

    LMFlow包括完整的訓練流程、模型權重和測試工具。您可以使用它來構建各種類型的語言模型,包括對話模型、問答模型和文本生成模型等。

    自框架發(fā)布兩周以來,LMFlow團隊仍在進行著密集的迭代,并在4月9號正式上線了RAFT算法,補齊了AI對齊的訓練流程。

    LMFlow框架的逐步完善,將更加便利于科研人員和開發(fā)者在有限算力下微調(diào)和部署大模型。

    論文:https:///abs/2304.06767

    GitHub:https://github.com/OptimalScale/LMFlow

    文檔:https://optimalscale./LMFlow/examples/raft.html

      本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
      轉(zhuǎn)藏 分享 獻花(0

      0條評論

      發(fā)表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 亚洲色大成网站WWW永久麻豆| 少妇办公室好紧好爽再浪一点| bt天堂新版中文在线| 麻豆国产AV剧情偷闻女邻居内裤| 午夜自产精品一区二区三区| 无遮挡H肉动漫在线观看| 国产美女被遭强高潮免费一视频| 最近中文字幕免费MV在线视频| 国产av中文字幕精品| 欧洲卡一卡二卡三爱区| 国产亚洲精品第一综合另类无码无遮挡又大又爽又黄的视频 | 国产精品三级中文字幕| 日日摸夜夜添夜夜添无| 综合偷自拍亚洲乱中文字幕| 无码人妻人妻经典| 亚洲av成人无码精品电影在线| 成人免费精品网站在线观看影片| 成人无码午夜在线观看| 又湿又紧又大又爽A视频| 四虎永久免费精品视频| 久久精品国产免费观看三人同眠| 精品一区二区三区不卡| 人人妻人人澡人人爽欧美精品 | 成人H动漫精品一区二区无码| 午夜精品福利亚洲国产| 少妇肉麻粗话对白视频| 成人啪精品视频网站午夜| 久久人人爽人人人人片AV| 精品 日韩 国产 欧美 视频| 亚洲国产午夜精品福利| 亚洲AV永久无码精品主页| 亚洲中文字幕无码久久精品1| 亚洲一区久久蜜臀av| 肉大捧一进一出免费视频| 亚洲欧美中文日韩V在线观看 | 97无码免费人妻超级碰碰夜夜| 国产精品日日摸夜夜添夜夜添2021 | 日韩激情一区二区三区| 日日碰狠狠添天天爽无码| A男人的天堂久久A毛片| 国产不卡av一区二区|