久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    GPT-3沒有親自上手,不如展望一下GPT-4?

     西北望msm66g9f 2020-08-08

    那不如我們直接瞻仰一下GPT-4吧。

    啊這?難道GPT-4已經誕生了?
    并沒有,但是我們今天來討論一下實現GPT-4所需要的大概20萬億參數量的可行性。
    reddit近日有一個議題引起了熱烈討論,樓主u/AxeLond稱自己發現一篇論文(ZeRO)能基本解釋從GPT-2到GPT-3的增益,即從15億參數增加到1,750億參數,是如何實現的。語言模型的性能與參數量、數據集規模和訓練吞吐量存在簡單的冪律關系。他甚至據此推出了下一代GPT即GPT-4的參數量、訓練數據量和訓練費用,規模驚人,稱得上是“國家級”語言模型,即便是巨頭科技企業都很可能負擔不起GPT-4的訓練。

    ZeRO論文地址:https:///abs/1910.02054 
    現有的訓練大型深度學習模型的方法,例如數據和模型并行,已經顯示出基本的局限性,即無法將模型擬合到有限的內存中,同時兼具計算、通信和開發效率。
    在論文中,研究人員開發了一種新穎的解決方案ZeRO以優化內存,在大大提高訓練速度的同時,增加模型參數。       
    圖:使用ZeRO-100B的600億參數模型的超線性可擴展性和訓練吞吐量。
    ZeRO消除了數據和模型并行訓練中的內存冗余,同時保持了低通信量和高計算粒度,從而能夠按設備數量成比例地縮放模型參數。
    研究人員通過分析內存需求和通訊量,表明ZeRO可以使用現有的硬件擴展到超過1萬億個參數。
     
    1

    內存優化
    基本的數據并行化不會減少每個設備的內存,如果要訓練超過14億參數的模型,32GB內存(GPU)是不足的。
    論文還討論了如何對優化器狀態、梯度進行巧妙分區,來減少GPU節點之間通信的需求,從而實現內存優化。但是即便不使用模型并行,也要在1個GPU上運行1個模型副本。
    ZeRO-100B可以在128個GPU上訓練多達130億參數的模型,而無需模型并行,平均每個GPU的吞吐量超過40 TFlops。
    相比之下,如果沒有ZeRO,則最大的僅數據并行的可訓練模型就只有14億參數,每個GPU的吞吐量小于20 TFlops。
    在英偉達 V100和128個節點的DGX-2集群中添加16路模型并行處理,可以訓練大約2,000億個參數。
    從16路模型并行開始,可以運行15.4倍的大型模型,而不會真正造成性能損失,而在運行16路模型并行和64路數據并行(1024個GPU)時,性能僅比峰值性能低30%。       
    圖:比較模型狀態的每設備內存消耗,以及三個階段的ZeRO-DP優化。Ψ表示模型大小(參數數量),K表示優化器狀態的內存乘數,N_d表示DP度。在本例中,我們假設模型尺寸ψ=7.5B,DP為N_d=64,K=12,基于Adam優化器的混合精度訓練。
    以上增益全部源自對梯度和優化器狀態進行分區。研究人員討論了參數分區,并說明它可以線性地減少內存(與GPU數量成比例)。 
    因此64個GPU可以運行64倍大的模型,并且僅需要50%的通信帶寬。不過有待商榷的是,研究人員實際上并沒有對此進行任何實現。

    2

    冪律關系
    網友u/AxeLond表示,根據GPT-3引用OpenAI自家論文《Scaling Laws for Neural Language Models》的方法,我們能得出一個經驗規律,即語言模型的性能與參數量、數據集規模和訓練吞吐量存在簡單的冪律關系。       

    圖:隨著我們增加模型大小、數據集大小和用于訓練的計算吞吐量,語言建模性能會平穩提高。為了獲得最佳性能,必須同時放大所有三個因素。當沒有其他兩個瓶頸時,經驗性能與每個因素都有冪律關系。
    損失(L)和模型參數數量(N)存在以下關系:
                   
    將模型參數轉換為吞吐量(C,單位petaFLOP/s-days),我們得到:       
           
                   
    GPT-3能很好地擬合這個等式:   
           
    C和N之間的關系如下: 
                  
    如果我們把GPT-2至GPT-3的參數擴大規模同等應用到GPT-3至GPT-4上面,那么可以計算得到:C≈3.43×10^7,則N≈20萬億。 
    也就是說GPT-4將有20萬億個參數,因為GPT-3已經有1,750億個參數(C≈18,300)。
    GPT-3訓練了3000億token,但是GPT-4的訓練需要大約16萬億token。據統計,英語維基百科有30億token,網絡抓取570 GB的數據有4000億token,因此要得到16萬億token,大概需要23 TB的數據,相當于Facebook每天要處理的數據量,也就是說,GPT-4的訓練將需要巨頭科技企業傾盡全力。
    由于GPT-3的計算成本約為460萬美元,則同等硬件環境下訓練GPT-4的計算成本估計為86億美元。 
    如果從內存的角度來看,使用參數分區訓練更大的模型是如此容易,但是需要解決內存問題才能真正使它完全加載。
    與V100相比,A100的計算量可增加3-6倍,但即便如此,成本也要高達14億美元。
    英偉達在2020年第一季度報告的“數據中心”收入是11.5億美元,所以僅僅為了訓練“GPT-4”,幾乎需要全球1個季度(3個月)的顯卡供應,或者說至少得這個數量級。

    3

    GPT-4不值得?
    這篇文章在reddit引起了熱烈討論。
    網友tornado28認為,用如此巨額資金用于訓練一個語言模型是不值得的:“如果我們有86億美元用于建立一個語言模型,我建議投入50億美元作為研究經費,并可以用剩下的36億美元和3萬篇關于語言建模的新研究論文來訓練一個相當好的模型。” 
    但是,這3萬篇論文又會有多少是真正的算法突破呢?Science曾經在5月刊文提到:一些多年前的老算法經過微調,性能足以匹敵當前的SOTA,機器學習領域調參和煉金研究模式仍然盛行,算法的泛化能力有限。一句話總結就是:有調查有真相!某些AI領域多年無實際進展
    網友bohreffect認為,GPT-4的存在不切實際,并且沒有必要:“先別說內存需求,世界上真的存在16萬億token的文本數據嗎?在某種意義上,這個假想的GPT-4的VC維度似乎會超過英語本身的復雜性,因此會產生過擬合。”
    如果GPT-4沒有足夠的訓練數據,那就只需要記憶數據就行,這樣的話它的存在并沒有意義。 
    網友RusticScentedMale認為,問題不在于算法而在于計算:“GPT-3的成就不是通過發表更多的研究論文而是通過加大訓練費用獲得的,所以把錢繼續花在研究經費上或許不是最好的選擇,除非是關于如何更有效地構建并行計算芯片的研究。”
    網友SrslyPaladin評估了所謂“16萬億token”是什么概念,GPT-4可能是文本生成模型的極限:“16萬億token大概是所有已印刷書籍的大小:1.5億本書x每本書200頁x每頁300token= 9萬億token,但是你提出了一個很好的觀點,假想的GPT-4可能代表了文本輸入的有用性極限。” 
    如果GPT-4真的能學習全世界的文本數據,可能到時候就沒有什么文本任務能難倒它,從而它能超仿真的通過圖靈測試。 
    網友thunder_jaxx提到了谷歌的一項新研究,谷歌提出了Gshard模型,這個模型有6000億參數,論文中的一張圖能明顯看出BLUE分數的提升與參數量增加的關系。      
    Gshard論文鏈接:https:///abs/2006.16668 
    網友thunder_jaxx表示,我們也應該看看MIT這篇關于深度學習的計算極限的文章,第12頁的圖很有洞察力。“僅僅擴大計算規模并不是唯一的出路。GPT-3可以做很多有用的任務,但是要完全解決語言的細微差別,需要的不僅僅是計算,因為有太多模型“記憶”(過擬合)的例子了。我們需要一些全新的東西,就像原始的transformer一樣。transformer為序列建模問題創建了一個范式轉換。我們需要這樣的東西來解決通用智能問題。”
    ZeRO這篇論文再次揭示了深度學習模型性能和算力之間的強依賴關系,如何突破這個困境,以及如何在算法研究上取得真正的突破,仍然值得深思。 
    論文第12頁的圖:     

    圖:深度學習應用程序的性能改善與訓練該模型的計算負載有關(以千兆浮點運算為單位)。
    參考資料: 
    https://www./r/MachineLearning/comments/i49jf8/d_biggest_roadblock_in_making_gpt4_a_20_trillion/
    專輯 | 李宏毅人類語言處理2020筆記

    專輯 | NLP論文解讀

      本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發現有害或侵權內容,請點擊一鍵舉報。
      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 国产精品久久久天天影视香蕉 | 午夜男女爽爽爽影院在线视频| 精品人妻无码专区在中文字幕| 国产成人亚洲日韩欧美| 欧美成本人视频免费播放| 国产欧美久久一区二区三区| 亚洲国产精品一区二区第一页| 久久这里只精品国产免费9| 人人妻人人添人人爽欧美一区 | 六月丁香婷婷色狠狠久久| 少妇AV射精精品蜜桃专区| 欧美老少配性行为| 亚洲AV永久无码精品一福利| 国产99视频精品免费视频36| 亚洲国产成人精品无码区蜜柚| 中国女人熟毛茸茸A毛片| 久久精品99国产精品日本| 久章草在线毛片视频播放| A级国产乱理伦片在线播放| 天天澡日日澡狠狠欧美老妇| 日韩亚洲AV人人夜夜澡人人爽| 国产精品自在拍首页视频8| 无码AV动漫精品专区| 潮喷失禁大喷水无码| 无码人妻少妇久久中文字幕蜜桃| 国产女主播白浆在线看| 亚洲综合精品第一页| 亚洲另类精品无码专区| 人人人澡人人肉久久精品| 婷婷综合久久中文字幕蜜桃三电影 | 亚洲AVAV天堂AV在线网阿V| 国产精品久久久久7777| 精品国产AV最大网站| 亚洲一区二区精品偷拍| 无码精品国产D在线观看| 亚洲夂夂婷婷色拍WW47 | 大学生久久香蕉国产线看观看| 亚洲国产欧美一区二区好看电影| JIZZJIZZ亚洲日本少妇| 国产成人综合欧美精品久久| 亚洲人成电影网站 久久影视|