久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    谷歌更新Transformer架構(gòu),更節(jié)省計(jì)算資源!50%性能提升

     黃爸爸好 2024-04-05 發(fā)布于上海

    谷歌終于更新了Transformer架構(gòu)。

    最新發(fā)布的Mixture-of-Depths(MoD),改變了以往Transformer計(jì)算模式。

    它通過(guò)動(dòng)態(tài)分配大模型中的計(jì)算資源,跳過(guò)一些不必要計(jì)算,顯著提高訓(xùn)練效率和推理速度。

    結(jié)果顯示,在等效計(jì)算量和訓(xùn)練時(shí)間上,MoD每次向前傳播所需的計(jì)算量更小,而且后訓(xùn)練采樣過(guò)程中步進(jìn)速度提高50%

    這一方法剛剛發(fā)布,就馬上引發(fā)關(guān)注。

    MoE風(fēng)頭正盛,MoD已經(jīng)來(lái)后浪拍前浪了?

    圖片

    還有人開(kāi)始“算賬”:

    聽(tīng)說(shuō)GPT-4 Turbo在Blackwell上提速30倍,再加上這個(gè)方法和其他各種加速,下一代生成模型可以走多遠(yuǎn)?

    圖片

    所以MoD如何實(shí)現(xiàn)?

    迫使大模型關(guān)注真正重要信息

    這項(xiàng)研究提出,現(xiàn)在的大模型訓(xùn)練和推理中,有很多計(jì)算是沒(méi)必要的。

    圖片

    比如預(yù)測(cè)下一個(gè)句子很難,但是預(yù)測(cè)句子結(jié)束的標(biāo)點(diǎn)符號(hào)很簡(jiǎn)單。如果給它們分配同樣的計(jì)算資源,那么后者明顯浪費(fèi)了。

    圖片

    在理想情況下, 模型應(yīng)該只給需要準(zhǔn)確預(yù)測(cè)的token分配更多計(jì)算資源。

    圖片

    所以研究人員提出了MoD

    它在輸入序列中的特定位置動(dòng)態(tài)分配FLOPs(運(yùn)算次數(shù)或計(jì)算資源),優(yōu)化不同層次的模型深度中的分配。

    通過(guò)限制給定層的自注意力和MLP計(jì)算的token數(shù)量,迫使神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)主要關(guān)注真正重要的信息。

    因?yàn)閠oken數(shù)量是事先定義好的,所以這個(gè)過(guò)程使用一個(gè)已知張量大小的靜態(tài)計(jì)算圖,可以在時(shí)間和模型深度上動(dòng)態(tài)擴(kuò)展計(jì)算量。

    下圖右上圖中的橙色部分,表示沒(méi)有使用全部計(jì)算資源。

    圖片

    這種方法在節(jié)省計(jì)算資源的同時(shí),還能提高效率。

    這些模型在等效的FLOPS和訓(xùn)練時(shí)間上與基線(xiàn)性能相匹配,但每次前向傳播所需的FLOP更少,并且在訓(xùn)練后采樣時(shí)提速50%。

    對(duì)比來(lái)看,如果為每一個(gè)token生成一個(gè)概率分布,每個(gè)token根據(jù)最高概率被送去對(duì)應(yīng)的“專(zhuān)家”,可能會(huì)導(dǎo)致負(fù)載不平衡。

    如果反過(guò)來(lái),這能保障負(fù)載平衡,但是可能導(dǎo)致某些token被過(guò)度處理或處理不足。

    最后來(lái)看論文中使用的Expert-choice MoD,router輸出的權(quán)重被用于確定哪些token將使用transformer虧啊計(jì)算。權(quán)重較大的token將參與計(jì)算,權(quán)重較小的token將通過(guò)殘差連接繞過(guò)計(jì)算,從而解決每次向前傳播的FLOPs。

    圖片

    最后,研究團(tuán)隊(duì)展示了MoD在不同實(shí)驗(yàn)中的性能表現(xiàn)。

    首先,他們使用相對(duì)較小的FLOP預(yù)算(6e18),以確定最佳超參數(shù)配置。

    通過(guò)這些實(shí)驗(yàn),作者發(fā)現(xiàn)MoD方法能夠“拉低并向右推移”isoFLOP基線(xiàn)曲線(xiàn),這意味著最優(yōu)的MoD方法在更低的損失水平上擁有更多的參數(shù)。

    圖片

    通過(guò)isoFLOP分析,比較6e18、2e19和1e20 FLOPs的總計(jì)算預(yù)算下的模型性能。

    結(jié)果顯示,在更多FLOP預(yù)算下,F(xiàn)LOP最優(yōu)的MoD仍然比基線(xiàn)模型有更多的參數(shù)。

    存在一些MoD變體,在步驟速度上比isoFLOP最優(yōu)基線(xiàn)模型更快,同時(shí)實(shí)現(xiàn)更低的損失。這表明在訓(xùn)練之外,MoD的計(jì)算節(jié)省仍然有效。

    圖片

    同時(shí),研究團(tuán)隊(duì)還探討了MoD和MoE結(jié)合的可能性——MoDE。

    結(jié)果表明而這結(jié)合能提供更好的性能和更快的推理速度。

    圖片

    網(wǎng)友:聯(lián)想到了ResNet

    MoD推出后馬上引發(fā)了不小關(guān)注。

    有人感慨,MoE還沒(méi)有弄清楚呢,MoD都已經(jīng)來(lái)了!

    圖片

    這么高效的方法,讓人馬上聯(lián)想到了ResNet。

    圖片

    不過(guò)和ResNet不同,MoD跳過(guò)連接是完全繞過(guò)層的。

    圖片

    還有人表示,希望這種方法是完全動(dòng)態(tài)的,而不是每個(gè)層固定百分比。

    圖片

    這項(xiàng)研究由DeepMind和麥吉爾大學(xué)共同帶來(lái)。

    主要貢獻(xiàn)者是David Raposo和Adam Santoro。

    圖片
    圖片

    他們二人都是DeepMind的研究科學(xué)家。此前共同帶來(lái)了神作《Relational inductive biases, deep learning, and graph networks》。

    這篇論文目前被引次數(shù)超過(guò)3500次,論文核心定義了Inductive bias(歸納偏置)概念。

    論文地址:
    https:///abs/2404.02258

    參考鏈接:
    [1]
    https://twitter.com/TheSeaMouse/status/1775782800362242157
    [2]https://twitter.com/_akhaliq/status/1775740222120087847

    —  —

      本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
      轉(zhuǎn)藏 分享 獻(xiàn)花(0

      0條評(píng)論

      發(fā)表

      請(qǐng)遵守用戶(hù) 評(píng)論公約

      類(lèi)似文章 更多

      主站蜘蛛池模板: 18禁美女裸体爆乳无遮挡| 饥渴的少妇2中文字幕| 日本一区不卡高清更新二区| 国产亚洲国产精品二区| 国产精品午夜福利合集| 熟女系列丰满熟妇AV| 欧美成人一区二区三区不卡| 人妻中出无码中字在线| 又大又粗又硬放不进去了| 国产高潮刺激叫喊视频| 少妇肉麻粗话对白视频| 国产A级作爱片无码| 人妻中文字幕不卡精品| 巨茎中出肉欲人妻在线视频| 精品无码一区二区三区在线| 欧美国产日韩A在线观看| 国产性一交一乱一伦一色一情| 成人H视频在线观看| 欧美亚洲高清国产| 国产午夜亚洲精品国产成人 | 久久精品国产www456c0m| 麻豆国产成人AV在线播放| 国产初高中生在线视频| 国产凹凸在线一区二区| 精品卡通动漫亚洲AV第一页| 国产成人AV一区二区三区在线 | 国产对白老熟女正在播放| 亚洲AV无码专区亚洲AV桃 | 久久精品无码免费不卡| 中文人妻AV大区中文不卡| 中国熟女仑乱hd| 欧美黑人又粗又大又硬免费视频| 波多野结衣AV一区二区全免费观看 | 人妻系列无码专区无码中出| 巨胸美乳无码人妻视频漫画| 国产精品久久毛片| 蜜芽久久人人超碰爱香蕉| 青青青爽在线视频观看| 国产美女裸体无遮挡免费视频| 午夜福利看片在线观看| 亚洲处破女AV日韩精品|