久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    一年六篇頂會(huì)的清華大神提出Fastformer:史上最快、效果最好的Transformer

     wupin 2021-08-28

    新智元報(bào)道

    來源:arXiv

    編輯:LRS

    【新智元導(dǎo)讀】Transformer模型好是好,可惜太慢了!最近一位清華大神在arxiv上傳了一篇論文,提出新模型Fastformer,線性時(shí)間復(fù)雜度,訓(xùn)練和推理效率史上最快,還順手在排行榜刷了個(gè)sota。

    Transformer 的強(qiáng)大毋庸置疑,想要在CV和NLP的排行榜上取得一席之地,Transformer幾乎是必不可少的骨架模型。

    但它的效率相比傳統(tǒng)的文本理解模型來說卻不敢恭維,Transformer的核心是自注意力(self-attention)機(jī)制,對(duì)于輸入長(zhǎng)度為N的文本,它的時(shí)間復(fù)雜度達(dá)到二次O(N^2)。

    雖然已經(jīng)有很多方法來處理 Transformer 加速問題,但是對(duì)于長(zhǎng)序列來說,這些方法要么效率仍然較低或是效果還不夠好,例如BigBird使用稀疏注意力卻丟失了全局上下文信息。

    清華大學(xué)提出了一個(gè)新模型Fastformer,基于additive attention能夠以線性復(fù)雜度來建立上下文信息。

    論文地址:https:///abs/2108.09084

    文章的第一作者武楚涵,是清華大學(xué)電子工程系的博士研究生。

    目前的研究興趣包括推薦系統(tǒng)、用戶建模和社會(huì)媒體挖掘。在人工智能、自然語言處理和數(shù)據(jù)挖掘領(lǐng)域的會(huì)議和期刊上發(fā)表過多篇論文。

    僅2021年就在頂會(huì)上發(fā)表了六篇論文,大神的世界只能仰望。

    論文的通訊作者是黃永峰,清華大學(xué)電子系教授,博士,博導(dǎo),信息認(rèn)知和智能系統(tǒng)研究所副所長(zhǎng),首屆全國十佳網(wǎng)絡(luò)安全優(yōu)秀教師。

    主要從事網(wǎng)絡(luò)及網(wǎng)絡(luò)安全技術(shù)的研究和教學(xué)。現(xiàn)為IEEE Senior Member、中國電子學(xué)會(huì)信息隱藏與多媒體安全專家委員會(huì)委員。

    已在IEEE Transaction IFS和中國科學(xué)等國內(nèi)外著名期刊和AAAI和ACL等重要國際會(huì)議發(fā)表論文300多篇;出版專著4部、譯著2部,教材2部。申請(qǐng)和授權(quán)發(fā)明專利10余項(xiàng)。

    Fastformer首先對(duì)輸入的attention query矩陣合并為一個(gè)全局query向量,然后對(duì)attention的key和全局query向量采用element-wise的乘法學(xué)習(xí)到全局上下文相關(guān)key矩陣,再通過additive attention合并為全局key向量。

    通過元素乘積對(duì)全局key和attention之間的交互進(jìn)行建模,并使用線性變換學(xué)習(xí)全局上下文感知的注意力,最后將它們與attention query查詢一起添加以形成最終輸出。

    由此,計(jì)算復(fù)雜度可以降低到線性,并且可以有效地捕獲輸入序列中的上下文信息。

    對(duì)于學(xué)習(xí)全局query和key向量的additive attention網(wǎng)絡(luò),其時(shí)間和內(nèi)存開銷均為O(N·d),參數(shù)總數(shù)為2hd(h為注意頭數(shù))。此外,元素乘積的時(shí)間代價(jià)和內(nèi)存代價(jià)也是O(N·d),總復(fù)雜度是,比標(biāo)準(zhǔn)的Transformer復(fù)雜度要更有效率。

    如果采用權(quán)重共享(weight sharing)方法,每層Fastformer的總參數(shù)為量,也有更少的參數(shù)。

    模型驗(yàn)證

    論文在五個(gè)不同任務(wù)的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)來驗(yàn)證Fastformer的效率:

    1. IMDB,電影評(píng)論星級(jí)預(yù)測(cè)數(shù)據(jù);

    2. MIND,一個(gè)大規(guī)模的新聞推薦數(shù)據(jù)集。在這個(gè)數(shù)據(jù)上進(jìn)行兩個(gè)任務(wù):新聞主題分類和個(gè)性化推薦;

    3. CNN/DailyMail數(shù)據(jù)集,一個(gè)廣泛使用的文本摘要數(shù)據(jù)集;

    4. PubMed數(shù)據(jù)集,包含更長(zhǎng)文本的文本摘要數(shù)據(jù)集;

    5. Amazon 電子產(chǎn)品領(lǐng)域評(píng)論星級(jí)預(yù)測(cè)數(shù)據(jù)。

    實(shí)驗(yàn)過程中使用Glove詞向量初始化,在32GB的V100 GPU上進(jìn)行5次實(shí)驗(yàn)取性能的平均值。

    對(duì)比模型包括:

    1. 標(biāo)準(zhǔn)的Transformer;

    2. Longformer,基于稀疏注意力的Transformer,結(jié)合了滑動(dòng)窗口注意力和全局注意力來建模局部和全局上下文;

    3. BigBird,Longformer的擴(kuò)展,包括稀數(shù)隨機(jī)注意力機(jī)制;

    4. Linformer,一個(gè)線性復(fù)雜度的Transformer,使用低維key和value矩陣來計(jì)算近似self-attention;

    5. Linear Transformer,也是線性復(fù)雜度的Transformer,使用核函數(shù)來估計(jì)self-attention機(jī)制;

    6. Poolingformer,一種層次結(jié)構(gòu),首先使用滑動(dòng)窗口自注意力來捕捉短距離的內(nèi)容,然后使用pooling self-attention來捕捉長(zhǎng)距離的上下文。

    在分類任務(wù)上,可以看到FastFormer要比標(biāo)準(zhǔn)的Transformer要更好。

    比較不同方法在新聞推薦任務(wù)中的性能時(shí),又增加了三個(gè)模型:

    1. NRMS,它使用多頭自注意力網(wǎng)絡(luò)學(xué)習(xí)新聞和用戶表征;

    2. FIM,一種用于個(gè)性化新聞推薦的細(xì)粒度興趣匹配方法;

    3. PLM-NR,使用預(yù)訓(xùn)練的語言模型為新聞推薦提供基礎(chǔ)。

    在不同的Transformer結(jié)構(gòu)中,F(xiàn)astformer達(dá)到了最好的性能,并且它也基本優(yōu)于NRMS模型。此外,F(xiàn)astformer可以進(jìn)一步提高PLM-NR的性能,并且集成模型在MIND排行榜上獲得最佳結(jié)果。

    結(jié)果分析

    結(jié)果表明,F(xiàn)astformer不僅在文本建模方面是有效的,而且在理解用戶興趣方面也是有效的。

    既然提到快,在效率的對(duì)比上也要進(jìn)行實(shí)驗(yàn)。將輸入序列的長(zhǎng)度從128調(diào)整為65535,并將batch size的大小與序列長(zhǎng)度成反比。使用隨機(jī)生成token作為偽樣本,并固定token embedding以更好地測(cè)量不同方法的計(jì)算成本。

    當(dāng)序列長(zhǎng)度相對(duì)較長(zhǎng)時(shí)(例如512),Transformer效率較低。此外還發(fā)現(xiàn),雖然Poolingformer在理論上具有線性復(fù)雜性,但在實(shí)踐中效率低下。這是因?yàn)樗褂玫拇翱诖笮。ɡ?56)以類似卷積的方式計(jì)算池權(quán)重,這導(dǎo)致計(jì)算成本的非常大的常數(shù)項(xiàng)。

    在訓(xùn)練和推理時(shí)間方面,F(xiàn)astformer比其他線性復(fù)雜度Transformer更有效,這些結(jié)果驗(yàn)證了Fastformer的有效性。

    不同的參數(shù)共享技術(shù)對(duì)Fastformer的技術(shù)也有影響,通過共享query和value轉(zhuǎn)換矩陣,在不同的注意頭之間共享參數(shù),可以發(fā)現(xiàn),與沒有任何參數(shù)共享技術(shù)的Fastformer模型相比,使用query-value參數(shù)共享可以獲得類似或略好的性能。因此可以通過共享query和value轉(zhuǎn)換矩陣來減少參數(shù)大小。

    此外,頭部參數(shù)共享將導(dǎo)致顯著的性能下降。這是因?yàn)椴煌淖⒁忸^需要捕捉不同的上下文模式,而共享它們的參數(shù)對(duì)上下文建模是不利的,采用分層共享方法可以進(jìn)一步提高模型的性能,因?yàn)椴煌瑢又g的參數(shù)共享可以緩解過擬合的風(fēng)險(xiǎn)。

    參考資料:

    https:///abs/2108.09084

      本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
      轉(zhuǎn)藏 分享 獻(xiàn)花(0

      0條評(píng)論

      發(fā)表

      請(qǐng)遵守用戶 評(píng)論公約

      類似文章 更多

      主站蜘蛛池模板: 久久777国产线看观看精品| 无码国内精品久久人妻| 国产福利一区二区三区在线观看| 亚洲精品国自产拍在线观看| 色九月亚洲综合网| 国产无套粉嫩白浆在线观看| 日韩有码av中文字幕| 色综合 图片区 小说区| 亚洲日韩日本中文在线| 十八禁午夜福利免费网站| 亚洲综合色婷婷在线观看 | 精品无人区一区二区三区| 2021亚洲国产精品无码| 国产在线精品一区二区夜色| 97成人碰碰久久人人超级碰oo| 乱码中字在线观看一二区| 欧美国产日产一区二区| 久久精品国产亚洲AV瑜伽| 人妻中文字幕不卡精品| A级国产乱理伦片在线播放| 亚洲av免费成人在线| 国产精品无码久久综合网| 在线看无码的免费网站| 激情内射亚洲一区二区三区爱妻| 野外做受三级视频| 成人免费A级毛片无码网站入口| 蜜桃视频一区二区在线观看| 超碰成人人人做人人爽| 18禁网站免费无遮挡无码中文 | 国产精品V欧美精品V日韩精品 | 久久SE精品一区精品二区| 免费AV片在线观看网址| 宅男在线永久免费观看网| 18级成人毛片免费观看| √天堂中文www官网在线| 老子影院午夜精品无码| 午夜不卡欧美AAAAAA在线观看| 日韩有码av中文字幕| 中出人妻中文字幕无码| 免费无码又爽又刺激网站| 午夜成人无码免费看网站|