久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    BERT的通俗理解 預訓練模型 微調

     印度阿三17 2019-07-17

    1、預訓練模型
    ? ? ? BERT是一個預訓練的模型,那么什么是預訓練呢?舉例子進行簡單的介紹
    ? ? ? 假設已有A訓練集,先用A對網絡進行預訓練,在A任務上學會網絡參數,然后保存以備后用,當來一個新的任務B,采取相同的網絡結構,網絡參數初始化的時候可以加載A學習好的參數,其他的高層參數隨機初始化,之后用B任務的訓練數據來訓練網絡,當加載的參數保持不變時,稱為"frozen",當加載的參數隨著B任務的訓練進行不斷的改變,稱為“fine-tuning”,即更好地把參數進行調整使得更適合當前的B任務

    ? ? ?優點:當任務B的訓練數據較少時,很難很好的訓練網絡,但是獲得了A訓練的參數,會比僅僅使用B訓練的參數更優

    Task #1: Masked LM
    ? ? ?為了訓練雙向特征,這里采用了Masked Language Model的預訓練方法,隨機mask句子中的部分token,然后訓練模型來預測被去掉的token。

    具體操作是:

    隨機mask語料中15%的token,然后將masked token 位置輸出的final hidden vectors送入softmax,來預測masked token。

    這里也有一個小trick,如果都用標記[MASK]代替token會影響模型,所以在隨機mask的時候采用以下策略:

    1)80%的單詞用[MASK]token來代替

    my dog is hairy → my dog is [MASK]
    2)10%單詞用任意的詞來進行代替

    my dog is hairy → my dog is apple

    3)10%單詞不變

    my dog is hairy → my dog is hairy


    Task 2#: Next Sentence Prediction
    ? ? ? ?為了讓模型捕捉兩個句子的聯系,這里增加了Next Sentence Prediction的預訓練方法,即給出兩個句子A和B,B有一半的可能性是A的下一句話,訓練模型來預測B是不是A的下一句話
    Input = [CLS] the man went to [MASK] store [SEP]
    ?????????????penguin [MASK] are flight ## less birds [SEP]
    Label = NotNext
    ?????????????he bought a gallon [MASK] milk [SEP]
    Label = IsNext
    Input = [CLS] the man [MASK] to the store [SEP]
    訓練模型,使模型具備理解長序列上下文的聯系的能力

    2、BERT模型
    BERT:全稱是Bidirectional Encoder Representation from Transformers,即雙向Transformer的Encoder,BERT的模型架構基于多層雙向轉換解碼,因為decoder是不能獲要預測的信息的,模型的主要創新點都在pre-traing方法上,即用了Masked LM和Next Sentence Prediction兩種方法分別捕捉詞語和句子級別的representation

    其中“雙向”表示模型在處理某一個詞時,它能同時利用前面的詞和后面的詞兩部分信息,這種“雙向”的來源在于BERT與傳統語言模型不同,它不是在給你大牛股所有前面詞的條件下預測最可能的當前詞,而是隨機遮掩一些詞,并利用所有沒被遮掩的詞進行預測

    下圖展示了三種預訓練模型,其中 BERT 和 ELMo 都使用雙向信息,OpenAI GPT 使用單向信息


    3、BERT的輸入部分


    ? ? ?bert的輸入部分是個線性序列,兩個句子通過分隔符分割,最前面和最后增加兩個標識符號。每個單詞有三個embedding:位置信息embedding,這是因為NLP中單詞順序是很重要的特征,需要在這里對位置信息進行編碼;單詞embedding,這個就是我們之前一直提到的單詞embedding;第三個是句子embedding,因為前面提到訓練數據都是由兩個句子構成的,那么每個句子有個句子整體的embedding項對應給每個單詞。把單詞對應的三個embedding疊加,就形成了Bert的輸入。

    ? ? ? 如上圖所示,輸入有A句[my dog is cute]和B句[he likes playing]這兩個自然句,我們首先需要將每個單詞及特殊符號都轉化為詞嵌入向量,因為神經網絡只能進行數值計算。其中特殊符[SEP]是用于分割兩個句子的符號,前面半句會加上分割碼A,后半句會加上分割碼B
    ? ? ? 因為要建模句子之間的關系,BERT 有一個任務是預測 B 句是不是 A 句后面的一句話,而這個分類任務會借助 A/B 句最前面的特殊符 [CLS] 實現,該特殊符可以視為匯集了整個輸入序列的表征。
    最后的位置編碼是 Transformer 架構本身決定的,因為基于完全注意力的方法并不能像 CNN 或 RNN 那樣編碼詞與詞之間的位置關系,但是正因為這種屬性才能無視距離長短建模兩個詞之間的關系。因此為了令 Transformer 感知詞與詞之間的位置關系,我們需要使用位置編碼給每個詞加上位置信息。

    總結一下:
    (1)token embeddings表示的是詞向量,第一個單詞是CLS,可以用于之后的分類任務
    (2)segment embeddings用來區別兩種句子,因為預訓練不光做LM還要做以兩個句子為輸入的分類任務
    (3)position embeddings表示位置信息

    4、NLP的四大類任務
    (1)序列標注:分詞、實體識別、語義標注……
    (2)分類任務:文本分類、情感計算……
    (3)句子關系判斷:entailment、QA、自然語言推理
    (4)生成式任務:機器翻譯、文本摘

    上圖給出示例,對于句子關系類任務,很簡單,和GPT類似,加上一個起始和終結符號,句子之間加個分隔符即可。對于輸出來說,把第一個起始符號對應的Transformer最后一層位置上面串接一個softmax分類層即可。對于分類問題,與GPT一樣,只需要增加起始和終結符號,輸出部分和句子關系判斷任務類似改造;對于序列標注問題,輸入部分和單句分類是一樣的,只需要輸出部分Transformer最后一層每個單詞對應位置都進行分類即可。從這里可以看出,上面列出的NLP四大任務里面,除了生成類任務外,Bert其它都覆蓋到了,而且改造起來很簡單直觀。(https://zhuanlan.zhihu.com/p/49271699)

    5、模型的評價
    (1)優點

    BERT是截止至2018年10月的最新的的state of the art模型,通過預訓練和精調可以解決11項NLP的任務。使用的是Transformer,相對于rnn而言更加高效、能捕捉更長距離的依賴。與之前的預訓練模型相比,它捕捉到的是真正意義上的bidirectional context信息

    (2)缺點

    作者在文中主要提到的就是MLM預訓練時的mask問題:

    1)[MASK]標記在實際預測中不會出現,訓練時用過多[MASK]影響模型表現;

    2)每個batch只有15%的token被預測,所以BERT收斂得比left-to-right模型要慢(它們會預測每個token)

    6、GLUE語料集的介紹
    實驗數據以及對應的NLP任務
    MNLI:蘊含關系推斷
    QQP:問題對是否等價
    QNLI:句子是都回答問句
    SST-2:情感分析
    CoLA:句子語言性判斷
    STS-B:語義相似
    MRPC:句子對是都語義等價
    RTE:蘊含關系推斷
    WNLI:蘊含關系推斷

    7、git網址https://github.com/google-research/bert
    關于bert知識干貨的匯總https://zhuanlan.zhihu.com/p/50717786

    本文轉自https://blog.csdn.net/yangfengling1023/article/details/84025313
    ---------------------
    作者:小白的進階
    來源:CSDN
    原文:https://blog.csdn.net/laobai1015/article/details/87937528
    版權聲明:本文為博主原創文章,轉載請附上博文鏈接!

    來源:https://www./content-4-336551.html

      本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發現有害或侵權內容,請點擊一鍵舉報。
      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章

      主站蜘蛛池模板: 欧美伦费免费全部午夜最新| 亚洲成在人线AV品善网好看| 国产高清在线不卡一区| 国产久9视频这里只有精品| 成人午夜福利视频镇东影视| 精品一区二区三区不卡| 国产无套乱子伦精彩是白视频| 97成人碰碰久久人人超级碰oo| 免费无码观看的AV在线播放| 中文字幕人成乱码中文乱码| 亚洲 制服 丝袜 无码| 最爽无遮挡行房视频| 潮喷失禁大喷水无码| 免费久久人人爽人人爽AV| 亚洲高清WWW色好看美女| 波多野结衣一区二区三区AV高清 | 亚洲V天堂V手机在线 | 中国女人高潮hd| 国产高清色高清在线观看 | 中文丝袜人妻一区二区| 天天躁日日躁狠狠躁2018| 美女裸体无遮挡免费视频网站| 欧美黑人又粗又大又硬免费视频| 少妇久久久久久久久久| 午夜性色一区二区三区不卡视频 | 亚洲 制服 丝袜 无码| 中文有无人妻VS无码人妻激烈| 免费现黄频在线观看国产| 国产综合AV一区二区三区无码| 免费人成视频在线观看网站| 高清中文字幕国产精品| 又湿又紧又大又爽A视频国产| 国产乱码1卡二卡3卡四卡5| 国产69精品久久久久999小说| 国语自产拍精品香蕉在线播放| 日韩有码中文字幕av| 特级无码毛片免费视频尤物| 亚洲高潮喷水无码AV电影| 日产国产一区二区不卡| 草草影院精品一区二区三区| 四虎国产精品成人|