久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    Transformer網絡解讀

     漢無為 2023-09-25

    終于到序列模型課程最后一周的內容了,本篇博客依然是基于Andrew Ng的深度學習專項課程的序列模型來編寫的,本篇內容不會很多,主要就是Transformer網絡相關的知識點,Transformer網絡是一種基于注意力機制的神經網絡架構,被廣泛應用于自然語言處理領域,尤其是機器翻譯任務中。本文將詳細介紹Transformer網絡的關鍵概念和工作原理。廢話不多說,現在開始吧。

    Transformer 網絡介紹

    我們前面講解過在序列模型中常用的技術包括RNN、GRU和LSTM,這些模型雖然解決了一些問題,包括梯度消失、長距離依賴等,但模型的復雜度也隨之增加了不少。它們都是順序模型,會將輸入一個詞或一個標記地順序處理。顯然這樣的處理性能是比較弱的。

    Transformer架構創新性地將注意力機制和CNN相結合,允許我們對整個序列進行并行計算,可以一次處理整個句子,而不是從左到右逐詞處理。它的核心理念主要是自注意力(Self Attention)和多頭注意力(Multi-Head Attention) 這兩點。
    簡單來說,如果我們有一個包含5個詞的句子,自注意的目標是并行地為這五個詞計算出五個標識。而多頭注意力就是對自注意力過程進行循環,從而得到這些表示的多個版本,這些表示是非常豐富的,可以用于機器翻譯或其他NLP任務。

    Self-Attention

    自注意力(Self-Attention)機制是Transformer網絡的核心組件。它可以對序列進行并行計算,為序列中的每個詞匯生成一個注意力向量,表示其在特定上下文中的含義。

    自注意力機制可以幫助我們理解每個單詞在特定上下文中的含義。比如,'Africa'這個詞,在不同的上下文中可能代表歷史興趣的地點,或者假期的目的地,或者世界第二大洲。自注意力機制會根據周圍的單詞來確定在此句子中我們談論的'非洲'的最合適的表示方式。

    圖片

    自注意力機制為序列中每個詞匯計算出一個Query向量、Key向量和Value向量。其具體計算步驟如下:

    1. 首先,我們將每個單詞與查詢、鍵和值對應起來。這些對由學習到的矩陣和該單詞的嵌入向量相乘得到。

    2. 查詢可以看作是對單詞的一個問題,例如,對'Africa'的問題可能是'那里發生了什么?'。

    3. 我們計算查詢和每個鍵的內積,來確定其他單詞對查詢問題的回答的質量。

    4. 我們對所有內積結果進行softmax運算,這樣可以獲得每個單詞的注意力值。

    5. 最后,我們將得到的softmax值與相應單詞的值向量相乘,并將結果相加,得到的就是我們需要的自注意力表示。

    自注意力機制的優點在于可以根據整個序列的上下文來獲得每個詞匯的表示,而非僅依賴于臨近詞匯。同時,其并行計算性質也大大提升了模型的訓練和推理效率。

    我們對序列中的所有單詞執行上述計算過程,以獲取相應的自注意力表示。最后,所有這些計算可以由Attention(Q, K, V)進行概括,其中Q,K,V是所有查詢、鍵和值的矩陣。值得注意的是,這里Query、Key、Value矩陣的計算都使用了不同的權重矩陣,這使得自注意力機制可以學習輸入序列的不同表示。

    圖片

    自注意力機制的結果是每個詞的表示都更為豐富和細致,因為它考慮了每個詞左右的上下文。

    Multi-Head Attention

    Multi-Head Attention 機制對自注意力機制進行拓展,允許模型聯合學習序列的不同表示子空間。

    多頭注意力將輸入序列重復進行自注意力計算n次,每次使用不同的權重矩陣,得到n個注意力向量序列。然后將這n個序列拼接并線性轉換,得到最終的序列表示,即:

    圖片

    圖片

    每次計算一個序列的自注意力被稱為一個'頭',因此,'多頭注意力'就是多次進行自注意力計算。每個'頭'可能對應著不同的問題,例如第一個'頭'可能關注'發生了什么',第二個'頭'可能關注'何時發生',第三個'頭'可能關注'與誰有關'等等。

    多頭注意力的計算過程與自注意力基本一致,但是使用了不同的權重矩陣(,并且將所有的注意力向量(一般情況下是8個)進行拼接,再乘以一個權重矩陣,最后得到的結果就是多頭注意力的輸出。在實際計算中,由于不同'頭'的計算互不影響,可以同時計算所有的'頭',即并行計算,以提高計算效率。

    總的來說,多頭注意力機制可以為每個單詞學習到更豐富、更好的表示,每個'頭'都能從不同的角度去理解序列中的每個單詞。

    Transformer 網絡

    在Transformer網絡中,Encoder和Decoder均由多頭注意力層和全連接前饋網絡組成,網絡的高層結構如下:

    • Encoder由N個編碼器塊(Encoder Block)串聯組成,每個編碼器塊包含:

      • 一個多頭注意力(Multi-Head Attention)層

      • 一個前饋全連接神經網絡(Feed Forward Neural Network)

    • Decoder也由N個解碼器塊(Decoder Block)串聯組成,每個解碼器塊包含:

      • 一個多頭注意力層

      • 一個對Encoder輸出的多頭注意力層

      • 一個前饋全連接神經網絡

    圖片

    我們以一個法語翻譯成英語的例子來講解這個過程:

    1. 首先,輸入句子的嵌入會被傳遞到編碼器塊,該塊具有多頭注意力機制。將嵌入和權重矩陣計算出的Q,K和V值輸入到這個模塊,然后生成一個可以傳遞到前饋神經網絡的矩陣,用于確定句子中有趣的特性。在Transformer的論文中,這個編碼塊會被重復N次,一般N的值為6。

    2. 然后,編碼器的輸出會被輸入到解碼器塊。解碼器的任務是輸出英文翻譯。解碼器塊的每一步都會輸入已經生成的翻譯的前幾個單詞。當我們剛開始時,唯一知道的是翻譯會以一個開始句子的標記開始。這個標記被輸入到多頭注意力塊,并用于計算這個多頭注意力塊的Q,K和V。這個塊的輸出會用于生成下一個多頭注意力塊的Q矩陣,而編碼器的輸出會用于生成K和V

    3. 解碼器塊的輸出被輸入到前饋神經網絡,該網絡的任務是預測句子中的下一個單詞。
      除了主要的編碼器和解碼器塊,Transformer Network還有一些額外的特性:

    • 位置編碼:對輸入進行位置編碼,以便在翻譯中考慮單詞在句子中的位置。使用一組正弦和余弦方程來實現。

    • 殘差連接:除了將位置編碼添加到嵌入中,還通過殘差連接將它們傳遞到網絡中。這與之前在ResNet中看到的殘差連接類似,其目的是在整個架構中傳遞位置信息。

    • Adenome層:Adenome層類似于BatchNorm層,其目的是傳遞位置信息。

    • 遮掩多頭注意力:這只在訓練過程中重要,它模擬網絡在預測時的行為,看看給定正確的前半部分翻譯,神經網絡是否能準確地預測序列中的下一個單詞。

    總結

    Transformer網絡通過引入自注意力和多頭注意力等機制,實現了序列建模的質的飛躍,在機器翻譯、文本摘要、問答系統等任務上都取得了極大的成功。研究表明,其并行計算結構也使Transformer網絡相比RNN等模型具有顯著的計算效率優勢,如今百家爭鳴的大模型底層其實也離不開它的身影,理解它對于學習那些大語言模型是非常有幫助的。

      本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發現有害或侵權內容,請點擊一鍵舉報。
      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 久草热久草热线频97精品| 欧美熟妇乱子伦XX视频| 久久精品国产亚洲AV无码偷窥| 成人无码影片精品久久久| 人妻丰满熟妇AV无码区动漫| 国产乱子伦一区二区三区| 无码高潮爽到爆的喷水视频| 一本一道av中文字幕无码| 人妻少妇无码精品专区| 翘臀少妇被扒开屁股日出水爆乳 | 国产一精品一AV一免费爽爽| 精品无人区一区二区三区| 美女把尿囗扒开让男人添| 欧美丰满熟妇xxxx性| 2019久久久高清日本道| 精品成人乱色一区二区 | 成年男女免费视频网站| 国产成人精品999在线观看| 又大又粗又爽A级毛片免费看| 国产一区二区日韩经典| 樱花草在线社区WWW韩国| 亚韩精品中文字幕无码视频| 草草浮力影院| 成人无码影片精品久久久| 精品少妇av蜜臀av| 亚洲中文字幕无码一久久区| 久草热8精品视频在线观看| 50岁熟妇的呻吟声对白| 国内精品久久久久久无码不卡| 最新亚洲人成网站在线影院| 猫咪AV成人永久网站在线观看| 最新国产AV最新国产在钱| 亚洲午夜久久久久久久久电影网| 久青草国产97香蕉在线视频| 凹凸在线无码免费视频| 久热爱精品视频线路一| 久久五月丁香合缴情网| 女人张开腿让男人桶爽 | 亚洲欧美日韩成人综合一区 | 久9视频这里只有精品试看| 国产乱码1卡二卡3卡四卡5|