引言:目前,基于Transformer的預訓練語言模型在各種下游任務上取得了極好的結果,甚至在部分數據上達到了人類的水平。然而,長文本摘要依舊是一個具有挑戰性的問題:文本長度過長,通常超過了預訓練語言模型的長度限制;內容廣度大,信息壓縮比大;文本數據通常是特定領域文章。本文主要介紹了解決長文檔摘要問題的幾種機制。 1. 背景 近年來,Transformer以及基于Transformer的預訓練語言模型在自然語言理解和生成領域取得了巨大進展。在短文本摘要領域,無論是抽取式摘要(BERT,RoBERTa),還是生成式摘要(BART,T5),文本摘要模型都取得了卓越的表現。然而,長文本摘要長度長,內容廣,壓縮程度高,并且通常是特殊領域文章(如arxiv論文),一直以來是一個難以處理的問題。[1]目前,解決長文本摘要主要有基于圖/GNN的模型,基于RNN的模型和基于Transformer的模型。圖模型首先將一篇文章映射為一個圖,并使用無監督的中心性打分抽取top-K句子或者使用GNN進行訓練。RNN方法對整個序列文本進行建模,并抽取或者生成摘要。目前,Transformer和PLM逐步取代RNN,成為NLP領域的焦點。但是,受到位置編碼長度影響,預訓練語言模型通常對輸入文本的最大長度存在一定限制,例如,BERT僅僅可以處理512位字符。同時,Transformer的平方級別復雜度進一步限制了輸入文本的長度,而對文本進行截斷造成了文本信息的丟失。因此,直接應用預訓練語言模型是行不通的,需要添加額外機制。 本文關注于應用于三種模型中的不同機制,更好的對長文本進行建模和摘要。接下來,本文將圍繞高效注意力機制,信號引導,分治,內容選擇等機制,以及與GNN,Transformer等模型的結合進行介紹。值得注意的是,這些機制之間并不是獨立存在的,不同的機制之間可以相互結合,在降低內存需求的同時提高模型性能。 2. 高效注意力 原始的Transformer模型的自注意力機制難以處理過長的文本,其與輸入文本的長度呈平方級別復雜度 。為此,一些研究關注于修改注意力機制,以降低內存消耗和復雜度,這些方法被稱為高效注意力機制。目前,應用在長文本摘要中的高效注意力機制主要包括encoder和encoder-decoder之間的注意力機制。對于長文本摘要,一種最普遍的方法就是對encoder端的注意力進行簡化。Longformer結合了滑窗注意力,空洞滑窗注意力和全局注意力,將復雜度降低到了 ,可以有效總結最大長度為16384個token的長文檔 [2]。BigBird使用和Longformer相同的注意力機制,并添加了額外的隨機注意力,實現了匹配的性能 [3]。LongT5在局部注意力的基礎上,引入了Transient Global Attention (TGlobal),避免了選擇token或者添加額外token賦予全局注意力,而是每次在進行自注意力前動態構建全局的token [4]。Global-Local使用交錯的Block-Local注意力模塊,每個block中的注意力僅僅能關注block中的token,block層與層之間相互交錯 [5]。上述方法更多關注的是encoder中的注意力機制,由于輸出長度M相對于輸入長度N較小,因此,使用完整的復雜度為 的encoder-decoder之間的attention。近年來,一些研究也在關注encoder-decoder之間的注意力。Hepos發現Transformer encoder和decoder至今的多頭注意力是冗余的,大部分頭僅僅關注于少數幾個token。因此,Hepos(Head-wise Positional Strides)在每一層中,每個注意力頭僅僅關注固定間隔的不同token子集,復雜度降低到了 , 是注意力頭數 [6]。Potsawee等人將注意力進一步修改為sentence-leval和token-level,動態結合內容選擇機制,decoder中每個token通過和句子之間的注意力動態選擇前r個句子進行token級別的注意力 [7]。與全注意力機制相比,高效注意力機制極大減少計算復雜度和內存消耗。但是,高效注意力不可避免的帶來了性能損失。同時,當前預訓練語言模型大多使用全注意力機制,將PLM適應高效注意力機制造成了一定的差異,可能需要進一步進行預訓練。利用文章中的層次和篇章結構信息,可以捕獲不同級別的信息。一篇文章可以自底向上分為詞,句,段落,文章的層次。而長文本摘要的源文檔很多都包含篇章結構信息,例如章節結構,章節標題等。層次信息和篇章結構信息相互關聯,共同引導模型更好的理解文章內容。無論是早期的基于圖的摘要,RNN模型,還是近年來的GNN,Transformer模型都關注了層次結構信息。一個文檔天然可以劃分為多個層級,不同層級之間存在不同級別的信息,例如一個段落中的句子的主題通常比較相近。使用層次化模型,毫無疑問有利于捕獲多個級別的信息。利用詞,句子,段落之間的層次化信息,可以將文檔表示為 ,并應用GNN進行建模。MTGNN-SUM利用詞句之間的關系搭建了異構圖 [8]。HeterGraphLongSum以詞,句,段落為節點,建立了詞與句子以及句子與段落之間的四種有向邊 [9]。上述兩種模型均在此基礎上使用GAT捕獲層級關系,抽取關鍵句子。近年來,層次化的Transformer也模型取得了進展。Lodoss在longformer基礎上通過句子間的Transformer建模高階信息 [10]。HAT-BART對Transformer層進行拓展,每層中加入只有各句的BOS表示參與的自注意力模塊 [11]。Top Down Transformer通過BOTTOM-UP INFERENCE和TOP-DOWN INFERENCE兩個階段,在token級別使用稀疏注意力捕獲鄰居信息,之后聚合成句子后通過注意力層捕獲全局上下文,再對先前的token進行增強 [12]。長文檔摘要的數據集通常為專業領域文章,如arxiv論文,它們通常被劃分為不同的章節。利用這些篇章結構,可以引入先驗知識,更好對文檔進行建模。對于基于圖的模型,篇章結構信息同樣重要。HIPORANK認為同一個章節的句子內容信息比較相似,通過Intra-sectional和Inter-sectional的連接建圖,進行無監督抽取 [13]。HEGEL利用相似的思想,在同一章節的句子之間建立超邊,結合GNN進行摘要 [14]。此外,篇章結構信息也常常作為先驗知識,融入序列模型中。PageSum [15],DANCER [16]對科學論文按章節進行獨立的摘要生成,其中,DANCER僅僅選擇對應于introduction, methods, results和conclusion的章節。HiStruct+對結構信息進行編碼,獲得了Hierarchical position embedding和 (Classified) section title embedding增強每個章節中句子的表示 [17]。HIBRIDS建立文檔的結構樹,利用兩個章節之間路徑的長度和深度的差異引入bias [18]。與此同時,篇章結構信息還與層次信息相結合,構建層次模型。Discourse-Aware使用詞和章節級別的兩種RNN對文章進行編碼,并使用Discourse-aware decoder在詞和章節上使用注意力機制 [19]。信號引導機制充分利用了文章的篇章結構信息和層級信息,作為先驗知識輔助摘要任務。但是,這些方法本質上并沒有帶來復雜度和內存消耗的下降,同時,篇章結構方法大多專注于某一類文檔,具有一定的局限性,不能拓展到所有長文本中。內容選擇方法在摘要領域又稱為混合式(hybrid)摘要,模型先從文章中檢索出重要的句子,并再次基礎上進行進一步的生成。它綜合了抽取式和生成式的優點,可以生成既翔實又簡潔的總結。此外,內容選擇方法在文本分類,閱讀理解等領域也存在應用,如CogLTX。早期的內容選擇方法多是兩階段的流水線工作,一個模型進行句子抽取,另一個模型進一步生成摘要。LongSumm [29]對每個章節抽取句子,而TLM+Ext [20]和LoBART [21]在字符級和句子級使用RNN進行編碼,抽取出重要的句子。上述方法將抽取的所有句子連接后送入Transformer模型生成摘要。最近的一些研究將抽取和生成融合到一個模型中,并根據解碼的token動態選擇句子。Potsawee等人在token級別上建立句子表示,并根據解碼的表示與所有句子表示的注意力選擇靠前的r個句子的token [7]。SEAL將輸入文檔分解成片段序列,使用片段內的注意力機制編碼,并使用attention-pooling獲得片段表示,將片段表示和之前decoder之前的輸出通過打分器得到每個輸出片段的得分,選擇重要的片段 [22]。抽取句子的有效性對整個模型的性能至關重要,因此,需要對提取器進行額外的訓練。LoBART使用ROUGE-2 [21],TLM-Ext使用ROUGE-1創建目標抽取句子,最小化抽取句子與目標提取摘要中的句子相關的交叉熵損失進行訓練 [20]。SEAL最小化每個解碼步驟下每個片段的預測和真實樣本之間的損失 [22]。另有一些模型使用基于強化學習的方法選擇進行內容選擇。內容選擇方法模仿了人類的處理方式,內存占用和復雜度比相對較低,理論上可以處理任意長度的文本。但是,這種方法嚴重依賴于檢索單元的獨立性,同時,從文章中檢索句子的同時不可避免的存在信息的損失。PLM存在位置編碼,通常可以編碼512或者1024個token,而超過長度的文本無法直接處理,需要對文本進行截斷。為了對整個文檔進行編碼,一種簡單的方法就是對文本劃分為彼此之間或重疊或不重疊的片段,對每個片段進行單獨的建模。這種分而治之的方法可以直接應用預訓練語言模型,不需要對模型架構進行修改,同時保存了整個文檔中的信息。然而,這種窗口方法破壞了token間長距離的依賴關系,造成了性能的下降。諸多研究關注于如何融合各個片段的信息更好的進行摘要生成和抽取。SSN-DM利用動態的記憶網絡保存先前片段的信息,并與當前的片段表示進行交互和更新 [23]。SUMMN通過多階段的生成,對每個片段生成粗略的摘要,對粗略摘要連接后送入下一階段重復上述生成,在最終的生成階段保留了全局的感受野,并且相比于混合摘要保留了信息損失更小 [24]。PageSum結合局部全局的信息,對每個章節分開進行編碼并進行解碼,對各個章節解碼得到的表示計算置信度,并加權求和預測輸出 [25]。除了之前提到的四種機制之外,其他一些機制也被應用在長文本摘要中。Topic-GraphSum [26],GRETEL [27]和HEGEL [14]使用主題模型捕獲語義信息和句間關系,建圖進行交互。CONDASUM對評論進行壓縮成一個向量,之后在所有的壓縮向量基礎上進行多文檔摘要生成 [28],Yao等人將這個方法在長文本摘要中實現,作為SEAL模型的比較 [22]。[1] An Empirical Survey on Long Document Summarization: Datasets, Models and Metrics[2] Longformer: The Long-Document Transformer[3] Big Bird: Transformers for Longer Sequences[4] LongT5: Efficient Text-To-Text Transformer for Long Sequences[5] Investigating Efficiently Extending Transformers for Long Input Summarization[6] Efficient Attentions for Long Document Summarization[7] Sparsity and Sentence Structure in Encoder-Decoder Attention of Summarization Systems[8] Multi Graph Neural Network for Extractive Long Document Summarization[9] HeterGraphLongSum: Heterogeneous Graph Neural Network with Passage Aggregation for Extractive Long Document Summarization[10] Toward Unifying Text Segmentation and Long Document Summarization[11] Hierarchical Learning for Generation with Long Source Sequences.[12] Long Document Summarization with Top-down and Bottom-up Inference[13] Discourse-Aware Unsupervised Summarization of Long Scientific Documents[14] HEGEL: Hypergraph Transformer for Long Document Summarization[15] Leveraging Locality in Abstractive Text Summarization[16] A Divide-and-Conquer Approach to the Summarization of Long Documents[17] HiStruct+: Improving Extractive Text Summarization with Hierarchical Structure Information[18] HIBRIDS: Attention with Hierarchical Biases for Structure-aware Long Document Summarization[19] A Discourse-Aware Attention Model for Abstractive Summarization of Long Documents[20] On Extractive and Abstractive Neural Document Summarization with Transformer Language Models[21] Long-Span Summarization via Local Attention and Content Selection[22] SEAL: Segment-wise Extractive-Abstractive Long-form Text Summarization[23] Sliding Selector Network with Dynamic Memory for Extractive Summarization of Long Documents[24] SUMMN : A Multi-Stage Summarization Framework for Long Input Dialogues and Documents[25] Leveraging Locality in Abstractive Text Summarization[26] Enhancing Extractive Text Summarization with Topic-Aware Graph Neural Networks[27] GRETEL: Graph Contrastive Topic Enhanced Language Model for Long Document Extractive Summarization[28] Informative and Controllable Opinion Summarization[29] Summaformers @ LaySumm 20, LongSumm 20
|