專題 | 自然語言處理學習筆記（二）：encoder

shawnsun007 2016-05-24

展開全文

投稿

作者：阿儁是個nerd

雖然有很多SaaS提供Summarization的服務，雖然有很多App尤其是新聞類App標榜自己擁有多么牛的技術做Summarization，我們還是不得不承認自動文摘的技術離一個高水平的AI還有一段距離，很長的一段距離。都說自動文摘很難，到底難在哪里？

Abstractive

上一篇博客分享了Extraction方法的一些思路，本篇簡單聊一點 Abstractive 的想法。

Abstractive是一個True AI的方法，要求系統理解文檔所表達的意思，然后用可讀性強的人類語言將其簡練地總結出來。這里包含這么幾個難點：

1、理解文檔。所謂理解，和人類閱讀一篇文章一樣，可以說明白文檔的中心思想，涉及到的話題等等。

2、可讀性強。可讀性是指生成的摘要要能夠連貫（Coherence）與銜接（Cohesion），通俗地講就是人類讀起來幾乎感覺不出來是AI生成的（通過圖靈測試）。

3、簡練總結。在理解了文檔意思的基礎上，提煉出最核心的部分，用最短的話講明白全文的意思。

上述三個難點對于人類來說都不是一件容易的事情，何況是發展沒太多年的自然語言處理技術。人工智能領域中AI能夠領先人類的例子很多，包括前不久很火的Alpha狗，圖片識別，主要是利用計算機遠強于人類的計算能力，但也有很多的領域，AI離人類的水平還有很遠，比如paper的survey，summarization，機器翻譯等等。

近幾年隨著Deep Learning的火爆，研究者們利用一些最新的研究成果來做summarization，比如attention model，比如rnn encoder-decoder框架，在一定程度上實現了abstractive，但還是處于研究初期，效果還不算很好。

Evaluation

自動文摘最大的一個難點是評價問題，如何有效地、合理地評價一篇文摘的效果是一個很難的問題。

人工評價

一千個讀者，有一千個哈姆雷特。

不同的人理解一篇文檔會有很大的不同，基于人工評價的方法有類似于評價開放的文科辨析題目答案一樣，需要從答案中尋找一些所謂的要點，計算要點覆蓋率，打分。人工評價結果在很大程度上都是可信的，因為人可以推理、復述并使用世界知識將具有類似意思但形式不同的文本單元關聯起來，更加靈活一些，但時間成本太高，效率太低。

自動評價

計算機評價效果，需要給定參考摘要作為標準答案，通過制定一些規則來給生成的摘要打分。目前，使用最廣泛的是ROUGH系統（Recall-Oriented Understudy for Gisting Evaluation），基本思想是將待審摘要和參考摘要的n元組共現統計量作為評價依據，然后通過一系列標準進行打分。包括：ROUGH-N、ROUGH-L、ROUGH-W、ROUGH-S和ROUGH-SU幾個類型。通俗地將就是通過一些定量化的指標來描述待審摘要和參考文摘之間的相似性，維度考慮比較多，在一定程度上可以很好地評價Extracive產生的摘要。

這里涉及到一個重要的問題，就是標注語料問題。自動評價需要給定一系列文檔已經他們的參考文摘，用來測試不同的算法效果。TAC（Text Analysis Conference）和TREC（Text REtrieval Conference）兩個會議提供了相關的評測數據集，自動文摘領域的paper都是以這些數據集為baseline，與其他paper的算法進行對比。會議的數據集畢竟有限，新的領域中做自動文摘需要建立自己的數據集作為標準。

現有的評價標準存在的一個重要問題在于沒有考慮語義層面上的相似，評價extractive還好，但評價abstractive就會效果不好了。Deep Learning其實就是一個representation learning，將世界萬物表示成數字，然后作分析。在詞、句子甚至段落這個層面上的表示學習研究的非常多，也有很多的state-of-the-art的結果，所以做語義層面上的評價并不難。

重要性

評價對于一個研究領域非常重要，是牽引這個領域前進的首要因素，評價需要制定標準，標準的好壞關系到這個領域的研究質量，尤其是研究者們的paper質量，因為大家相互比較算法的優劣就十分依賴這樣的標準。標準數據集的建立以及baseline的提出，是最首要的任務。

接下來，重點介紹近期abstractive summarization的一些研究情況。abstractive是學術界研究的熱點，尤其是Machine Translation中的encoder-decoder框架和attention mechanism十分火熱，大家都試著將abstractive問題轉換為sequence-2-sequence問題，套用上面兩種技術，得到state-of-the-art結果，2015年來已經有許多篇paper都是這種套路

Encoder-Decoder

Encoder-Decoder不是一種模型，而是一種框架，一種處理問題的思路，最早應用于機器翻譯領域，輸入一個序列，輸出另外一個序列。機器翻譯問題就是將一種語言序列轉換成另外一種語言序列，將該技術擴展到其他領域，比如輸入序列可以是文字，語音，圖像，視頻，輸出序列可以是文字，圖像，可以解決很多別的類型的問題。這一大類問題就是上圖中的sequence-to-sequence問題。這里以輸入為文本，輸出也為文本作為例子進行介紹：

專題 | 自然語言處理學習筆記（二）：encoder-decoder框架和attention mechanism兩種研究

encoder部分是將輸入序列表示成一個帶有語義的向量，使用最廣泛的表示技術是Recurrent Neural Network，RNN是一個基本模型，在訓練的時候會遇到gradient explode或者gradient vanishing的問題，導致無法訓練，所以在實際中經常使用的是經過改良的LSTM RNN或者GRU RNN對輸入序列進行表示，更加復雜一點可以用BiRNN、BiRNN with LSTM、BiRNN with GRU、多層RNN等模型來表示，輸入序列最終表示為最后一個word的hidden state vector。

decoder部分是以encoder生成的hidden state vector作為輸入“解碼”出目標文本序列，本質上是一個語言模型，最常見的是用Recurrent Neural Network Language Model(RNNLM)，只要涉及到RNN就會有訓練的問題，也就需要用LSTM、GRU和一些高級的model來代替。目標序列的生成和LM做句子生成的過程類似，只是說計算條件概率時需要考慮encoder向量。

這里，每一種模型幾乎都可以出一篇paper，尤其是在這個技術剛剛開始應用在各個領域中的時候，大家通過嘗試不同的模型組合，得到state-of-the-art結果。

該框架最早被應用在Google Translation中，paper詳情可以見[1]，2014年12月發在arxiv上。

Attention Mechanism

注意力機制在NLP中的使用也就是2015年的事情，也是從機器翻譯領域開始。我們仔細看decoder中生成目標文本序列這部分，第一個word的生成完全依賴于encoder的last hidden state vector，而這個vector更多的是表示輸入序列的最后一個word的意思，也就是說rnn一般來說都是一個有偏的模型。

打個比方，rnn可以理解為一個人看完了一段話，他可能只記得最后幾個詞說明的意思，但是如果你問他前面的信息，他就不能準確地回答，attention可以理解為，提問的信息只與之前看完的那段話中一部分關系密切，而其他部分關系不大，這個人就會將自己的注意力鎖定在這部分信息中。這個就是所謂attention mechanism的原理，每個hidden state vector對于decoder生成每個單詞都有影響，但影響分布并不相同，請看下圖：

專題 | 自然語言處理學習筆記（二）：encoder-decoder框架和attention mechanism兩種研究

圖中行文本代表輸出，列文本代表輸入，顏色越深表示兩個詞相關性越強，即生成該詞時需要多注意對應的輸入詞。不同的paper在使用attention上會有不同的技巧，這里不一一贅述了。

Neural Summarization

使用deep learning技術來做abstractive summarization的paper屈指可數，大體的思路也類似，大概如下：

0、首先將自動文摘的問題構造成一個seq2seq問題，通常的做法是將某段文本的first sentence作為輸入，headlines作為輸出，本質上變成了一個headlines generative問題。

1、選擇一個big corpus作為訓練、測試集。自動文摘的技術沒有太成熟的一個重要原因在于沒有一個成熟的大規模語料。一般來說都選擇Gigawords作為訓練、測試集，然后用DUC的數據集進行驗證和對比。

2、選擇一個合適的encoder，這里可以選simple rnn，lstm rnn，gru rnn，simple birnn，lstm birnn，gru birnn，deep rnn，cnn，以及各種各樣的cnn。不同model之間的組合都是一種創新，只不過創新意義不太大。用encoder將輸入文本表示成一個向量。

3、選擇一個合適的decoder，decoder的作用是一個language model，用來生成summary words。

4、設計一個合適的attention model。不僅僅基于encoder last hidden state vector和上文來預測輸出文本序列，更要基于輸入中“注意力”更高的詞來預測相應的詞。

5、設計一個copy net。只要是語言模型都會存在相同的問題，比如out-of-vocabulary詞的處理，尤其是做新聞類摘要的生成時，很多詞都是人名、機構名等專有名詞，所以這里需要用copy net 將輸入中的詞copy過來生成輸出。在生成中文摘要問題上，將words降維到characters可以避免oov的問題，并且取得不錯的結果。

接下來想做的事情是將neural summarization相關的paper精讀之后寫成blog。

作者微博：阿儁是個nerd
微信公眾號：paperweekly，每周會分享 1-2 篇 AI領域 paper 的摘譯和評價。
博客地址，http://rsarxiv./ 。
作者還開發了一款產品 RSarXiv，一款好用的arxiv cs paper推薦系統，在 App Store 搜索 rsarxiv 即可。網站地址：http://ience/web。

------------------------------------------------

加入機器之心（全職記者/實習生）：hr@almosthuman.cn

投稿或尋求報道：editor@almosthuman.cn

廣告&商務合作：bd@almosthuman.cn