一文看盡2019全年AI技術突破

昵稱m5Gu5 2020-01-29

展開全文

邊策十三魚羊發自凹非寺
量子位報道 | 公眾號 QbitAI

2019年，整個AI行業的發展如何？

NLP模型不斷刷新成績，谷歌和Facebook你方唱罷我登場；
GAN在不斷進化，甚至能生成高分辨率難辨真假的人臉；
強化學習攻破了《星際2》等戰略游戲。

讓人對到來的2020年充滿期待。

最近，Analytics Vidhya發布了2019年AI技術回顧報告，總結了過去一年中，AI在不同技術領域取得的進展，并展望了2020年的新趨勢。

Analytics Vidhya是一個著名數據科學社區。其技術回顧報告由多位機器學習業內專家撰寫。

報告認為，在過去的一年中，發展最為迅猛的是NLP，CV已較為成熟，RL才剛剛起步，明年可能迎來大爆發。

量子位在報告基礎上，進行了編譯整理及補充。話不多說，一起來逐一盤點2019的那些AI技術吧：

自然語言處理（NLP）：語言模型井噴，部署工具涌現

NLP在2019年實現了巨大的飛躍，該領域這一年取得的突破是無與倫比的。

報告認為，2018年是NLP的分水嶺，2019年本質上是在此基礎上進一步發展，讓該領域突飛猛進。

Transformer統治了NLP

自從2017年的論文Attention is All You Need發表以來，出現了BERT為代表的NLP模型。之后，Transformer一次又一次地在NLP領域中統治了SOTA結果。

谷歌的Transformer-XL是另一種基于Transformer的模型，在語言建模方面勝過BERT。隨后是OpenAI的GPT-2模型，它以其生成非常像人類的語言文字而聞名。

2019年下半年，BERT本身出現了許多創新，例如CMU的XLNet，Facebook AI的RoBERTa和mBERT（多語言BERT）。這些模型在RACE、SQuAD等測試榜上不斷刷新成績。

GPT-2則終于釋出完整版，開源15億參數模型。

GPT-2模型地址：
https:///blog/gpt-2-1-5b-release/

延伸閱讀

BERT重奪多項測試第一名，改進之后性能追上XLNet，現已開源預訓練模型

模仿川普語氣真假難分，康奈爾盲測15億參數模型：從未如此逼真，最強編故事AI完全體來了

大型預訓練語言模型成常態

遷移學習是2019年NLP領域出現的另一趨勢。我們開始看到多語言模型，這些模型在大型的未標記文本語料庫上進行了預訓練，從而使它們能夠學習語言本身的潛在細微差別。

GPT-2、Transformer-XL等模型幾乎可以對所有NLP任務進行微調，并且可以在相對較少的數據下很好地運行。

像百度的ERNIE 2.0這樣的模型引入了持續預訓練的概念，預訓練方法有了很大的進步。在此框架中，可以隨時逐步引入不同的自定義任務。

新的測試標準推出

隨著一系列NLP新模型帶來了巨大性能提升，它們的測試分數也已經達到了上限，分差很小，甚至在GLUE測試中超過了人類的平均水平。

因此這些測試基準已經不足以反映NLP模型的發展水平，也不利于未來的進一步提高。

DeepMind、紐約大學、華盛頓大學聯合Facebook提出了新的測試標準SuperGLUE，加入了更難的因果推理任務，對NLP模型提出了新的挑戰。

開始考慮NLP的工程和部署

2019年出現了一大批實用的NLP資源：

斯坦福大學開源的StanfordNLP庫，HuggingFace的Transformer預訓練模型庫。spaCy利用該庫創建了spacy-transformers，這是一種用于文本處理的工業級庫。

斯坦福NLP小組表示：“與我們在2019年訓練的大型語言模型一樣，我們還將重點放在優化這些模型上。”

像BERT，Transformer-XL，GPT-2這些大型模型的問題在于，它們的計算量很大，因此在現實中使用它們幾乎是不切實際的。

HuggingFace的DistilBERT顯示，可以將BERT模型的大小減少40％，同時保留其97％的語言理解能力，并且速度提高60％。

谷歌和豐田研究出了另一種減小BERT模型尺寸的方法ALBERT，它在3個NLP基準測試（GLUE，SQuAD，RACE）上獲得了SOTA的成績。

延伸閱讀

GitHub萬星NLP資源大升級：實現Pytorch和TF深度互操作，集成32個最新預訓練模型

對語音識別的興趣增加

NLP領域在2019年重新燃起了對英偉達NeMo等框架開發音頻數據的興趣，該框架使端到端自動語音識別系統的模型訓練變得異常輕松。

除了NeMo之外，英偉達還開源了QuartzNet，QuartzNet 另一個基于Jasper的新的端到端語音識別模型架構，Jasper是一種小型，高效的語音識別模型。

更關注多語言模型

在能夠使用多語言數據之前，NLP如何真正發揮作用？

今年，人們對重新探索NLP庫（例如StanfordNLP）的多語言途徑有了新的興趣，這些途徑帶有經過預先訓練的模型，可以處理50多種人類語言的文本。您可以想象，這對社區產生了巨大影響。

然后，成功嘗試通過Facebook AI的XLM mBERT（超過100種語言）和CamemBERT 等項目來創建像BERT這樣的大型語言模型，該項目針對法語進行了微調：

2020年趨勢

以上是2019年NLP領域進展的總結，2020年該領域會有哪些趨勢呢？

身為NLP專家、Kaggle Grandmaster的Sudalai Rajkumar推測了2020年的主要趨勢：

延續當前趨勢，在更大的數據集上訓練更大的深度學習模型；
構建更多的生產應用程序，較小的NLP模型將對此有所幫助；
手動注釋文本數據的成本很高，因此半監督標記方法可能會變得很重要；
NLP模型的可解釋性，了解模型在進行公正決策時學到的知識。

NLP領域學者、ULMFiT的作者之一Sebastian Ruder認為：

不僅會從龐大的數據集中學習，還會看到更多的模型在更少樣本上高效地學習；
模型越來越強調稀疏性和效率；
重點關注多語言的更多數據集。

計算機視覺（CV）：圖像分割愈發精細，AI造假愈演愈真

計算機視覺方面，今年CVPR、ICCV等國際頂會接收論文數量均有大幅增長。下面，就來回顧2019最受矚目的幾種重要算法和實現。

何愷明Mask R-CNN正在被超越

Mask Scoring R-CNN

在COCO圖像實例分割任務上，Mask Scoring R-CNN超越了何愷明的Mask R-CNN，并因此中選計算機視覺頂會CVPR 2019的口頭報告。

在Mask R-CNN這樣的模型中，實例分類的置信度被當作mask的質量衡量指標，但實際上mask的質量和分類的質量并沒有很強的相關性。

華中科技大學的這篇文章針對這個問題進行了研究，他們提出了一種新的打分方法：mask score。

不僅僅直接依靠檢測得到分類得分，Mask Scoring R-CNN模型還單獨學習了一個針對mask的得分規則：MaskloU head。

同時考慮分類得分和蒙版得分，Mask Scoring R-CNN就能更加公正地評估算法質量，提高實例分割模型的性能。

研究團隊在COCO數據集上進行了實驗，結果表明Mask Scoring R-CNN在不同的基干網路上，AP提升始終在1.5%左右。

這篇論文被Open Data Science評為2019年第一季度十佳論文之一。

論文一作是地平線實習生黃釗金，來自華中科技大學電信學院副教授王興剛的團隊，王興剛也是這篇論文的作者之一。

SOLO

字節跳動實習生王鑫龍提出的實例分割新方法SOLO，作為一種單階段實例分割方法，框架更簡單，但性能同樣超過了Mask R-CNN。

SOLO方法的核心思想是，將實例分割問題重新定義為類別感知預測問題和實例感知掩碼生成問題。

COCO數據集上的實驗結果表明，SOLO的效果普遍超過此前的單階段實例分割主流方法，在一些指標上還超過了增強版Mask R-CNN。

相關地址

https:///abs/1903.00241v1
https:///abs/1912.04488

延伸閱讀

性能超越何愷明Mask R-CNN！華科碩士生開源圖像分割新方法 | CVPR19 Oral

字節跳動實習生提出實例分割新方法：性能超過何愷明Mask R-CNN

EfficientNet

EfficientNet是一種模型縮放方法，由谷歌基于AutoML開發，在ImageNet測試中實現了84.1%的準確率，刷新記錄。

雖然準確率只比在其之前的SOTA模型Gpipe提高了0.1%，但模型更小更快，參數量和FLOPs都大幅減少，效率提升10倍之多。

其作者是來自谷歌大腦的工程師Mingxing Tan和首席科學家Quoc V. Le。

相關地址

GitHub：
https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet

論文：
https:///abs/1905.11946

延伸閱讀

谷歌開源縮放模型EfficientNets：ImageNet準確率創紀錄，效率提高10倍

Detectron2

這項超強PyTorch目標檢測庫來自Facebook。

比起初代Detectron，它訓練比從前更快，功能比從前更全，支持的模型也比從前更豐盛。一度登上GitHub熱榜第一。

實際上，Detectron2是對初代Detectron的完全重寫：初代是在Caffe2里實現的，而為了更快地迭代模型設計和實驗，Detectron2是在PyTorch里從零開始寫成的。

并且，Detectron2實現了模塊化，用戶可以把自己定制的模塊實現，加到一個目標檢測系統的任何部分里去。

這意味著許多的新研究，都能用幾百行代碼寫成，并且可以把新實現的部分，跟核心Detectron2庫完全分開。

Detectron2在一代所有可用模型的基礎上（Faster R-CNN，Mask R-CNN，RetinaNet，DensePose），還加入了了Cascade R-NN，Panoptic FPN，以及TensorMask等新模型。

相關地址

GitHub：
https://github.com/facebookresearch/detectron2

延伸閱讀

GitHub趨勢榜第一：超強PyTorch目標檢測庫Detectron2，訓練更快，支持更多任務

更強的GAN們

2019年，GAN們依然活躍。

比如同樣來自Google DeepMind的VQ-VAE二代，生成的圖像比BigGAN更加高清逼真，而且更具多樣性：
https:///abs/1906.00446

BigBiGAN，不僅能生成質量優秀的圖像，還在圖像分類任務上刷新了記錄：
https:///abs/1907.02544

以色列理工學院和谷歌聯合出品，拿下ICCV2019最佳論文的SinGAN：
https:///abs/1905.01164

英偉達的StyleGAN也高能進化成為StyleGAN2，彌補了第一代的各種缺陷：
https:///abs/1912.04958

延伸閱讀

史上最佳GAN被超越！生成人臉動物高清大圖真假難辨，DeepMind發布二代VQ-VAE

刷新ImageNet紀錄，GAN不只會造假！DeepMind用它做圖像分類，秒殺職業分類AI

ICCV2019最佳論文SinGAN全面解讀，看這一篇就懂了

如果沒有StyleGAN2，真以為初代就是巔峰了：英偉達人臉生成器高能進化，彌補重大缺陷

2020年趨勢

展望2020年，Analytics Vidhya認為，視覺領域的重點，依然會聚焦在GAN上：

styleGAN2等新方法正在生成越來越逼真的面部圖像，檢測DeepFake將變得越來越重要。視覺和（音頻）都將朝向這個方向進行更多研究。

而元學習和半監督學習，則是2020年的另一大重點研究方向。

強化學習（RL）：星際DOTA雙雙告破，可用性更強

2019年，現有的強化方法擴展到了更大的計算資源方面，并取得了一定的進展。

在過去的一年里，強化學習解決了一系列過去難以解決的復雜環境問題，比如在Dota2和星際2等游戲中戰勝了人類頂尖職業玩家。

報告指出，盡管這些進展引起了媒體行業極大的關注，但是當前的方法還是存在著一些問題：

需要大量的訓練數據，只有在有足夠準確和快速的模擬環境的情況下，才能獲得訓練數據。許多電子游戲就是這種情況，但大多數現實世界中的問題卻不是這樣。
由于采用了這種訓練模式，因此，大規模的強化學習算法，感覺就像只是在問題空間的過度密集采過度產生的策略，而不是讓它學習環境中的潛在因果關系并智能地進行概括。
同樣，幾乎所有現有的Deep RL方法在對抗性樣本、領域外泛化和單樣本學習方面都非常脆弱，目前還沒有好的解決方案。

因此，Deep RL的主要挑戰是逐漸從應對確定性的環境，轉向專注于更基本的進步，例如泛化、轉移學習和從有限數據中學習等等。從一些機構的研究趨勢中，我們可以看出這一點。

首先OpenAI發布了一套類似于健身房的新環境，該環境使用過程級別生成來測試Deep RL算法的泛化能力。

許多研究人員開始質疑并重新評估我們對“智能”的實際定義。我們開始更好地了解神經網絡的未被發現的弱點，并利用這些知識來建立更好的模型。

延伸閱讀

1-10落敗，5分鐘崩盤！星際2職業高手史上首次被AI擊潰，AlphaStar一戰成名

碾壓99.8%人類對手，三種族都達宗師級！星際AI登上Nature，技術首次完整披露

2:0！Dota2世界冠軍OG被OpenAI碾壓，全程人類只推掉兩座外塔

Dota2冠軍OG如何被AI碾壓？OpenAI累積三年的完整論文終于放出

2020年趨勢

總而言之，2020年的預測趨勢如下：

從有限的數據中學習和推廣將成為強化學習研究的中心主題；
強化學習領域的突破與深度學習領域的進步緊密相關；
將有越來越多的研究利用生成模型的力量來增強各種訓練過程。

交叉型研究：AI深入多學科研究

隨著人工智能技術的發展，跨學科研究也成為了今年的熱門。AI的身影，頻現于醫學、腦機接口乃至數學研究當中。

腦機接口

在馬斯克、Facebook紛紛押注的腦機接口領域，深度學習正在幫助研究人員解碼大腦所想。

比如加州大學舊金山分校這項登上Nature的研究：利用深度學習直接讀懂大腦，將大腦信號轉換成語音。

此前的語音合成腦機接口每分鐘只能生成8個單詞，而這項研究中的新裝置，每分鐘能生成150個單詞，接近人類自然語速。

醫學

在醫學領域，機器學習技術也不僅僅在醫療影像識別上發揮作用。

比如，德國組織工程和再生醫學研究所的一項研究，就利用深度學習算法DeepMACT，自動檢測和分析了整個小鼠身體中的癌癥轉移灶。

基于這項技術，科學家首次觀察到了單個癌細胞形成的微小轉移位點，并且把工作效率提高了300倍以上。

“目前，腫瘤臨床試驗的成功率約為5% 。我們相信DeepMACT技術可以大大改善臨床前研究的藥物開發過程。因此，這可能有助于為臨床試驗找到更強大的候選藥物，并有望幫助挽救許多生命。”研究的通訊作者Ali Ertürk表示。

數學

雖說數學是自然科學的基礎，但在AI不斷的發展下，也起到了一定“反哺”作用。

Facebook發表的一項新模型，可以在1秒時間內，精確求解微分方程、不定積分。

不僅如此，性能還超越了常用的Mathematica和Matlab。

積分方程和微分方程，都可以視作將一個表達式轉換為另一個表達式，研究人員認為，這是機器翻譯的一個特殊實例，可以用NLP的方法來解決。

方法主要分為四步：

將數學表達式以樹的形式表示；
引入了seq2seq模型；
生成隨機表達式；
計算表達式的數量。

研究人員在一個擁有5000個方程的數據集中，對模型求解微積分方程的準確率進行了評估。

結果表明，對于微分方程，波束搜索解碼能大大提高模型的準確率。

在包含500個方程的測試集上，商業軟件中表現最好的是Mathematica。

而當新方法進行大小為50的波束搜索時，模型準確率就從81.2%提升到了97%，遠勝于Mathematica（77.2%）

并且，在某一些Mathematica和Matlab無力解決的問題上，新模型都給出了有效解。

展望2020年機器學習

從NLP到計算機視覺，再到強化學習，2020年有很多值得期待的東西。以下是Analytics Vidhya預測的2020年的一些關鍵趨勢：

到2020年，機器學習的職位數量將繼續呈指數級增長。很大程度上是由于NLP的發展，許多公司將尋求擴大團隊，這是進入該領域的好時機。
數據工程師的作用將更加重要。
AutoML在2018年起飛，但并沒有在2019年達到預期高度。明年，隨著AWS和Google Cloud的現成解決方案變得更加突出，我們應該更多地關注這一點。
2020年將是我們終于看到強化學習突破的一年嗎？幾年來一直處于低迷狀態，因為將研究解決方案轉移到現實世界已證明是一個主要障礙。

最后，不妨比照2018的回顧報告，給2019年AI技術表現打個分吧~