概述：各學科和各種任務的最新機器學習算法

邸彥強 2020-12-11

展開全文

了解NLP，計算機視覺，語音識別和推薦系統的最佳算法

CV Computer Vision, NLP Natural Language Processing, RS Recommender System, SR Speech Recognition

機器學習算法正在興起。每年都會出現新技術，這些技術已經超過了當前的領先算法。其中一些只是很小的進步或現有算法的組合，而另一些則是新創建的并導致了驚人的進步。對于大多數技術而言，已經有不錯的文章解釋其背后的理論，其中一些還提供了帶有代碼和教程的實現。還沒有人提供當前領先算法的概述，因此提出了根據所獲得的結果（使用性能得分）為每個任務提供最佳算法的想法。當然，還有更多的任務，并非所有任務都可以呈現。我試圖選擇最受歡迎的領域和任務，并希望這有助于更好地理解。本文重點介紹的方法是計算機視覺，自然語言處理，語音識別。

本文介紹了所有領域，任務和一些算法。如果您僅對子部分感興趣，請跳至要深入的部分。

計算機視覺

計算機視覺是機器學習中研究最多，最受歡迎的領域之一。它用于解決許多日常問題，并連續涉及多種應用，其中最流行的是當前的自動駕駛汽車。我們將研究的任務是語義分割，圖像分類和對象檢測。

語義分割

語義分割可以看作是在像素級別上理解圖像的結構和組件。語義分割的方法試圖對圖像中的結構和對象做出預測。為了更好地理解，可以在下面看到街道場景的語義分割：

> Semantic Segmentation with SegNet https://mi.eng./projects/segnet/

Tao等人于2020年提出了當前領先的算法HRNet-OCR。來自Nvidia。它實現了平均交集（Mean IOU）為85.1％。HRNet-OCR縮放圖像并為每個縮放比例使用密集的蒙版。然后，'通過在掩模之間執行像素級乘法與預測相結合，然后在不同比例級之間進行像素級求和，以得到最終結果' [1]。

查看該技術的Github：https：//github.com/HRNet/HRNet-Semantic-Segmentation

其他頂級技術（方法-數據集）：

· 高效Net-L2 + NAS-FPN — PASCAL VOC

· ResNeSt-269 — PASCAL上下文

· MVF —ScanNer

影像分類

除語義分割外，圖像分類不關注圖像上的區域，而是整個圖像。該學科試圖通過分配標簽來對每個圖像進行分類。

> source: image by author.

首先，Facebook AI研究團隊于2020年4月20日將FixEfficientNet與相應的論文一起展示[2] [3]。目前，它是最先進的，在ImageNet數據集上具有480M參數，top-1精度為88.5％和top-5精度為98.7％的最佳結果。FixRes是Fix Resolution的簡寫形式，它嘗試為訓練時間或測試時間的作物保持固定大小。EfficientNet是CNN尺寸的復合縮放，可提高準確性和效率。

有關FixEfficientNet的更多信息，請閱讀此內容。

其他頂級技術（方法-數據集）：

· BiT-L — CIFAR-10

· Wide-ResNet-101 — STL-10

· 分支/合并CNN +均質過濾器膠囊— MNIST

物體檢測

對象檢測是識別圖像中某一類對象的實例的任務。

當前領先的物體檢測技術是Google Brain小組（Tan等人）于2020年首次提出的Efficient-Det D7x [4]。它實現了74,3的AP50（有關AP50的更多信息：平均精度，固定IoU閾值為50）和盒AP為55,1。Efficient-Det是EfficientNets與雙向特征金字塔網絡（BiFPN）的組合。

正如上面簡短解釋的那樣，EfficientNet是CNN尺寸的復合縮放，可同時提高準確性和效率。有關EfficientNet的更多信息，請單擊此處。

在計算機視覺中，提高準確性的一種典型方法是創建具有不同分辨率的同一圖像的多個副本。由于最小的圖像作為頂層，最大的圖像作為底層，這導致了所謂的金字塔。特征金字塔網絡代表了這樣的金字塔。雙向意味著不僅存在自上而下的方法，而且同時存在自下而上的方法。每個雙向路徑都用作功能網絡層，這導致了BiFPN。它有助于提高準確性和速度。有關BiFPN的更多信息，請單擊此處。

其他頂級技術（方法-數據集）：

· 羅迪歐-PASCAL VOC

· 修補程序優化— KITTI Cars Easy

· IterDet —人群

自然語言處理

自然語言處理的常見定義如下：

NLP是AI的一個子領域，它使機器能夠閱讀，理解并從人類語言中獲取含義。

NLP任務的范圍很廣，正如定義所揭示的，它們都試圖從我們的語言中推斷出某些含義，并根據我們的語言及其組成部分進行計算。基于NLP的算法可以在各種應用和行業中找到。僅列舉一些您每天可能會遇到的應用程序，例如翻譯器，社交媒體監控，聊天機器人，垃圾郵件過濾器，Microsoft word或Messenger和虛擬助手中的語法檢查。

情緒分析

情感分析是文本挖掘的一個領域，用于解釋和分類文本數據中的情感。當前最先進的算法之一是BERT，該算法在2019年的SST-5細分類數據集上的準確度達到55.5。原始論文由Google AI團隊發布[5]。

BERT代表變壓器Tansformer的雙向編碼器表示形式，并且對Tansformer技術進行了雙向訓練。Tansformer技術是一種用于語言建模的注意力模型，以前僅在一個方向上應用。從左到右或從右到左解析文本。

其他頂級技術（方法-數據集）：

· T5–3B — SST-2二進制分類

· NB加權BON + DV余弦— IMDb

語言建模

語言建模的任務是根據現有文本/先前的單詞預測文本中的下一個單詞或字母。GPT-2模型給出了兩個句子，描述了一群生活在安第斯山脈的獨角獸，并創造了一個驚人的故事。你可以在這里閱讀它。

在語言建模中，可以在威震天LM中找到性能最好的算法之一。該模型和論文由Nvidia團隊于2019年首次提出。在8.3萬億參數上訓練了類似于GPT-2的模型。它能夠將當前的最新分數15.8降低到測試困惑度僅為10.8。使用的數據集是WikiText103 [6]。

該模型利用了Tansformer網絡。在他們的工作中，Tansformer層由一個自我注意模塊和一個兩層，多層感知器（MLP）組成。在每個塊中，使用模型并行性。這有助于減少通信并保持GPU的計算約束。GPU的計算被復制以提高模型的速度。

其他頂級技術（方法-數據集）：

· GPT-3 —賓夕法尼亞州樹庫

· GPT-2 — WikiText2，Text8，enwik8

機器翻譯

機器翻譯用于Google Translate或www.deepl.com之類的應用程序中。它用于使用算法翻譯另一種語言的文本。

該領域最有前途的算法之一是Transformer Big + BT。Google Brain團隊在2018年的論文中對此進行了介紹。通常，變壓器是處理序列和機器翻譯的最新技術。變壓器不使用循環連接，而是同時解析序列[7]。

Input is represented in green is given to the model (blue) and transformed to the output (purple）

如您在上面的gif中看到的，輸入和輸出有所不同。這是由于兩種不同的語言，例如，輸入是英語，而輸出是德語。為了提高速度，并行化是模型的關鍵方面。通過使用CNN和注意力模型來解決此問題。自我注意有助于提高速度和對某些單詞的關注，而CNN用于并行化[8]。有關變壓器的更多信息，請閱讀這篇出色的文章。作者將反向翻譯（BT）應用于他們的訓練。在這種方法中，訓練數據集被翻譯成目標語言，算法將其翻譯回原始語言。然后可以完美地觀察性能[7]。

其他頂級技術（方法-數據集）：

· MAT + Knee — IWSLT2014德語-英語

· MADL — WMT2016英語-德語

· 注意編碼器+ BPE編碼器— WMT2016德語-英語

文字分類

文本分類是為句子，文本或單詞分配特定類別的任務。當前在三種不同數據集（DBpedia，AG News和IMDb）上的領先算法是XLNet。

谷歌AI團隊于2019年首次提出了論文和技術XLNet。它在20個任務中改進了領先的算法BERT。XLNet率先采用的方法稱為置換語言建模。它利用單詞的排列。假設您按照以下順序[w1，w2，w3]得到3個單詞。然后檢索所有排列，此處3 * 2 * 1 = 6個排列。顯然，長句子會導致許多排列。位于預測字之前的所有字（例如w2）都用于預測[9]：

w3 w1 w2w1 w2 w3w1 w3 w2 …

在第1行中，w3和w1用于w2的預測。在第2行中，只有w1用于預測，依此類推。為了更好地了解該技術，您可以在此處閱讀更多信息。

其他頂級技術（方法-數據集）：

· USE_T + CNN — TREC-6

· SGC — 20新聞

問題回答

問答是訓練算法以回答問題（通常基于閱讀理解）的任務。由于在給定的文本數據庫上進行學習并存儲了可以在以后某個時間點回答問題的知識，因此該任務是'轉移學習'的一部分。

Google AI團隊使用T5-11B在四個不同的數據集上取得了最新的基準：GLUE，SuperGLUE，SQuAD和CNN / Daily Mail。T5代表文本到文本轉換變壓器中的五個T，而11B代表用于訓練算法的110億個數據集。與BERT和其他出色的算法相比，T5-11B不會將標簽輸出到輸入句子。取而代之的是，正如名稱所示，輸出也是文本字符串[10]。

> source: https://ai./2020/02/exploring-transfer-learning-with-t5.html

本文的作者已經嚴格評估和完善了數十種現有的NLP任務，以將最佳思想帶入他們的模型中。這些包括作者描述的關于模型架構，預訓練目標，未標記的數據集，訓練策略和規模的實驗[10]：

模型體系結構，我們發現編碼器-解碼器模型通常優于'僅解碼器'語言模型；

訓練前目標，我們確認填空式去噪目標（訓練模型以恢復輸入中丟失的單詞）效果最好，而最重要的因素是計算成本；

未標記的數據集，我們證明對域內數據進行訓練可能是有益的，但對較小的數據集進行預訓練會導致不利的過度擬合；

訓練策略，在該策略中，我們發現多任務學習可以通過'先培訓后再微調'的方法接近競爭能力，但需要仔細選擇對每項任務進行模型訓練的頻率；

和比例，我們比較按比例放大模型的大小，訓練時間和集成模型的數量，以確定如何充分利用固定計算能力[11]

完整的T5-11B模型是現有NLP模型（例如BERT）的三十倍以上。

其他頂級技術（方法-數據集）：

· T5-11B — SQuAD1.1開發

· 阿爾伯特上的SA-Net — SQuAD2.0

· TANDA-RoBERTa — WikiQA

語音識別

以及推薦系統，語音識別也參與了我們的日常生活。越來越多的應用程序以虛擬助手（例如Siri，Cortana，Bixby或Alexa）的形式利用語音識別。

該領域的領先算法之一是Google團隊于2019年首次引入基于ContextNet + SpecAugment的Libri-Light噪聲學習訓練，該論文[13]。

顧名思義，此方法將ContextNet與嘈雜的學生學習結合在一起。ContextNet是CNN-RNN-換能器。該模型包括一個用于輸入音頻的音頻編碼器，一個用于生成輸入標簽的標簽編碼器以及一個用于解碼的聯合網絡。對于標簽編碼器，使用LSTM，而音頻編碼器基于CNN。嘈雜的學生訓練是一種半監督的學習，它使用未標記的數據來提高準確性[13]。

'在嘈雜的學生訓練中，一系列模型是連續訓練的，因此對于每個模型，該系列中的先前模型在數據集的未標記部分上充當教師模型。嘈雜的學生訓練的顯著特征是利用增強，其中老師通過閱讀純凈的輸入來產生高質量的標簽，而學生則被迫使用大量增強的輸入功能來復制這些標簽。[13]

Libri Light指的是未標記的音頻數據集，在該數據集上訓練了模型并且該音頻數據集來自有聲讀物。

其他頂級技術（方法-數據集）：

· ResNet + BiLSTM的聲學模型—總機+ Hub500

· LiGRU +輟學+ BatchNorm + Monophone Reg — TIMIT

· 大型10h-LV-60k — Libri-Light測試清洗

結論

過去的十年在多個學科和任務上取得了突破。已經發現和開發了新技術，算法和應用程序，我們仍處于起步階段。這主要是通過兩個開發過程來實現的：1）不斷增長的數據庫使向算法提供足夠的數據成為可能； 2）處理器，RAM和圖形卡的技術開發使訓練需要更多計算的更復雜算法成為可能。功率。此外，最先進的算法的半衰期也隨著對數據科學投資的增加以及越來越多的人對數據科學和機器學習領域的興趣而縮短。連續地，這篇文章可能已經過時了一年。但就目前而言，這些領先技術可幫助創建越來越好的算法。

如果您知道應添加的其他方法或學科，則可以發表評論或與我聯系。感謝您的反饋，希望您喜歡閱讀本文！

參考文獻：

[1] Tao，A.，Sapra，K。和Catanzaro，B。（2020）。語義細分的分層多尺度注意。ArXiv：2005.10821 [Cs]。http:///abs/2005.10821

[2] Touvron，H.，Vedaldi，A.，Douze，M.＆Jégou，H.（2020b）。修復火車測試分辨率差異：FixEfficientNet。ArXiv：2003.08237 [Cs]。http:///abs/2003.08237

[3] Touvron，H.，Vedaldi，A.，Douze，M.＆Jégou，H.（2020a）。修復火車測試分辨率差異。ArXiv：1906.06423 [Cs]。http:///abs/1906.06423

[4] Tan，M.，Pang，R.，＆Le，Q. V.（2020）。EfficientDet：可擴展且高效的對象檢測。ArXiv：1911.09070 [Cs，Eess]。http:///abs/1911.09070

[5] Devlin，J.，Chang，M.-W.，Lee，K.，＆Toutanova，K.（2019）。BERT：用于語言理解的深度雙向變壓器的預訓練。ArXiv：1810.04805 [Cs]。http:///abs/1810.04805

[6] Shoeybi，M.，Patwary，M.，Puri，R.，LeGresley，P.，Casper，J.，＆Catanzaro，B.（2020）。威震天LM：使用模型并行性訓練數十億個參數語言模型。ArXiv：1909.08053 [Cs]。http:///abs/1909.08053

[7] Edunov，S.，Ott，M.，Auli，M.和Grangier，D.（2018）。大規模理解反向翻譯。ArXiv：1808.09381 [Cs]。http:///abs/1808.09381

[8] Vaswani，A.，Shazeer，N.，Parmar，N.，Uszkoreit，J.，Jones，L.，Gomez，A.，Kaiser，L。，和Polosukhin，I。（2017年）。注意就是您所需要的。ArXiv：1706.03762 [Cs]。http:///abs/1706.03762

[9] Touvron，H.，Vedaldi，A.，Douze，M.＆Jégou，H.（2020b）。修復火車測試分辨率差異：FixEfficientNet。ArXiv：2003.08237 [Cs]。http:///abs/2003.08237

[10] Raffel，C.，Shazeer，N.，Roberts，A.，Lee，K.，Narang，S.，Matena，M.，Yang，Li，W.，＆Liu，PJ（2020）。探索使用統一文本到文本轉換器的遷移學習的局限性。ArXiv：1910.10683 [Cs，Stat]。http:///abs/1910.10683

[11] https://ai./2020/02/exploring-transfer-learning-with-t5.html

[12] Rendle，S.，Zhang，L.和Koren，Y.（2019）。關于評估基準的難度：推薦系統研究。ArXiv：1905.01395 [Cs]。http:///abs/1905.01395

[13] Park，D。S.，Zhang Y.，Jia Y.，Han W.，Chiu C.-C.，Li B.，Wu Y.和Le Q. V.（2020）。改進了用于自動語音識別的嘈雜學生培訓。ArXiv：2005.09629 [Cs，Eess]。http:///abs/2005.09629

(本文由聞數起舞翻譯自Hucker Marius的文章《Overview: State-of-the-Art Machine Learning Algorithms per Discipline & per Task》，轉載請注明出處，原文鏈接：https:///overview-state-of-the-art-machine-learning-algorithms-per-discipline-per-task-c1a16a66b8bb)

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發布，不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息，謹防詐騙。如發現有害或侵權內容，請點擊一鍵舉報。