2020年還需要閱讀的10篇人工智能論文（附鏈接）

文殊院民 2020-08-18

展開全文

來源：計算機視覺聯盟

本文約6400字，建議閱讀8分鐘。

本文介紹了2020年發表的人工智能（AI）論文。

幾周前，我發表了一篇文章，里面有要在2020年閱讀的人工智能（AI）論文。如果你把所有額外的閱讀建議都算進去，總共有27篇文章。

文章網址：

https:///ai-papers-to-read-in-2020-ac0e4e91d915

然而，這份清單還遠未完成。許多如寶石般的文章被遺漏或只是簡單地提到。在這篇文章中，為了你的閱讀樂趣，我列出了今年閱讀人工智能論文的十條建議（以及其他一些進一步的閱讀建議）。

在這個列表中，我主要關注那些在不提出新架構的情況下推動最新技術的文章，這些文章不包含最新的YOLO或ResNet變體；相反，主要包括了損失公式、理論突破、新優化器等方面的最新進展。

對于文章的前半部分，我將重點介紹計算機視覺和NLP，因為這些是我最熟悉的主題，并從一兩個經典技術開始。對于每一篇論文，我都會總結其主要貢獻，并列出閱讀理由。最后，我在每一篇文章的結尾都給出了關于這個主題的具體閱讀建議，并將其與其他最新進展或類似想法聯系起來。

1.GloVe (2014)

Pennington, Jeffrey, Richard Socher, and Christopher D. Manning. “Glove: Global vectors for word representation.” 2014年自然語言處理方法會議（EMNLP）論文集。

論文鏈接：

https://www./anthology/D14-1162.pdf

雖然現在的社區主要關注神經網絡，但許多早期的結果是通過更簡單的數學方法獲得的。GloVe是從經典算法出發的，它是基于減少單詞共現矩陣維數的單詞嵌入模型。與以前的方法不同，GloVe使用隱式表示法，使其可以擴展為大規模文本語料庫。

理由1：如果你從自然語言處理（NLP）入手，這是一本很好的讀物，可以幫助你了解單詞嵌入的基本知識以及它們的重要性。

理由2：以前并不是所有的東西都是基于Transformers的，閱讀早期的作品是一個很好的方法去找到一個“被遺忘的想法”，該想法可以使現有技術進一步發展。

Transformers：

http://papers./paper/7181-attention-is-all-you-need

理由3：許多作者在后來擴展了本文中提出的許多概念。如今，詞嵌入已成為自然語言處理（NLP）中的主要內容。

進一步閱讀：在同一時期，Google發布了Word2Vec，另一個著名的語義向量生成模型。不久之后，這些想法被生物學界采納，作為表示大蛋白和基因序列的方法。而現在BERT是詞匯表征和語義理解的主導方法。

Word2Vec:

https:///abs/1301.3781

BERT:

https:///abs/1810.04805

2.AdaBoost (1997)

Freund, Yoav; Schapire, Robert E (1997). “A decision-theoretic generalization of on-line learning and an application to boosting”.

論文鏈接：

https://www./science/article/pii/S002200009791504X

經典的機器學習模式根本就不靈活，大多數公式都有顯著的局限性，這使得它們無法擴展到越來越復雜的任務中。

首先解決這個問題的辦法之一是將現有的最佳模式進行投票整合。1997年，Freund和Schapire提出了AdaBoost算法，這是一種元啟發式學習算法，能夠將許多“弱”模型運用到“強”分類器中。

簡而言之，該算法迭代地訓練多個分類器，并將每個訓練樣本重新加權為“簡單”或“困難”，隨著訓練的進行，這套系統會通過更多地關注較難分類的樣本來進化。該算法非常有效，但是遇到復雜的問題也很容易過度擬合。

理由1：可以說，神經網絡是弱分類器（神經元/層）的集合，然而神經網絡文獻的發展是獨立于整體的。讀一篇關于這個主題的論文可能會對為什么神經網絡工作得這么好產生一些見解。

理由2：許多新手把傳統的機器學習方法視為過時和“軟弱”的，在幾乎所有事情上都偏愛神經網絡。AdaBoost是一個很好的例子，說明經典的機器學習并不是很弱，而且與神經網絡不同的是，這些模型具有很強的可解釋性。

理由3：有多少報紙是從一個賭徒的故事開始的，他因為一次又一次輸給朋友的騎馬賭博而受挫？我也真希望我敢寫這樣的論文。

進一步閱讀：其他流行的集成方法包括隨機森林分類器、梯度提升技術和廣受好評的XGBoost軟件包，它以贏得數次機器學習競賽而聞名，同時相對容易使用和調整。這個家族中最新加入的是微軟的LightGBM，它適用于大規模分布的數據集。

隨機森林分類器：

https://en./wiki/Random_forest

梯度提升技術：

https://en./wiki/Gradient_boosting

XGBoost軟件包：

https://github.com/dmlc/xgboost

LightGBM：

https://github.com/microsoft/LightGBM

3.Capsule Networks (2017)

Sabour, Sara, Nicholas Frosst, and Geoffrey E. Hinton. “Dynamic routing between capsules.” 神經信息處理系統的研究進展。

論文鏈接：

https:///abs/1710.09829

神經網絡文獻從感知器模型開始，到卷積神經網絡（CNN）。下一個飛躍是一個備受爭議的話題，其中建議之一就是由Sara Sabour，Nicholas Frosst和圖靈獎獲得者Geoffrey Hinton提出的Capsule Network。

理解膠囊網絡的一個簡單方法是用“膠囊”代替“目標檢測器”。每層“目標檢測器”都試圖識別圖像中的相關特征，以及它的姿態（方向、比例、傾斜等），通過疊加探測器，可以導出物體的魯棒表示。

從本質上講，膠囊并不像cnn那樣將本地信息聚合到高級功能中，取而代之的是，它們檢測目標部分并按層次組合它們以識別更大的結構和關系。

理由1：作為科學家，我們都應該尋找下一個重大事件。雖然我們不能說膠囊網絡將是下一個搖滾明星，但我們可以說他們試圖解決的問題是相關的，并且對于所有相關問題，最終會有人回答。

理由2：本文提醒我們CNN并不完美，它們對旋轉和縮放不變。盡管我們使用數據增強來緩解這種情況，但俗話說，沒有一種創可貼能治愈一個男人。

理由3：在深度學習成為主流之前，許多目標檢測方法都依賴于識別易于發現的“目標部分”并針對數據庫/本體執行模式匹配。Hinton和他的團隊正在做的是使這種早期方法現代化，這就是為什么我們都應該不定期閱讀經典。

進一步閱讀：在過去的一年中，Attention機制引起了很大注意，盡管它沒有嘗試替代或增加卷積，但確實為全局推理提供了一條途徑，這是現代網絡中眾多Aquiles腳跟之一。

4.Relational Inductive Biases (2018)

Battaglia, Peter W., et al. “Relational inductive biases, deep learning, and graph networks.” arXiv preprint arXiv:1806.01261 (2018).

論文鏈接：

https:///pdf/1806.01261.pdf

這篇文章總結了深層思維團隊相信的深度學習下一個重要技術：圖神經網絡（GNNs）。

用作者自己的話說：

(…)。我們認為，組合泛化必須是人工智能實現類人能力的首要任務，結構化表示和計算是實現這一目標的關鍵。正如生物學合作使用自然和培養一樣，我們反對在“手工工程”和“端到端”學習之間的錯誤選擇，而是提倡一種從兩者互補優勢中獲益的方法。我們將探討如何在深度學習架構中使用關系歸納偏差來促進對實體、關系和組合規則的學習。

旁注：歸納偏差是學習算法對數據所做的所有假設。例如，線性模型假設數據是線性的。如果一個模型假設數據有一個特定的關系，它就有一個關系歸納偏差。因此，圖是一種有用的表示。

理由1：目前的CNN模型是“端到端”的，這意味著它們使用的是原始的，大部分是未經處理的數據。特征不是由人類“設計”的，而是由算法自動“學習”的。我們大多數人都被教導特征學習會更好。在本文中，作者提出了相反的觀點。

理由2：早期的人工智能文獻大多與計算推理有關，然而計算直覺占了上風。NN不會對輸入進行仔細考慮；它們會產生一種相當精確的數學“預感”。圖形可能是一種將這種差距與直覺推理聯系起來的方法。

理由3：組合問題可以說是計算機科學中最關鍵的問題，大多數都處于我們認為可處理或可能的邊緣。然而，我們人類可以自然地、毫不費力地推理。圖神經網絡是答案嗎？

進一步閱讀：GNNs是一個令人興奮和不斷發展的領域。從圖論中，我們知道幾乎任何事物都可以被建模為一個圖。謝爾蓋·伊萬諾夫（Sergei Ivanov）在2020年ICLR會議上發表了大量參考文獻，列出了GNN的新趨勢。

2020年圖機學習的主要趨勢：

https:///top-trends-of-graph-machine-learning-in-2020-1194175351a3

5.Training Batch Norm and Only BatchNorm (2020)

Frankle, Jonathan, David J. Schwab, and Ari S. Morcos. “Training BatchNorm and Only BatchNorm: On the Expressive Power of Random Features in CNNs.” arXiv preprint arXiv:2003.00152 (2020).

論文鏈接：

https:///abs/2003.00152

你相信在CIFAR-10上，僅ResNet-151的批處理標準化層就可以達到+60%的精確度嗎？換句話說，如果你將所有其他層鎖定在它們的隨機初始權值，并訓練網絡50個左右的周期，它的性能將比隨機的好。我不得不把這篇論文復制出來親眼看看，“魔力”來自于經常被遺忘的批次范數的γ和β參數：

批處理標準化操作的完整定義。γ和β是兩個可學習的參數，可在標準化發生后允許圖層縮放和移動每個激活圖。

理由1：這是一個瘋狂的想法，值得一讀。開箱即用的想法總是受歡迎的。

理由2：你可能會問自己批歸一化層如何學習，并且你可能會想知道為什么有人會關心這一點。對于數據科學中的許多事情，我們認為批歸一化是理所當然的，我們相信這只會加速訓練。但是，它可以做得更多。

理由3：這篇文章可能會激起你的興趣，讓你看看所有的公共層都有哪些參數和超參數。

進一步閱讀：大多數課程教導批歸一化層是針對所謂的內部協方差轉移問題。最近的證據表明情況并非如此（https:///abs/1805.11604），相反，作者認為BN層使整體損失情況更為平滑。另一個巧妙的想法是彩票假說，它也是由弗蘭克爾等人提出的。

彩票假說：

https:///abs/1803.03635

6.Spectral Norm (2018)

Miyato, Takeru, et al. “Spectral normalization for generative adversarial networks.” arXiv preprint arXiv:1802.05957 (2018).

論文鏈接：

https:///abs/1802.05957

在GAN文獻中，Wasserstein損失改善了訓練GANs的幾個關鍵挑戰，然而它規定梯度必須有一個小于或等于1的范數（1-Lipschitz）。損失的最初作者建議將權重裁剪為[-0.01，0.01]，以此來增強小梯度。作為響應，也有人提出了更干凈的解決方案，使用頻譜范數作為約束權重矩陣以生成最多單位梯度的平滑替代方法。

Wasserstein損失：

https:///abs/1701.07875

理由1：標準化是一個比較大的話題，許多特殊屬性可以通過專門的標準化和精心設計的激活函數來實現。

理由2：除了作為一個標準，它也是一個正則化，這是神經網絡設計中經常被忽視的話題。除了dropout，讀一篇關于該問題的成功論文讓人耳目一新。

dropout:

https://en./wiki/Dropout_(neural_networks)

進一步閱讀：標準化技術的其他最新進展是組標準化和自適應實例標準化技術，前者以小批量解決了批量范數的一些缺點，而后者則是任意風格轉換的關鍵突破之一。

7.Perceptual Losses (2016)

Johnson, Justin, Alexandre Alahi, and Li Fei-Fei. “Perceptual losses for real-time style transfer and super-resolution.” 歐洲計算機視覺會議. Springer, Cham, 2016.

大多數神經網絡背后的驅動力是損失函數。在描述什么是好的和什么是壞的損失函數越是成功，我們就越快收斂到有用的模型中。在文獻中，大多數損失相對簡單，只能測量低水平的屬性。除此之外，獲取高級語義也是出了名的棘手。

Perceptual Losses論文認為，可以使用預先訓練的網絡來度量語義相似度，而不是手工設計復雜的損失函數。在實踐中，生成值和真實值的結果通過預先訓練的VGG網絡傳遞，并比較特定層的激活情況。相似圖像應該有相似的激活。早期圖層捕捉廣泛的特征，而后期圖層捕捉更多細微的細節。

理由1：損失是生成優秀模型最重要的方面之一。沒有一個合適的反饋信號，任何優化過程都不會收斂。這就是一個好老師的角色：給予反饋。

理由2：成功的損失往往具有里程碑意義。在感知損失被發明之后，GANs所獲得了品質的躍升。理解這部作品對于理解大部分后期技術是必不可少的。

理由3：這些神經損失既神秘又有用。雖然作者對這些模型的工作原理提供了合理的解釋，但它們的許多方面仍然是開放的，就像神經網絡中的大多數東西一樣。

進一步閱讀：神經網絡的一個迷人的方面是它們的可組合性。本文利用神經網絡來解決神經網絡問題。拓撲損失理論將這種思想推廣到圖像分割問題中。神經結構搜索（NAS）文獻使用神經網絡來尋找新的神經網絡。至于計算機視覺的其他損失，這里有一個全面的指南。感謝Sowmya Yellapragada整理了這個強大的清單：

https:///ml-cheat-sheet/winning-at-loss-functions-2-important-loss-functions-in-computer-vision-b2b9d293e15a

8.Nadam (2016)

Dozat, Timothy. “Incorporating nesterov momentum into adam.” (2016).

我們大多數人都熟悉SGD、Adam和RMSprop等術語，有些人還知道一些不太熟悉的名字，如AdaGrad、AdaDelta和AdaMax，但是很少有人花一些時間來理解這些名稱的含義以及為什么Adam是當今的默認選擇。Tensorflow捆綁了Nadam，它改進了Adam，但是大多數用戶并不知道。

理由1：本論文對大多數神經網絡優化器進行了全面而直接的解釋。每一種方法都是對其他方法的直接改進。很少有論文能在兩頁半的篇幅里涵蓋如此重數學的知識。

理由2：我們都認為優化器是理所當然的，了解它們的基本原理對改進神經網絡非常有用，這就是為什么我們在RMSprop不收斂時用Adam替換它，或者用SGD替換它。

進一步閱讀：自2016年以來，已經提出了許多對優化器的其他改進，有些將在某個時候合并到主流庫中?？纯?Radam, Lookahead,和Ranger 的一些新想法。

Radam：

https:///abs/1908.03265v1

Lookahead：

https:///abs/1907.08610

Ranger：

https://github.com/lessw2020/Ranger-Deep-Learning-Optimizer

9.The Double Descent Hypothesis (2019)

Nakkiran, Preetum, et al. “Deep double descent: Where bigger models and more data hurt.” arXiv preprint arXiv:1912.02292 (2019).

傳統的觀點認為小模型欠擬合，大模型過擬合，然而，在彩虹之上的某個地方，更大的模型仍然閃耀著光芒。

本文中，Nakkiran等人有證據表明，隨著尺寸的增長，一些模型表現出“雙下降”現象，測試精度下降，然后上升，然后再次下降。此外，他們認為拐點是在“插值閾值”：一個模型足夠大來插值數據的點，換句話說，當一個模型的訓練超出了該領域的建議，它就會開始改進。

理由1：大多數課程都教授偏差/方差權衡，顯然，該原則僅在一定程度上適用——需要時間來復習基礎知識。

理由2：如果增加的周期數也越過了插值點，我們都應該盡早放棄，看看會發生什么?？偟膩碚f，我們都可以做科學的分析。

理由3：這和5很好地提醒了我們還有很多我們不知道的地方。并非我們所學的一切都是正確的，并且并非所有直觀的知識都是正確的。

進一步閱讀：一個更輕松的閱讀是圖像分類的“技巧包”。在這本書中，你將找到幾個簡單且可操作的建議，用于從模型中提取額外的性能下降元素。

圖像分類的“技巧包”：

https:///abs/1812.01187

10.On The Measure of Intelligence (2019)

Fran?ois, Chollet. “On the Measure of Intelligence.” arXiv preprint arXiv:1911.01547 (2019).

https:///abs/1911.01547

大多數人都在努力多走一英里，弗朗索瓦·喬利特正在向月球射擊。

在這個列表中，所有提到的文章都進一步推動了實踐和理論的發展。一些技術已經被廣泛采用，而另一些則為融合提供了良好的改進，然而，比肩人類智力，仍然是一個神秘而難以捉摸的話題，更不用說奧秘或神秘了。

時至今日，人工智能領域朝著通用智能方向的進步還只是用“成就”來衡量。每隔一段時間，一種算法在復雜的任務中擊敗了人類，比如國際象棋、dota2或圍棋。每當這種情況發生時，我們都說我們又近了一步. 然而，這還不足以衡量智力的技能習得效率。

在這篇（長篇）文章中，Chollet認為：“要想朝著更智能、更人性化的人工系統邁進，我們需要遵循適當的反饋信號?！睋Q句話說，我們需要一個合適的機器智能基準，一種智商測試。因此，作者提出了抽象推理語料庫（ARC）。

ARC可以被看作是一個通用的人工智能基準，一個程序綜合基準，或者一個心理測量智能測試。它的目標是人類和人工智能系統，這些系統旨在模擬人類一般流體智能的形式。”

理由1：雖然數據科學很酷很時髦，但人工智能才是真正的核心。如果沒有人工智能，就不會有數據科學。它的最終目標不是尋找數據洞察力，而是構建可以擁有自己想法的機器?；ㄐr間思考以下基本問題：什么是智力，我們如何衡量？本文是一個好的開始。

理由2：在過去的幾十年里，IA社區被來自數理邏輯和演繹推理的思想所支配，但是支持向量機和神經網絡在沒有任何形式的顯式推理的情況下，比基于邏輯的方法更先進。ARC是否會引發經典技術的復興？

理由3：如果Chollet是正確的，我們離創建能夠求解ARC數據集的算法還有幾年的時間。如果你正在尋找一個可以在業余時間使用的數據集，這里有一個可以讓你保持忙碌的數據集：

進一步閱讀：2018年，Geoffrey Hinton、Yosha Bengio和Yan LeCun因其在深度學習基礎上的先驅工作而獲得圖靈獎。今年，在AAAI會議上，他們就人工智能的未來發表了自己的看法。你可以在Youtube上觀看：

https:///UX8OubxsY8w

我想用杰弗里·辛頓的一句話來結束這篇文章，我相信這句話概括了這一切：“未來取決于某個研究生，他對我所說的一切都深表懷疑?！?/p>

GloVe通過隱式完成了共現矩陣。AdaBoost使數百個弱分類器成為最新技術。膠囊網絡挑戰了CNN，而圖神經網絡可能會取代它們。關鍵的進步可能來自歸一化，損失和優化器，而我們仍然有空間質疑批處理規范和訓練過度參數化的模型。

我想知道還有多少關于dropout和ReLU的事情需要去發現。

參考鏈接：

https:///ten-more-ai-papers-to-read-in-2020-8c6fb4650a9b

編輯：王菁

校對：林亦霖

—完—

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發布，不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息，謹防詐騙。如發現有害或侵權內容，請點擊一鍵舉報。