2020年arXiv十大熱門論文來了！不止GPT-3、SimCLR、YOLOv4...

520jefferson 2021-01-08

展開全文

轉載自 | AI科技評論

作者| 陳大鑫

近日，有位外國網友在Reddit上發帖稱利用metacurate.io持續讀取了2020年度arxiv上有關AI、機器學習、NLP和數據科學的大量論文資源。到2020年末，metacurate.io總共檢索了94,000多個論文鏈接。

然后，匯總到一起，并根據7天的社交媒體熱度對所有論文進行熱度評分，最后選出來了十大arXiv熱門論文，其中就有GPT-3、SimCLR、YOLOv4等研究工作。

以下是就是這十篇熱門的arxiv論文，排名不分先后。

1、《Towards a Human-like Open-Domain Chatbot》.

論文鏈接：https:///abs/2001.09977

本文介紹了Meena，這是一個多輪的開放域聊天機器人，對從公共領域社交媒體對話中提取和過濾的數據進行了端到端的訓練。對該2.6B參數神經網絡進行簡單的訓練即可最大程度地減少下一個token的復雜度。本文還提出了一種被稱為“敏感度和特異度平均值（SSA：Sensibleness and Specificity Average）”的人類評估指標，該指標可捕捉類似于人類的多輪對話的關鍵元素。本文的實驗表明，復雜度與SSA之間有很強的相關性。

最優復雜度的端到端訓練有素的Meena在SSA上得分很高（多輪評估為72％），這表明如果我們可以更好地優化復雜度，則人類水平的86％SSA是可以達到的。此外，完整版本的Meena（具有過濾機制和調諧解碼功能）的SSA得分為79％，比我們評估的現有聊天機器人的絕對SSA得分高23％。

2、《A Simple Framework for Contrastive Learning of Visual Representations》.

論文鏈接：https:///abs/2002.05709

這篇論文來自深度學習之父Hinton負責的谷歌大腦團隊，論文一作Ting chen是位華人，本科在北郵就讀。

本文介紹了SimCLR：用于視覺表示的對比學習的簡單框架。本文簡化了最近提出的對比自我監督學習算法，而無需專門的架構或存儲庫。

本文證明：

1、數據擴充的組合在定義有效的預測任務中起著至關重要的作用；

2、在表示和對比損失之間引入可學習的非線性變換，可以大大提高所學習表示的質量；

3、與監督學習相比，對比學習受益于更大的batch和更多的訓練步驟。

通過結合這些發現，本文能夠大大勝過ImageNet上用于自監督和半監督學習的先前的很多SOTA方法。SimCLR學習到的基于自監督表示訓練的線性分類器達到了76.5％的top-1準確性，相對于以前的SOTA水平有7％的相對提升，與監督學習的ResNet-50的性能相匹配。當僅對1％的標簽進行微調時，本文可以達到85.8％的top-5精度，而相比AlexNet的標簽數量減少了100倍。

3、《Language Models are Few-Shot Learners》.

論文鏈接：https:///abs/2005.14165

這篇論文就是無人不知無人不曉的來自OpenAI團隊打造的2020年AI圈最為火爆的GPT-3 ！

本文證明，通過擴大語言模型的參數規模，可以極大地提高與任務無關的、少樣本學習性能，有時甚至可以與現有的當前最佳微調方法相提并論。

具體來說，我們訓練了GPT-3（一個具有1750億個參數的自回歸語言模型，參數量是以前的任何非稀疏語言模型的10倍），并在少樣本學習設置下測試其性能。

對于所有任務，GPT-3都可以在不進行任何梯度更新或微調的情況下使用，僅需要通過與模型的文本交互指定任務和少量演示即可。

GPT-3在許多NLP數據集上均具有出色的性能，包括翻譯、問答等任務。不過，我們還發現了一些數據集，在這些數據集上GPT3的少樣本學習仍然困難重重。此外，在一些數據集上，GPT-3也面臨一些與大型Web語料庫訓練有關的方法論問題。

這篇論文獲得了NeurIPS 2020的最佳論文，其獲獎理由如下：

語言模型是解決NLP中一系列問題的現代技術的骨干部分。這篇論文表明，當將此類語言模型擴展到前所未有的參數數量時，語言模型本身可以用作少樣本學習的工具，無需任何額外的訓練就可以在許多NLP問題上取得非常出色的表現。
GPT-3是一個令人感到震撼的工作，有望對NLP領域產生重大影響，并經受住時間的考驗。除了科學上的突破，這篇論文還對工作的深遠影響進行了和全面且深入的詮釋，可以作為NeurIPS社區思考如何考慮研究的實際影響的示例。

4、《A Survey of Deep Learning for Scientific Discovery 》.

論文鏈接：https:///abs/2003.11755

在過去的幾年中，我們已經看到了機器學習核心問題的根本性突破，這在很大程度上是由深度神經網絡的進步所推動的。同時，在廣泛的科學領域中收集的數據量在規模和復雜性方面都在急劇增加。這為在科學環境中進行深度學習應用提供了許多令人感到興奮的機會。

但是，一個重大的挑戰是不同深度學習技術的廣泛性和多樣性使得人們很難確定哪些科學問題最適合這些方法，或者哪種方法的特定組合可能提供最有希望的第一種方法。

在本次研究調查中，作者專注于解決這一核心問題，并概述了許多廣泛使用的深度學習模型，其中涵蓋了視覺、序列和圖形結構化數據，關聯的任務和不同的訓練方法，以及使用較少數據和更好地解釋這些復雜的模型---許多科學用例的兩個主要考慮因素。作者還提供了整個設計過程的概述、實施技巧，并鏈接了由社區開發的大量教程、研究摘要以及開源的深度學習pipeline和預訓練的模型。作者希望這項調查將有助于加速跨學科領域深度學習的使用。

5、《YOLOv4: Optimal Speed and Accuracy of Object Detection》.

論文鏈接：https:///abs/2004.10934

代碼：https://github.com/AlexeyAB/darknet

2002年4月份的某一天，CV圈被YOLOv4刷屏了，之前，YOLO系列(v1-v3)作者 Joe Redmon 宣布不再繼續CV方向的研究，引起學術圈一篇嘩然。

當大家以為再也見不到YOLOv4的時候，然鵝那一天 YOLOv4 終究還是來了！

YOLOv4的作者陣容里并沒有Joe Redmon，YOLO官方github正式加入YOLOv4的論文和代碼鏈接，也意味著YOLOv4得到了Joe Redmon的認可，也代表著YOLO的停更與交棒。

大家一定被文章開頭的圖片吸引了，位于圖中靠右上角的YOLOv4 多么'亮眼'，越靠右上角意味著AP越高、速度FPS越快！而且YOLO被大家追捧的原因之一就是：快而準。YOLOv4 在COCO上，可達43.5％ AP，速度高達 65 FPS！

本文的主要貢獻如下：

1. 提出了一種高效而強大的目標檢測模型。它使每個人都可以使用1080 Ti或2080 Ti GPU 訓練超快速和準確的目標檢測器（牛逼！）。

2. 在檢測器訓練期間，驗證了SOTA的Bag-of Freebies 和Bag-of-Specials方法的影響。

3. 改進了SOTA的方法，使它們更有效，更適合單GPU訓練，包括CBN ，PAN ，SAM等。文章將目前主流的目標檢測器框架進行拆分：input、backbone、neck 和 head。具體如下圖所示：

對于GPU，作者在卷積層中使用：CSPResNeXt50 / CSPDarknet53
對于VPU，作者使用分組卷積，但避免使用（SE）塊-具體來說，它包括以下模型：EfficientNet-lite / MixNet / GhostNet / MobileNetV3

更多內容請移步“大神接棒，YOLOv4來了！”一文。

6、《Deep Differential System Stability — Learning advanced computations from examples》.

論文鏈接：https:///abs/2006.06462

神經網絡可以從示例中學到高級數學計算嗎？通過在大型生成的數據集上使用Transformer，我們訓練模型以學習差分系統的屬性，例如局部穩定性，無窮大行為和可控性。

本文獲得了系統定性特性的近乎完美的估計，以及數值定量的良好近似值，這表明神經網絡無需內置數學知識即可學習高級定理和復雜的計算。

7、《AutoML-Zero: Evolving Machine Learning Algorithms From Scratch》.

論文鏈接：https:///abs/2003.03384

機器學習研究已在多個方面取得了進步，包括模型結構和學習方法。使此類研究自動化的工作（稱為AutoML）也取得了重大進展。但是，這一進展主要集中在神經網絡的體系架構上，在該體系架構中，神經網絡依賴于專家設計的復雜層作為構建塊（block），或類似的限制性搜索空間。本文的目標是證明AutoML可以走得更遠：有可能僅使用基本的數學運算作為構建塊就可以自動發現完整的機器學習算法。

本文通過引入一個新的框架來證明這一點，該框架可以通過通用搜索空間顯著減少人為偏見。

盡管空間很大，但是進化搜索仍然可以發現通過反向傳播訓練的兩層神經網絡。然后，接著可以通過直接在感興趣的任務上來進行研究探索，例如雙線性相互作用、歸一化梯度和權重平均。此外，演化使得算法能適應不同的任務類型：例如，當可用數據很少時，出現類似于Dropout的技術。作者相信這些從頭開始發現機器學習算法的初步成功為該領域指明了一個有希望的新方向。

8、《Deploying Lifelong Open-Domain Dialogue Learning 》.

論文鏈接：https:///abs/2008.08076

NLP的很多研究都集中在眾包靜態數據集（ crowdsourced static datasets）和訓練一次然后評估測試性能的監督學習范式上。但是如de Vries等人所述，眾包數據存在缺乏自然性和與真實世界用例相關性的問題，而靜態數據集范式不允許模型從其使用語言的經驗中學習。相反，人們希望機器學習系統在與人互動時變得更加有用。

在這項工作中，作者構建并部署了一個角色扮演游戲，人類玩家可以與位于開放域幻想世界中的學習 agent交談。本文顯示，通過訓練模型來模擬他們在游戲中與人類的對話，通過自動指標和在線參與度評分可以逐步改善模型。當將這種學習應用于與真實用戶的對話時，它比眾包數據更有效，并且書籍收集起來要便宜得多。

9、《A Primer in BERTology: What we know about how BERT works》.

論文鏈接：https:///abs/2002.12327

本文是一篇綜述性文章，概述了目前學術界對Bert已取得的150多項研究成果，并且對后續的研究也進行了展望，適合于初入BERT模型的人員學習。本文主要從BERT網絡結構、BERT embeddings、BERT中的句法知識（Syntactic knowledge）、語義知識（Semantic knowledge）和知識庫（World knowledge）以及Self-attention機制等角度對當下學術界對BERT的研究進行了說明，基于前面的介紹，作者對BERT是如何訓練、當模型過于復雜時應給如何解決等問題給出了相應的解決方案。最后作者對BERT未來的研究方向以及需要解決的問題提出了展望。

10、《Building high accuracy emulators for scientific simulations with deep neural architecture search 》.

論文鏈接：https:///abs/2001.08055

計算機仿真（模擬)是進行科學發現的寶貴工具。但是，精確的仿真通常執行起來很慢，這限制了它們在廣泛的參數探索、大規模數據分析和不確定性量化中的適用性。通過構建具有機器學習功能的快速仿真器來加速仿真的一種有希望的途徑，但是這需要大量的訓練數據集，而對于低速仿真而言，獲得龐大的訓練數據集可能會非常昂貴。

在這里，本文提出了一種基于神經體系架構搜索的方法，即使在訓練數據數量有限的情況下，也可以構建準確的仿真器。

該方法使用相同的超級體系架構、算法和超參數，成功地將10個科學案例的模擬仿真速度提高了20億倍，這些案例包括天體物理學、氣候科學、生物地球化學、高能物理學等等。

本文的方法還固有地提供了仿真器不確定性估計，我們預計這項工作將加速涉及昂貴仿真的研究，允許研究人員進行更廣泛的參數探索，并實現以前無法實現的新計算發現。

十篇熱門論文看完，有網友質疑說Alphafold都不配上榜嗎？隨后有其他網友解釋道Alphafold的論文發在了Nature上和Deepmind的研究博客上，而不是在arxiv上。

最后，本文的十篇論文統計也許和大家心里的論文榜單有出入，畢竟每個人都有自己的哈姆雷特。

參考鏈接：https://www./r/MachineLearning/comments/koee07/p_top_10_arxiv_papers_in_2020_according_to/

下載1：四件套

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發布，不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息，謹防詐騙。如發現有害或侵權內容，請點擊一鍵舉報。