新智元編譯 來源:quora 譯者:聞菲 胡祥杰 吳蔚 【新智元導讀】Facebook AI實驗室負責人、深度學習三駕馬車之一的Yann LeCun今天(沒有錯,就在幾個小時之前?。┰赒uora上回答提問,有一萬多人提問。LeCun在回答中闡述了深度學習在短期內值得期待的突破、人工智能未來5到10年的發展,以及他對深度學習自學者的建議。LeCun認為Hinton的網上公開課現在“有點過時”了。本次問答,LeCun還談到了深度學習在理論上的突破、目前深度學習是否存在泡沫,以及Facebook 的AI研究的與眾不同之處。 深度學習的局限在哪里? “經典的”深度學習包括各種各樣的前向傳播(feed-forward)模型(通常是卷積神經網絡)和遞歸神經網絡的組合(有些時候還有記憶單元,比如LSTM或者MemNN)。 所有這些模型的“推理”(reason)能力都有限,也就是說進行很長串的inference或優化過程以達到一個結果的能力十分有限。計算的步驟受前向傳播網絡的層數限制,經過一段時間一個卷積網絡就會有一定的記憶。 要讓深度學習系統學會推理,我們需要調整模型,使其不止得出一個單一的結果(比如對一幅圖像的描述,或者對一句話的翻譯等等),而是得出一組不同的輸出(比如一句話有好幾種翻譯的方法)。這就是基于能量的模型派上用場的地方:每個configuration都給你一組不同的參數去inference?;谀芰康哪P鸵粋€很好的例子就是因子圖(factor graph)。將學習系統和因子圖相結合的方法被稱為機器學習的“結構化預測”(structured prediction)。過去有很多人提議將神經網絡和結構化預測結合在一起,最早在上世紀90年代初就有這樣的提法了。實際上,我和我貝爾實驗室的同事在上世紀90年代初制作的支票閱讀系統,就在卷積網絡的基礎上,使用了一種結構化預測,我們將其稱之為“Graph Transformer Networks”。近來有很多工作都在研究在卷積網絡上面加圖模型(graphical models),然后端到端地訓練整個系統。了解更多基于能量的模型和在神經網絡之上的結構化預測,可以參見這篇論文:https://scholar.google.com/citations?view_op=view_citation&hl=en&user=WLN3QrAAAAAJ&cstart=20&pagesize=80&citation_for_view=WLN3QrAAAAAJ%3A8k81kl-MbHgC 深度學習以其目前的形式而言當然是有局限的,因為幾乎所有成功應用都是使用了監督學習并且依賴于人類標注過的數據。我們需要找到方法,訓練大型神經網絡從沒有經過標注的“原始”數據中,找出現實世界的規律。正如我在前面一個問題中回答的那樣,我相信對抗訓練(adversarial training)將會帶來突破。
短期看,深度學習領域有許多有意思的進展,也許數量太多,我在這沒能全部都描述完。但是,有少數幾個ideas引起了我的注意,讓我在研究項目中可以親自踐行。依我看來,最重要的一個是對抗式訓練(也稱GAN,即生成對抗式網絡)。這一概念最初由Ian Goodfellow提出,當時他還在蒙特利爾大學,是Yoshua Bengio的學生(隨后他去了谷歌大腦,最近去了Open AI)。 生成對抗式網絡,以及現在被提出的一些變體,是深度學習領域過去10年我認為最有意思的idea。這只是個人之見。 生成對抗式網絡指的是同時訓練兩個神經網絡。第一個叫鑒別器,我們在這標注為D(Y),它在獲得一個輸入(比如一張圖片)后,會輸出一個純量(scalar),表明圖像Y看起來是“自然的”或者不是。在一次對抗式的訓練例子中,D(Y)可以被看成是一種能量函數,當Y是一個真實的樣本(比如,數據庫中的一張圖片),這個函數會采用一個低值(比如,接近0),當Y不是一個真實樣本(比如,是一張noisy的或者看起來模式的圖片),就會采用一個正值。 第二個網絡成為生成器,標注為G(Z),其中,Z通常是一個向量,在一個簡單的分布(比如高斯的)中,被隨機取樣。生成器的角色是生產圖像,以訓練D(Y)函數,形成正確的模型(低值針對真實圖像,高值則是別的所有東西) 在訓練的過程中,D被顯示為一個真實的圖像,通過調整其參數,能讓其輸出值更低。隨后,D被顯示為一個從G產出的圖像,通過調整其參數,來讓其輸出D(G(Z))更大(隨著一些客觀的預設函數的梯度)。但是,G(Z)將會自己訓練,生成圖片,以騙過D,讓D認為其是真實的圖片。通過獲得D隨著Y產生的梯度來實現。換句話說,它在嘗試將D的輸出最小化,而D自己卻在嘗試最大化。所以這被叫做對抗式訓練。 Ian Goodfellow 最初的構想使用了一個更加復雜的概率框架,但這就是其主旨。 這為什么會如此有趣?它讓我們可以訓練一個鑒別器,作為一種非監督的“密度估計”(density estimator),比如,一個對比函數(contrast function)會提供一個針對數據的低值,和針對其他的高值。這個鑒別器必須要發展出一個好的數據內部表征,來有針對性地解決問題。隨后,鑒別器還可以被當成分類器中的一個特征提取器。 但是,可能更加有趣的是,在對真實數據的復雜層面進行參數化的時候,生成器是可以觀測的:給它一個向量Z,它就能在數據流形中繪制出其所在點。許多人發表了論文,用這一概念做了許多讓人很贊嘆的事,比如生成臥室的圖像以及在Z向量空間內,對人臉進行計算:(戴眼鏡的男人)-(不戴眼鏡的男人)+(不帶眼鏡的女人)=(戴眼鏡的女人)。 在這一話題上,FAIR上也有一系列有趣的論文:
最后一篇就是用對抗式訓練進行視頻預測的。研究解決了一個非常重要的問題,那就是,當你訓練一個神經網絡(或者其他任何模型)來預測未來,如果要預測的東西有多種可能性時,一個網絡以傳統的方式進行預測(比如,用最小平方),將會預測出所有可能性的平均值。在視頻的例子中,有很多模糊的混亂。對抗式訓練能讓系統產出其想要的任何東西,只要是在鑒別器喜歡的任何數據庫內就可以。這解決了在不確定條件下進行預測的“模糊”難題。 這聽起來像一個非常技術性的難題,但是我真的認為這(對抗式生成網絡)打開了另一個世界的大門。 無監督學習接下來會有什么大的突破? 對抗式訓練是最酷的東西了,前面的回答中,我已經列出了大量的相關論文。在接下來的幾年的時間內,我期待會有更多令人印象深刻的研究成果出現。 當下缺乏的是對無監督學習的一個好的理解,讓我們能確保其運行得更加可信。人們無監督學習有點過于苛求。 無監督學習現在跟90年代的卷積網絡很像,當時,我被認為是唯一能讓其運轉的人(然而事實并非如此)。 深度學習在理論或概念上的突破會有哪些? 這是研究目前非?;钴S的話題。我很高興地看到高水準的數學家和理論物理學家越來越對深度學習背后的理論感興趣。 其中一個讓人不解的理論是,為什么訓練深度神經網絡穩定工作時需要完成相應的非卷積優化。另一個覺得有趣的理論問題是,為什么層數越多越好?第三個有趣的問題是,為什么卷積網絡的效果會這么好?此外,周邊分布的隨機優化的問題也很值得研究。 有什么是深度學習永遠學不會的嗎? 顯然,目前的深度學習能力相當有限。但是,當人們弄清楚如何建立和人類水平的人工智能,那么深度學習則必定會是解決方案的一部分。 深度學習的意思是
除此之外,還有一個哲理問題:什么是可學習的任務,什么是不可能學會的任務,這些東西不管你投入多少資源就是無法學會。關于這方面已經有相當多的工作。一個有趣的結果就是“沒有免費的午餐定理”,這個定理認為某個會學習的機器可以 tractably 學會所有可能任務中的少數任務。沒有機器能夠切實學會所有的任務。 AI機器必須有“偏向”才能學會某些任務。這與人類相比或許是顯得很渺小,因為我們的大腦并不是通用的學習機,但這就是事實。盡管有明顯的普適性,我們人類的大腦是非常善于專攻的。 有些問題本質上是無法通過計算求解的。這就是為什么即使我們修建出具有超人類智慧的機器,它們在現實世界中超越我們的范疇也十分有限,或許在下國際象棋或圍棋的時候能超過人,但在預測拋硬幣是正面還是反面就跟人一樣差了。 近來深度學習形成炒作了嗎? 當下圍繞AI和深度學習有很多炒作。炒作是不好的,因為它創造更高的期望,當不能滿足這些期望時就會導致失望。這也是過去形成“AI冬天”的部分原因。 所以,如果你看到一些令人震驚的炒作,直接說它們是炒作。我只要有機會就這么做。 初創公司有動機來炒作,因為他們需要吸引投資或客戶。這不是說吸引到投資的公司就不是炒作了:一些AI公司已經吸引了大量的投資,但無非是些空的炒作。 話說回來,深度學習會產生真正的成果,是一個真正產生利益的產業的基礎。在不久的將來,深度學習能做到的事情(即使沒有炒作)也是非常令人興奮,比如自動駕駛汽車,醫療成像,個性化醫療,內容過濾/排名等領域。 Facebook AI研究的重點是什么? 解決什么是智能,建造真正智能的機器。 讓會學習的機器給他們周圍的環境建模,記憶、推理、規劃。 我們用視頻游戲訓練這些機器,將它們連接上虛擬3D游戲引擎 tot Torch,還有其他真實的虛擬的環境。 我們還從事利用AI進行圖像和視頻理解、文本理解、對話系統、語言翻譯、語音識別、文本生成和其他深奧的領域。 Facebook AI研究目標與其他公司和研究機構不同在哪里? 我們有目標,也有執行的人和方式。 首先,我要說說目標。Facebook 基本上就一個長期目標:理解智能并修建智能的機構。這不僅僅是個技術挑戰,還是個科學問題:智能是什么?我們該如何在機器中再現智能?與“宇宙是由什么構成的”“生命的意義是什么”一樣,“智能是什么”也算是人類歷史上終極科學問題之一。歸根結底,了解智能不但有助于我們修建具有智能的機器,也將使我們了解人類思維和人腦工作原理。 在構建擁有真正智能的機器的過程中,我們也不斷在發現新的理論、新的原理、新的方法和新的算法,而這些發現都將在短期內或不遠的未來得到應用。沒過多久,這些技術中有很多都通過Facebook 的產品投入使用。 當初扎克伯格招聘我去Facebook,他和我的老板CTO Mike Schroefer 都給了我很大的自由,可以說是讓我按照自己的想法去建設FAIR。 此前我也在幾家產業研究所待過(貝爾實驗室、AT&T實驗室、NER研究所,上世紀80年代我在還施樂Xerox PARC當過實習生),我也有在微軟研究院、IBM研究院、Google、DeepMind等研究機構的朋友。因此,我自己有過好幾次在產業研究大環境下,什么能行什么不能行的經歷。我也經歷過研究型實驗室成功和沒落的案例。這些經歷都有助于我在Facebook 設計FAIR的架構以及運營方式。 首先,只有那些有余力考慮長遠的公司才能有資金和資源修建先進的研究實驗室,并讓這些實驗室常懷遠大的目標。這意味著擁有“真正”研究所的公司規模都相對大,并在市場上已經占有一定份額(不需要擔心存亡)。從過去的情況看,這些公司包括 IBM、AT&T、施樂、通用電氣、微軟,還有現在的谷歌和Facebook。 其次,研究必須公開進行,研究人員必須按照規定發表自己工作。這是至關重要的:秘密進行的研究幾乎總是比公開發表的研究質量差(有點像開源軟件往往比閉源軟件質量更好)。發表并通過同行評議篩選的研究成果會更可靠、更穩定。此外,研究人員的生活和事業是與他或她的學術影響緊密相關的。除非你鼓勵他們發表自己的工作,你無法吸引最優秀的研究員。最后,公開發表有利于公司的聲譽。許多工程師和科學家都希望為那些在科學和技術方面引領創新的公司工作。開放研究這一理念使我們能夠輕松地與大學和公共及非盈利研究實驗室合作。沒有公司能壟斷好的點子。有很多好的想法都來自學術界(實際上大部分都來自學術界),除了個別可能需要Facebook等大公司擁有的基礎設施和工程支持才能實現的。 第三,科學發現是一個“自下而上”的過程。我們聘請科研人員,部分原因是他們對選擇好的項目和研究課題有好的嗅覺。在初始階段,大量的研究工作是探索:你有一個想法,你就去試吧。你需要有靈活的工具,讓你可以快速把事情實現并研究它們是如何工作的。如果事情順利就可以立項,每到一個階段,團隊人數都會更多,工程師和研究員的比例也會越大。在FAIR,我們與AML(應用機器學習組)緊密合作,AML相比FAIR是一個更偏向工程的團隊(但他們也有很多炫酷的ML / AI科研項目、計算攝影、虛擬/增強現實)。在FAIR是70%的研究和30%的工程,AML則是70%的工程和30%的研究。我在貝爾實驗室工作時,那里也有像這樣的兩個研究組,配合運作十分融洽。有關FAIR和AML的詳細描述可以參見:Facebook 騰飛的雙翼。 如何評價蘋果、微軟、谷歌和Facebook之間的人工智能實力? 關于這一點,我的立場讓我無法做出公平的回答,但有幾點我可以說一下: 蘋果不是人工智能研究圈子里的玩家,因為他們的公司文化很隱秘。你不可能在隱秘的氛圍下做前沿研究。不發表則算不是研究,頂多也就是技術進步。 微軟一直都在做一些很好的工作,但有很多人才都在從微軟流向Facebook和谷歌。微軟過去做了一些很厲害的語音相關的深度學習研究(2000年左右在手寫識別方面取得了很好的成果)。但從他們最近的一些項目可以看出,微軟研究院的目標相比FAIR或DeepMind要遜色很多。 谷歌(具體是Google Brain等研究組)無論是在深度學習產品還是服務方面都可以算是領先的,因為谷歌在這方面起步最早。他們在基礎設施(比如TensorFlow和TPU)上有很多積累。但谷歌AI研究的關注點是應用及產品開發,而非長期AI研究。證據就是Google Brain的一些頂尖研究人員離開了那里,去了DeepMind、OpenAI,或者到了FAIR。 DeepMind在基于學習的AI(learning-based AI)方面一直都做得很好。他們的長期目標跟FAIR的有些類似,研究的課題重合度也挺高:無監督/生成模型,規劃(planning)、RL、游戲、記憶增強網絡、差分編程(differentiable programming)。DeepMind的一個問題在于,他們從地理位置和組織結構上都遠離谷歌(Alphabet)。這樣就不太方便為其所有者盈利,不過他們現在看來做得挺好的。 Facebook的人工智能研究所FAIR成立于2.5年前,在這么短的時間內在業界樹立起自身領導者的地位。我自己都為FAIR能吸引這么多世界頂尖AI研究員而感到震驚(FAIR有60多個研究員和工程師,現在分布在紐約、Menlo Park、巴黎和西雅圖)。同樣,我也為我們在過去兩年半時間里取得的成果感到震驚。我們的目標遠大,在FAIR我們從長期著眼,在公司里也有一定的影響力,因此存在不會受質疑(不出成果)。最關鍵的,我們非常開放:我們所有的研究員一年都會發表多篇論文。沒有什么比看見一位前景大好的研究員加入一家不那么開放的公司或者一家初創企業,然后從研究圈子里消失更令人當頭一棒的了。 最近有哪些被人忽視但卻令你興奮的機器學習研究項目? 在1987年到1995年神經網絡熱潮中提出的一些想法值得再次回顧。 可以去看我跟我在FAIR的一些同事在ICML舉辦的workshop:back to the future 以下是我FAIR同事Armand Joulin的回答: “因果推理(causal inference)領域近來的一些進展十分有趣,但受關注不多。 “因果推理旨在發現不同變量之間的因果關聯。理解系統的因果結構,我們就可以預測有一些變量改變了以后,系統接下來會發生什么。這是自然推理的一種形式,讓你在全新的環境中也能對事情接下來的發展做出預測。 “這方面的工作并不是最近才提出的(Causality: Models, Reasoning, and Inference by J. Pearl in 2000),下面是一些入門資料
確實,如果你想讓機器人(或某種其他形式的智能體)學會在現實世界中根據情況做出反應,那么它就必須要能夠預測何時何地做出反饋才能得到理想的結果。下雨時,紐約會有很多雨傘,但把這些雨傘除去并不能讓雨停止。對于一個擁有真正智能的agent來說,弄清楚因果關系是必須具備的能力。 人工智能領域未來5到10年會有哪些值得期待的發展? 在AI中有很多領域,人們正在其中努力工作并獲得進展,包括: 結合推理與計劃的深度學習 基于深度模型的增強學習(包括無監督預測學習) 通過微分記憶模塊(例如記憶網絡)增強的循環神經網絡
通過對抗性訓練建立的生成/預測模型 “微分編程”:這是將一個程序(或電路)看成可用backprop訓練的微分模塊圖像的思路。這意味著或許能夠除了學習識別模式(如用前饋控制神經網絡),還能生成算法(用循環、遞歸、子程序等)。DeepMind、FAIR等已經對此發了一些論文,但目前這一領域仍處于初期。 分層規劃和分層增強學習:這是將一個復雜任務分解成簡單子任務的問題。這似乎是智能系統的需求。 無監督式的學習預測模型(例如視頻預測) 如果這些方向在未來的幾年中有顯著的進展,我們應該能夠看到對話系統、問題回答、自適應機器人控制與規劃等相當多AI智能體的出現。 一個巨大的挑戰是設計出無監督/預測學習方法,能夠使超大規模神經網絡不需要通過明確的人工注釋數據,而只通過觀看視頻,閱讀教材等,就能“學習世界如何運行”。 這樣或許最終會出現對世界有充分認識的機器,而在我們看來他們像是有“常識”的樣子。 這可能需要5年、10年、20年或更久。我們并不知道。 人工智能有可能威脅到人類的發展路線是什么? 坦白說,我并不認為人工智能會威脅到人類。但我并非說這不可能,只是讓事情發展到那一步實在是很愚蠢。 有些人認為我們必須十分聰明才能避免這種情況發生,但我并不這么認為。 如果我們聰明到能夠制作出超越人類智慧的機器,就意味著我們不大可能愚蠢到給它們無限的資源讓其能夠毀滅人類。 當然,還有這樣一個悖論,由于我們只接觸過人類智能,機器智能或許根本就不會想要稱霸世界或者主宰人類。即使有這種想法,那也只是站在人類的立場上產生的一些想法罷了,而且也只有部分人如此。 即使是在人類中,智慧也與對權利的渴望并不相關。事實上,目前的事件告訴我們,一些智力有限的人才會對權力有過度的渴求(而且從某種程度上看還顯得很成功)。 作為一個產業研究實驗室的管理人員,我的下屬有很多都比我更聰明(我認為我工作的主要目標就是招聘比我更聰明的人)。 人類對彼此做的很多不好的事情都與人性相關。例如當我們感覺受威脅、嫉妒,或是想獨占資源時所產生的暴力,以及比起陌生人更愿意相信自己的親朋好友,這些都是在演化中為了生存而習得的能力。具有智慧的機器不會具備這些能力,除非我們故意為之,但我們為什么要這么做呢? 另外,如果有人故意構建一個危險的通用智能體,那么其他人也能夠建立一個不那么通用的智能體,其唯一目的是要摧毀第一個智能體。如果兩個智能體的計算資源相同,那么第二個就會獲勝,就像老虎、鯊魚或病毒能殺死智力超越它們的人一樣。 網絡上有很多關于ML的資料、教材和課程,包括Coursera上的授課。 我將更多就深度學習進行回答。你可以通過網上的一些資料和視頻,對深度學習有大概的理解。最重要的有: 我和Yoshua Bengio、Geoff Hinton發在Nature上的綜述文章,里面有很多引用文獻:https://scholar.google.com/citations?view_op=view_citation&hl=en&user=WLN3QrAAAAAJ&citation_for_view=WLN3QrAAAAAJ%3Alo0OIn9KAZgC Goodfellow、Bengio以及Courville合著的深度學習教材:http://www./ 最近我在巴黎法蘭西學院開的一系列共八次關于深度學習的課程。課是用法語講的,后來被譯成了英語:
Coursera上Geoff Hinton的神經網絡課程(有點過時了)。 2012IPAM深度學習暑期班課程:http://www.ipam./programs/summer-schools/graduate-summer-school-deep-learning-feature-learning/?tab=schedule 我2015年在NYU開設的深度學習課程(很不幸,授課視頻已下架,但PPT還在)。2017年春我將再次講授這門課:http://cilvr./doku.php?id=deeplearning2015%3Aschedule 2015年深度學習夏季學校:http:///deeplearning2015_montreal/ 很多材料都普遍集中在使用某種特定的軟件平臺,諸如Torch、TensorFlow 或Theano。 什么是學習深度學習最有效的方法?
找一個工作成就讓你崇拜的人,然后讀完他/她的博士生。
你最喜歡的算法是什么?
Backprop。 如何申請加入 FAIR 等一流ML/AI 研究院? FAIR共有6種位置:
研究員:你需要一個博士學位,有一兩年的經驗研究(例如,作為博士后)和良好的論文發表記錄。這算是相當高的標準。 研究工程師:碩士學位,在以往的研究或工作經歷中接觸過ML/ AI。通常這些職位是相對初級的,但也有少數高級研究工程師。FAIR大約25?30%的人是研發工程師。 博士后:是一個1或2年的研究職位,一般直接在讀完博士以后申請。 博士研究生:在我們巴黎的實驗室,有一種稱為“CIFRE”的博士生。這是法國才有的事情,允許博士生大部分時間在產業研究實驗室工作,由該公司研究員和大學的教授共同做導師。 實習生:我們接受暑期實習生,有時也學年期間也招收實習生。幾乎所有的人都在讀博士課程,在歐洲叫“本科+”(undergrad +) |
|