記憶可能是大腦的傷疤 By Fancee
一、為什么會走向深度學習 1. 深度學習是機器學習的一個分支,它根植于數學、計算機科學和神經科學。深度學習一開始并不受待見,但是現在成為機器學習的主流。而機器學習又是人工智能的一個部分。 2. 上個世紀80聯大實現人工智能的主流方式是基于使用符號、邏輯和規則來編寫智能行為的程序;認知心理學家已經采用這種方法來理解人類的認知能力,尤其是語言。而符號的問題在于,這種過分概括的表達形式使其很難在現實世界中被精確地描述出來。而那時的杰弗里卻在逆流而行。杰弗里堅信,將由簡單處理單元構成的網絡、并行工作和從樣本中學習相結合,是理解認知的更好的方式。這個看上去很容易解決的簡單的視覺識別問題,最終被證明是個“陷阱”,吞噬了整整一代計算機視覺研究人員的青春。 3. 有一小群不屬于主流群體的AI研究人員認為,受大腦生物學啟發的那些被稱為“神經網絡”、“連接主義”和“并行分布處理”的AI實現方法,會最終解決困擾基于邏輯的AI研究的難題。作者正是那一小群人中的一個。 4. 早期人工智能發展緩慢,規則編程負責,且計算機能力不足,不在意腦科學的進展。現在迅猛發展得益于數據存儲和計算能力的提升和成本低廉。計算機能力日趨強大,數據資源也變得龐大且豐富。深度學習的應用就在我們身邊。從無人駕駛,到語言識別,到智能翻譯,到精準治療和金融交易等領域。 5. 任何人工智能的難題都可以被解決,因為自然界通過進化已經解決了這些難題。 有四個暗示: 第一條:大腦是強大的模式識別器。我們的視覺系統可以在1/10秒內識別混亂場景中的對象。 第二條,我們的大腦可以通過練習來學會如何執行若干艱巨的任務,比如彈鋼琴、掌握物理學知識。 第三條,我們的大腦并沒有充斥著邏輯或規則。推理似乎是基于特定領域的,我們對該領域越熟悉,就越容易解決其中的問題。 第四條,我們的大腦充滿了數百億個小小的神經元,每時每刻都在互相傳遞信息。這表明,要解決人工智能中的難題,我們應該研究具有大規模并行體系結構的計算機,而不是那些具有馮·諾依曼數字體系結構,每次只能獲取和執行一個數據或指令的計算機。
二、深度學習學科的發展 6. 深度學習前期發展進程如下: 20世紀五六十年代,諾伯特·維納(Norbert Wiener)提出基于機器和生物中的通信和控制系統的控制論,學界對自組織系統開始產生了濃厚的興趣。 奧利弗·塞弗里奇(Oliver Selfridge)創造一個圖案識別設備Pandemonium(鬼域)。奧利弗·塞弗里奇認為,大腦中有惡魔負責從感官輸入中先后提取更復雜的特征和抽象概念,從而做出決定。 
圖 1 Pandemonium 斯坦福大學的伯納德·威德羅(Bernard Widrow)和他的學生泰德·霍夫(Ted Hoff)發明了LMS(最小均方)學習算法,它與其后繼算法一起被廣泛用于自適應信號處理,例如噪聲消除、財務預測等應用。 弗蘭克·羅森布拉特(Frank Rosenblatt),他發明的感知器是深度學習的前身。感知器的目標是確定輸入的圖案是否屬于圖像中的某一類別(比如貓)。 
圖2 感知器工作原理示意
7. 在20世紀80年代,相信網絡模型能夠模仿智能行為的人并不只有我和杰弗里,堅持不懈地開發著專門的網絡模型。還有 克里斯托弗·馮·德·馬爾斯伯格(Christoph von der Malsburg),開發了一種模式識別模型,將發射脈沖的人造神經元連接在一起,并證明了這種方法可以識別圖像中的人臉。 大阪大學的福島邦彥(Kunihiko Fukushima)發明了神經認知機(Neocognitron),一個基于視覺系統架構的多層網絡模型,它使用了卷積濾波器和簡單形式的赫布可塑性(Hebbian plasticity),這也是深度學習網絡的一個直接的前身。 赫爾辛基大學的電氣工程師戴沃·科霍寧(Teuvo Kohonen),他開發了一個自組織網絡,可以學習將相似的輸入通過不同的處理單元聚類到二維映射中(例如可以用來代表不同的語音),相似的輸入能夠激活輸出空間的相鄰區域。這個 不需要對每個輸入的類別進行標記(通過生成標記來訓練監督網絡的花費十分高昂)。 在加州大學洛杉磯分校的朱迪亞·珀爾(Judea Pearl)引入了將網絡中的結點用概率聯系起來的信念網絡,比如草地變濕,是因為噴水器打開了的概率,或者因為下雨了的概率。 上述幾個例子和其他基于網絡的模型都有一個共同的致命缺陷:它們都不足以解決現實世界中的問題。
8. 在普林斯頓上課時,我發現神經科學家們正在取得令人振奮的進展 在此之前,生物學、心理學、解剖學、生理學、藥理學、神經學、精神病學、生物工程學等許多學科都對大腦進行了研究。 大衛·馬爾(David Marr)是MIT AI Lab的一名有遠見的領導者。追求一種自下而上的策略,從視網膜開始入手(在那里光被轉換成電信號),并探求視網膜中的信號如何編碼對象的特征,以及視覺皮層如何表示物體的表面和邊界。他和托馬索·波吉奧為立體視覺開發了一種帶有反饋連接的遞歸神經網絡模型, 查爾斯·格羅斯(Charles Gross)教授是在普林斯頓研究猴子視覺系統的心理學家。 由于他們在初級視覺皮層中的開創性工作,他們獲得了1981年的諾貝爾生理學或醫學獎。 喬恩·卡斯(Jon Kaas)和約翰·奧爾曼(John Allman)于 20世紀70年代早期,在威斯康星大學神經生理學系研究從初級視覺皮層接受輸入的皮層區域,發現了不同區域具有不同的特性。 弗農·蒙特卡索(Vernon Mountcastle) 發現了皮層柱(cortical column)。 作者完成了與導師艾倫·蓋爾普林(Alan Gelperin)共同進行的一個繪制大蛞蝓的足神經節代謝活動的短期博士后項目。所學到的是無脊椎動物中所謂的簡單神經系統,實際上比進化階梯上那些更高級動物器官里的更復雜,因為無脊椎動物必須依賴更少的神經元存活,每個神經元都是高度特異化的。也開始明白,沒有行為支持,神經科學的任何東西都講不通。 作者研究了牛蛙交感神經節一個突觸的遲慢興奮性反應 ,它的反應速度是位于同一神經元的另一個突觸上的快速的毫秒級興奮性反應的1/60000。這次經歷告訴我,復雜性可能不是通向理解大腦功能的坦途。突觸是大腦中基本的計算單元,而突觸類型的多樣性不可小覷。 視覺皮層的組織結構為最成功的深度學習網絡提供了靈感。大腦如何解決問題,是終極謎題。視覺是我們最敏銳,也是被研究得最多的一種感官。前額下方的眼睛帶給了我們精準敏銳的雙眼深度知覺,然而,也正是這種良好的視覺,導致我們完全忽視了視覺系統背后巨大的計算復雜性,大自然經過數億年的進化才解決了這個問題。

圖3 獼猴視覺系統的信息流動示意圖
人眼是怎么產生視覺的? 休伯爾和威澤爾發現,皮層神經元對定向條形光斑和高對比度邊緣的反應比點狀光斑更強烈。視覺皮層中的每個皮層神經元都可以被認為是一個視覺特征檢測器。在視野中的特定區域,當某些神經元所偏好的特征信號輸入高于某個閾值時,這些神經元就會被激活。每個神經元偏好的特征取決于它與其他神經元的連接。

圖4 貓的初級視覺皮層中一個復雜細胞的響應 這張圖片來自休伯爾和威澤爾在1962年發表的論文中關于發現復雜細胞的描述。只要方向正確(圖中A、B、C這三條記錄),一個長而窄的黑條會引起大量放電(垂直豎線)響應,無論它位于復雜細胞感受野(虛線)內的哪個位置。而非最優方向會導致較弱的響應,或根本沒有響應(圖中D、E這兩個記錄。 科學家從視覺神經入手研究神經網絡。發現視覺神經突觸是可塑的,而且只在一定時間內可塑。磨損的蛋白質會被替換,膜中的脂質也會被更新。有了這么多的動態轉變,就很難解釋記憶是如何在有生之年得以維持的了。這使得記憶有了一種新解釋,記憶是大腦的傷疤,是神經細胞的骨骼而不是細胞本身。
9. 通過陰影腦補立體全貌 史蒂文·祖克(Steven Zucker)(見圖5–7)專注于融合了計算機視覺和生物視覺的交叉領域的研究。想要了解我們如何從表面陰影以及折痕和褶皺中提煉出物體的形狀。他用方程來解釋為何從毛衣上的陰影變化中,我們可以察覺到衣服褶皺的形狀。最近已經能夠搞清楚我們是如何在有陰影的圖像中看到褶皺的,其背后的解釋是基于類似山體等高線圖的表面三維輪廓,以及圖像上等照度輪廓之間的密切關系。 
圖5 耶魯大學史蒂文·祖克, 他身后黑板上的方程式解釋了為什么我們能識折痕和褶皺中提煉出物體的形狀 1988年,西德尼·萊基(Sidney Lehky)和我有了一個想法,我們也許可以訓練一個只有一層隱藏單元的神經網絡來計算陰影曲面的曲率。我們成功了,而且出人意料的是,隱藏單元的表現跟簡單細胞非常相似。這一結論令人驚訝:神經元的功能不僅僅取決于它如何對輸入做出反應,而且還取決于它通過自身的“投射域”激活的下游神經元。 1991年,還在加州理工學院的大衛·范·艾森(David Van Essen)仔細研究了皮層每個視覺區域的輸入和輸出,并將它們按層級排列了出來(見圖5–11)。這張圖有時僅僅被用于說明皮層的復雜性。它就像一座大城市的地鐵圖。

圖6猴腦中視覺區域的層級結構圖
三、計算神經科學的創立 10. 與物理學中的力不同,大腦回路(brain circuits)有一個目的,就是解決計算問題,比如看見和移動,以便在世界上生存。即使是一個關于神經元如何工作的完美的物理模型,也不會告訴我們它的目的是什么。神經元負責處理攜帶信息的信號,而計算則是試圖理解大自然的缺失一環。 作者開創了一個新的領域,叫作“計算神經科學computational neuroscience”。對大腦學習行為的研究可以在從分子層面到行為層面不同的層面進行。 11. 作者利用神經科學理解大腦。像物理學家幾個世紀以來使用數學來理解重力、光、電、磁和核能的本質一樣,通過寫下非線性神經元交互網絡的方程式并分析它們來解決如何理解大腦的問題,但是因為神經網絡方程式是非線性的,與之相關的噪聲是非高斯分布的,而且變量是不可分的,所以它們并沒有明確的解。 12. 與20世紀80年代只有數百個單元和數千個連接的網絡相比,現在模擬出的神經網絡具有數百萬個單元和數十億個連接。盡管按照擁有數千億個神經元和千萬億個突觸連接的人類大腦的標準來看,這個數字仍然很小,但現有神經網絡的規模已經可以在有限領域中進行原理的證明。 
圖7 人腦連接組 13. 普林斯頓大學的尤里·哈森(Uri Hasson)進行了一項fMRI實驗,旨在探究視覺層級的哪些部分涉及處理不同長度的電影。查理·卓別林(Charlie Chaplin)的無聲電影被剪輯為4秒、12秒和36秒的片段呈現給受試者。在4秒的剪輯中,受試者可以識別一個場景;12秒時,可以看清連接的動作;在36秒的長度下,能夠看到一個有開頭和結尾的故事。在層級底部的初級視覺皮層中的fMRI反應,無論在什么樣的時間尺度上,都強大且可靠。但在視覺等級的較高層次上,只有較長的時間尺度才能引起可靠的反應,而位于層級頂層的前額葉皮層區需要最長的時間間隔。這與其他實驗結果一致,即工作記憶也按照層級分布。工作記憶是我們掌握信息的能力,比如要記住的電話號碼,以及我們正在處理的任務的要素。最長的工作記憶時間尺度同樣位于前額葉皮層。 四、深度學習的影響 14. 如果說數據是新時代的石油,那么學習算法就是從中提取信息的煉油廠;信息積累成知識;知識深化成理解;理解演變為智慧。而深度學習能夠讓傳統的數據分析方法如虎添翼。 15. 新興技術不是生存威脅,AI可以讓你變得更聰明。訓練深層網絡能干什么只受限于訓練者的想象力和數據。這種形式的學習只取決于在一系列動作結束時給予獲勝者的獎勵,這似乎和提前做出更好的決策相矛盾。 16. 人工智能的發展要求每個人都要終身學習,教育不僅會變得更加個性化,也會變得更加精準。要做到這一點,我們需要一個以家庭,而不是以學校為基礎的新教育體系。
|