通過數量龐大的語義向量,我們可以讓機器比以前更抽象、更高效地推理。 作者:Anil Ananthaswamy 2023-4-13 譯者:zzllrr小樂(微信公眾號) 2023-4-14 盡管 ChatGPT 和其他大型語言模型取得了巨大的成功,但支撐這些系統的人工神經網絡(ANN)可能走上了錯誤的軌道。 首先,人工神經網絡是“超級渴望電力”的,馬里蘭大學的計算機科學家Cornelia Fermüller說。“另一個問題是(它們)缺乏透明度。這樣的系統是如此復雜,以至于沒有人真正理解它們在做什么,或者為什么它們工作得如此之好。反過來,這使得它們幾乎不可能通過類比來推理,而人類卻是這樣做的——使用符號來表示物體、想法和它們之間的關系。 這些缺點可能源于人工神經網絡及其構建塊的當前結構:單個人工神經元。每個神經元接收輸入,執(zhí)行計算并產生輸出。現代人工神經網絡是這些計算單元的復雜網絡,經過訓練可以執(zhí)行特定任務。 然而,人工神經網絡的局限性早已顯而易見。例如,考慮一個區(qū)分圓和正方形的ANN。一種方法是在其輸出層中有兩個神經元,一個表示圓形,另一個表示正方形。如果你想讓你的ANN也能辨別形狀的顏色——藍色或紅色——你需要四個輸出神經元:藍色圓圈、藍色方塊、紅色圓圈和紅色方塊各一個。更多的特征意味著更多的神經元。 這不可能是我們的大腦感知自然世界以及它的所有變化的方式。“你必須提出,你有一個適用于所有組合的神經元,”加州大學伯克利分校的神經科學家布魯諾·奧爾斯豪森(Bruno Olshausen)說。“譬如,你的大腦里會有一個探測器探測紫色的大眾汽車。” 然而,Olshausen和其他人認為,大腦中的信息是由許多神經元的活動來表示的。因此,對紫色大眾汽車的感知不是編碼為單個神經元的行為,而是編碼為數千個神經元的行為。同一組神經元,以不同的方式放電,可能代表一個完全不同的概念(也許是粉紅色的凱迪拉克)。 這是一種完全不同的算法的起點,稱為超維計算(hyperdimensional computing)。關鍵是每條信息,例如汽車的概念,或其品牌,型號或顏色,或所有這些,都表示為一個實體:超維向量(hyperdimensional vector)。 向量只是一個有序的數字數組。例如,三維向量由三個數字組成:三維空間中點x、y 和 z 坐標。一個超維向量或超向量(hypervector)可以是 10000 個數字的數組,例如,表示 10000 維空間中的一個點。這些數學對象和操縱它們的代數足夠靈活和強大,可以使現代計算超越其當前的一些限制,并培養(yǎng)一種新的人工智能方法。 “這幾乎是在我的整個職業(yè)生涯中令我最興奮的事情,”O(jiān)lshausen說。對他和其他許多人來說,超維計算預示著一個新的世界,在這個世界中,計算是高效和魯棒(穩(wěn)健的),機器做出的決策是完全透明的。 進入高維空間 為了理解超向量如何使計算成為可能,讓我們回到帶有紅色圓圈和藍色方塊的圖像。首先,我們需要向量來表示這兩個變量:SHAPE(形狀)和COLOR(顏色)。然后,我們還需要可以分配給變量值的向量:CIRCLE(圓形)、SQUARE(正方形)、BLUE(藍色)和RED(紅色)。 向量必須是不同的。這種區(qū)別可以通過稱為正交性(orthogonality,這意味著形成直角)的屬性來量化。在三維空間中,有三個彼此正交的向量:一個在 x方向,另一個在 y方向,第三個在 z方向。在 10000 維空間中,有 10000 個這樣的相互正交的向量。 但是,如果我們允許向量接近正交,那么高維空間中這種不同向量的數量就會爆炸。在 10000 維空間中,就有數百萬個準正交向量。 現在讓我們創(chuàng)建不同的向量來表示形狀、顏色、圓形、正方形、藍色和紅色。由于高維空間中存在許多可能的準正交向量,因此只需分配六個隨機向量來表示這六項;它們幾乎可以保證是準正交的。“制作準正交向量的便利性是使用超維表示的主要原因,”加州大學伯克利分校紅木理論神經科學中心的研究員Pentti Kanerva在2009年的一篇有影響力的論文中寫道。https://link./article/10.1007/s12559-009-9009-8 Pentti Kanerva(左)和Bruno Olshausen,加州大學伯克利分校的研究人員。 這篇論文建立在Kanerva和Tony Plate在1990年代中期所做的工作之上,當時他們是多倫多大學Geoff Hinton的博士生。兩人獨立開發(fā)了用于操作超向量的代數,并暗示了其對高維計算的有用性。 給定我們的形狀和顏色的超向量,由Kanerva和Plate開發(fā)的系統向我們展示了如何使用某些數學運算來操作它們。這些操作對應于操縱概念符號的方式。 第一種運算是乘法。這是一種結合屬性的方式。例如,將向量 SHAPE(形狀) 與向量 CIRCLE(圓形) 相乘,將兩者綁定成“SHAPE is CIRCLE”(形狀是圓形)的表示形式。這個新的“綁定”向量幾乎與 SHAPE(形狀) 和 CIRCLE(圓形) 正交。單個組件是可恢復的——如果你想從綁定向量中提取信息,這是一個重要的特性。給定一個表示你的大眾汽車的綁定向量,你可以解綁并檢索其顏色的矢量:PURPLE(紫色)。 第二種運算,加法,創(chuàng)建一個新向量,表示所謂的概念疊加。例如,可以采用兩個綁定向量“SHAPE is CIRCLE”(形狀是圓形)和“COLOR is RED”(顏色是紅色),并將它們相加以創(chuàng)建一個向量,表示紅色圓形。同樣,疊加向量可以分解為其成分。 第三種運算是排列,它涉及重新排列向量的各個元素。例如,如果有一個三維向量,其值標記為 x、y 和 z,則排列可能會將 x 的值移動到 y, y 移動到 z,將 z 移動到 x。“排列可以讓你建立結構,”Kanerva說。“它允許你處理序列,一個接一個發(fā)生的事情。”考慮兩個事件,由超向量 A 和 B 表示。我們可以將它們疊加到一個向量中,但這會破壞有關事件順序的信息。將加法與排列相結合可以保持順序;可以通過反轉操作按順序取回事件。 這三種運算加在一起,足以創(chuàng)建允許符號推理的超向量的形式代數。但許多研究人員在掌握超維計算的潛力方面進展緩慢,包括Olshausen。“并未充分理解,”他說。 駕馭力量 2018年,Olshausen的學生Eric Weiss展示了超維計算獨特能力的一個方面。Weiss想出了如何將復雜圖像表示為單個超維向量,其中包含有關圖像中所有對象的信息,包括它們的屬性,例如顏色,位置和大小。 “我?guī)缀鯊囊巫由纤は聛恚監(jiān)lshausen說。“突然,靈感乍現”。 很快,更多的團隊開始開發(fā)超維算法來復制深度神經網絡大約二十年前開始處理的簡單任務,例如對圖像進行分類。 考慮一個由手寫數字圖像組成的帶注釋的數據集。算法使用某種預定方案分析每個圖像的特征。然后,它為每個圖像創(chuàng)建一個超向量。接下來,該算法為所有0的圖像添加超向量,為0的屬性創(chuàng)建一個超向量。然后,它對所有數字執(zhí)行相同的操作,創(chuàng)建 10 “類”超向量,每個數字一類。 現在,該算法被賦予一個未標記的圖像。它為此新圖像創(chuàng)建一個超向量,然后將該超向量與存儲的超向量類進行比較。這個比較確定了與新圖像最相似的數字。 然而,這僅僅是個開始。超維計算的優(yōu)勢在于能夠組合和分解超向量以進行推理。最新的證明是在三月份,當時蘇黎世IBM研究院的Abbas Rahimi及其同事使用超維計算和神經網絡來解決抽象視覺推理中的一個經典問題 https://www./articles/s42256-023-00630-8 這對典型的人工神經網絡,甚至一些人來說都是一個重大挑戰(zhàn)。這個問題被稱為Raven的漸進矩陣(progressive matrix),在3×3網格中呈現幾何對象的圖像。網格中的一個位置為空白。受試者必須從一組候選圖像中選擇最適合空白的圖像。 “我們說,'這真的是...視覺抽象推理的殺手锏,讓我們投入進去吧,'”Rahimi說。 Abbas Rahimi,蘇黎世IBM研究院的計算機科學家。 為了使用超維計算解決這個問題,該團隊首先創(chuàng)建了一個超向量字典,來表示每個圖像中的對象;字典中的每個超向量表示一個對象及其屬性的某種組合。然后,該團隊訓練了一個神經網絡來檢查圖像并生成一個雙相超向量(bipolar hypervector )——元素是 +1 或 -1——它盡可能接近字典中超向量的一些疊加;因此,生成的超向量包含有關圖像中所有對象及其屬性的信息。“你引導神經網絡進入一個有意義的概念空間,”Rahimi說。 一旦網絡為每個上下文圖像和空白槽的每個候選圖像生成了超向量,另一種算法就會分析超向量,從而為每個圖像中的對象數量、大小和其他特征創(chuàng)建概率分布(probability distribution)。這些概率分布說明了上下文和候選圖像的可能特征,可以轉換為超向量,允許使用代數來預測最有可能填補空缺的候選圖像。 他們的方法在一組問題上的準確率接近88%,而僅通過神經網絡求解的準確率不到61%。該團隊還表明,對于3×3網格,他們的系統比使用符號邏輯規(guī)則進行推理的傳統方法快近250倍,因為該方法必須搜索龐大的規(guī)則手冊以確定正確的下一步。 充滿希望的開始 超維計算不僅賦予我們使用符號解決問題的能力,而且還解決了傳統計算中的一些瑣碎問題。如果由隨機的比特位翻轉(0變?yōu)?,反之亦然)引起的錯誤無法通過內置糾錯機制進行糾正,則當今計算機的性能會迅速下降。此外,這些糾錯機制可能會對性能造成高達25%的損失,維拉諾瓦大學的計算機科學家Xun Jiao說。 超維計算可以更好地容忍錯誤,因為即使超向量遭受大量隨機比特位翻轉,它仍然接近原始向量。這意味著使用這些向量的任何推理在面對錯誤時都不會受到有意義的影響。Jiao的團隊已經證明,https://ieeexplore./document/9516681 這些系統對硬件故障的容忍度至少是傳統ANN的10倍,而傳統ANN本身的彈性比傳統的計算架構高出幾個數量級。“我們可以利用所有這些彈性來設計一些高效的硬件,”Jiao說。 超維計算的另一個優(yōu)點是透明度:代數清楚地告訴你為什么系統選擇了它所做的答案。對于傳統的神經網絡來說,情況并非如此。Olshausen,Rahimi和其他人正在開發(fā)混合系統(hybrid system),其中神經網絡將物理世界中的事物映射到超向量,然后超維代數接管。“像類比推理這樣的事情就不費力了,”O(jiān)lshausen說。“這是我們應該對任何人工智能系統的期望。我們應該能夠理解它,就像我們理解飛機或電視機一樣。” 與傳統計算相比,所有這些優(yōu)勢都表明,超維計算非常適合新一代極其堅固的低功耗硬件。它還與“內存計算系統”(in-memory computing system)兼容,后者在存儲數據的相同硬件上執(zhí)行計算(與現有的在內存和中央處理器之間低效地傳輸數據的馮·諾依曼計算機不同)。其中一些新器件可以是模擬的,在非常低的電壓下工作,使它們節(jié)能,但也容易產生隨機噪聲。https://www./a-brain-inspired-chip-can-run-ai-with-far-less-energy-20221110/ 對于馮·諾依曼計算來說,這種隨機性是“你無法逾越的墻,”O(jiān)lshausen說。但是通過超維計算,“你可以突破它。” 盡管有這些優(yōu)勢,但超維計算仍處于起步階段。“這里有真正的潛力,”Fermüller說。但她指出,它仍然需要針對現實世界的問題進行測試,并且在更大的范圍內,更接近現代神經網絡的規(guī)模。 “對于大規(guī)模問題,這需要非常高效的硬件,”Rahimi說。“例如,如何有效地搜索超過1億個條目?” 所有這些都應該隨著時間的推移而來,Kanerva說。“高維空間還有其他秘密,”他說。“我認為這是使用向量計算的最開始時期。” 參考資料
讓數學 更加 易學易練, 易教易研, 易賞易玩, 易見易得, 易傳易及。 歡迎評論、點贊、 在看、收藏、分享, |
|