【原】巨龍?zhí)K醒，谷歌剛剛發(fā)布的大模型工具要反擊OpenAI？

雷科技 2023-12-08 發(fā)布于廣東

展開全文

從去年底 ChatGPT 席卷全球開始，關(guān)于谷歌的「失落」就一再被提起。

明明最早提出了 transfomer 模型，明明還是全球市值、利潤(rùn)最高的幾家科技公司之一，結(jié)果卻在大模型和生成式 AI 上敗給了一家成立于 2015 年的「小公司」——OpenAI。

即使在發(fā)布 PaLM2 大模型和聊天機(jī)器人 Bard 之后，谷歌依然沒能超越 OpenAI，無論是從用戶體驗(yàn)，還是月訪問次數(shù)上。

但在生成式 AI 這場(chǎng)世紀(jì)大戰(zhàn)中，最終會(huì)是屠龍勇士徹底戰(zhàn)勝巨龍？還是巨龍反殺屠龍勇士？谷歌當(dāng)然希望看到后者。

谷歌「大殺器」，終于來了

美西時(shí)間 12 月 6 日，谷歌正式發(fā)布了預(yù)告已久的 AI 大模型—— Gemini（1.0）。谷歌表示，Gemini 是旗下迄今為止最強(qiáng)大、最通用的模型，在 32 個(gè)廣泛使用的基準(zhǔn)測(cè)試中，有 30 個(gè)都超越了 GPT-4，展現(xiàn)出了最先進(jìn)的性能和結(jié)果。

gemini_final_text_table_bigger_font_amendment_lines.jpg

圖/谷歌

在需要結(jié)合數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理學(xué)等 57 個(gè)科目來測(cè)試知識(shí)和解決問題能力的 MMLU（大規(guī)模多任務(wù)語言理解）上，Gemini Ultra 的得分高達(dá) 90.0%，是第一個(gè)超越人類專家的模型。

但這是 Gemini Ultra。

Gemini 大模型按照參數(shù)規(guī)模分為三個(gè)版本，分別是最強(qiáng)大的 Gemini Ultra，兼具靈活性和強(qiáng)大的 Gemini Pro，以及能夠在移動(dòng)設(shè)備上本地運(yùn)行的 Gemini Nano。

圖/谷歌

事實(shí)上，目前用戶可以使用的 Gemini 大模型只有 Gemini Pro，實(shí)際對(duì)標(biāo)的 GPT-3.5。按照谷歌的說法，配備 Gemini Ultra 的 Bard Advanced 還要等到明年初才推出，而 Gemini Nano 將于本月稍晚時(shí)候率先登陸 Pixel 8 Pro，首批更新將支持自帶錄音 App 與 Gboard 輸入法。

不算意外，就在一周前，The Information 爆料稱，谷歌原計(jì)劃在今年底推出的 Gemini 將推遲到 2024 年初發(fā)布，原因在非英文查詢下存在一些問題，促使谷歌 CEO 桑達(dá)爾·皮查伊（Sundar Pichai）做出了該決定。

如今來看，顯然是 Gemini Ultra 還存在一些問題，但谷歌經(jīng)過考慮后還是選擇了如期發(fā)布 Gemini，只是最強(qiáng)大的 Gemini Ultra 還是要推遲到明年初。

不過即便如此，僅僅根據(jù)目前放出的官方上手視頻和介紹，Gemini Ultra 已經(jīng)成為了整個(gè)行業(yè)的熱議焦點(diǎn)，也被視為 OpenAI GPT-4 最強(qiáng)大的對(duì)手，這當(dāng)然不是沒有理由的。

谷歌 Gemini，OpenAI 最大的威脅

今年早些時(shí)候 OpenAI 發(fā)布了 GPT-4，其中最驚艷之處在于對(duì)于圖片的識(shí)別和理解，包括準(zhǔn)確解讀圖片中的「梗」以及直接按圖寫產(chǎn)品（代碼）。

Gemini Ultra 還要更進(jìn)一步。

在上手視頻中，谷歌展示 Gemini Ultra 如何通過攝像頭實(shí)時(shí)理解現(xiàn)實(shí)畫面信息，并根據(jù)現(xiàn)實(shí)畫面的變化給出新的理解，當(dāng)然也可以再根據(jù)對(duì)話給出回答或者結(jié)果，比如基于一張紙質(zhì)世界地圖給出了一種游戲玩法。在游戲過程中，Gemini Ultra 甚至可以實(shí)時(shí)判斷用戶的行為和結(jié)果，與之進(jìn)行互動(dòng)。

展示的背后，是 Gemini 對(duì)文本、圖像、視頻、音頻的「原生多模態(tài)（natively multimodal）」支持。

圖/谷歌

不同于 OpenAI 以及其他大模型廠商將不同模態(tài)訓(xùn)練模型拼接整合在一起，創(chuàng)建出一個(gè)多模態(tài)大模型，借此形成對(duì)文本、視覺、音頻的支持，雖然有些時(shí)候還是可以執(zhí)行某些任務(wù)（比如描述圖像），但在面對(duì)更具概念性和復(fù)雜推理的情況下，由于「轉(zhuǎn)錄」過程中的信息丟失問題，容易出現(xiàn)表現(xiàn)不佳的結(jié)果。

而谷歌強(qiáng)調(diào)的「原生多模態(tài)」，是指 Gemini 從一開始就對(duì)不同模態(tài)進(jìn)行了預(yù)訓(xùn)練，研究人員又用額外的多模態(tài)數(shù)據(jù)對(duì)其進(jìn)行微調(diào)，進(jìn)一步提升模型的有效性，實(shí)現(xiàn)對(duì)各種模態(tài)輸入內(nèi)容的「無縫」理解和推理。按照谷歌的說法是：

「這樣的訓(xùn)練方法，有助于 Gemini 從頭開始無縫地理解和推理各種輸入，遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有的多模態(tài)模型；而且它的功能在幾乎每個(gè)領(lǐng)域都是最先進(jìn)的。」

另一方面，端側(cè)大模型也是時(shí)下從芯片側(cè)到計(jì)算終端側(cè)廠商關(guān)注的重點(diǎn)，雖然很多手機(jī)廠商都宣稱了自主訓(xùn)練的端側(cè)大模型，但還沒有一家真正實(shí)裝端側(cè)大模型，基本還是通過云端大模型從語音助手切入。

圖/谷歌

眼下來看，Pixel 8 Pro 上的 Gemini Nano，極有可能最先踏出這一步。不僅如此，Gemini Nano 能力是內(nèi)置在 Android 系統(tǒng)中，未來不只是 Pixel，開發(fā)者可以通過 AICore API 直接調(diào)用其他 Android 手機(jī)的 Gemini AI 能力（在硬件算力上有要求）。

至于 Gemini Pro，用戶現(xiàn)在就能在谷歌 Bard 中實(shí)際體驗(yàn)到。

實(shí)測(cè) Gemini Pro：比 GPT-3.5 稍好，遠(yuǎn)勝文心大模型4.0

為了對(duì)比 Gemini Pro（Bard）的水平，我們進(jìn)行對(duì)比的 GPT-3.5（ChatGPT）以及文心大模型 4.0（百度文心一言）

需要指出的是，目前 Gemini Pro（Bard）僅支持 170 多個(gè)國家的英文版本，之后會(huì)擴(kuò)展到更多語言和地區(qū)，所以在 Bard 和 ChatGPT 上統(tǒng)一使用英文對(duì)話，文心一言由于英文表現(xiàn)較差，使用中文進(jìn)行對(duì)話。

整體來說，升級(jí) Gemini Pro 之后的 Bard 表現(xiàn)出不俗的知識(shí)和推理能力，比如詢問姚明加盟 NBA 那年亞軍隊(duì)的教練是誰？

中文為網(wǎng)頁對(duì)照翻譯，僅供參考（下同），圖/ Bard

在回答中，Bard 不僅準(zhǔn)確知道姚明是在 2002 年加入 NBA，還展示了正確的推導(dǎo)過程，并找到了當(dāng)年 NBA 亞軍球隊(duì)主教練是新澤西籃網(wǎng)（后改名為布魯克林籃網(wǎng)）的拜倫·斯科特（Byron Scott）。

圖/ ChatGPT

ChatGPT 也回答出了正確答案——拜倫·斯科特，不同的是，ChatGPT 鎖定的是 2002-2003 賽季（決賽在 2003 年）。

圖/文心一言

文心一言同樣知道需要找到 2002 年 NBA 亞軍隊(duì)的教練，但在亞軍隊(duì)上給出了錯(cuò)誤答案（紐約尼克斯），甚至連紐約尼克斯時(shí)任主教練也是錯(cuò)的。

Bard 在圖片理解和解讀上也有不錯(cuò)的表現(xiàn)，基于一張 Realme GT5 Pro 前段時(shí)間的宣傳海報(bào)，已經(jīng)能夠比較全面地解讀出海報(bào)傳達(dá)的信息。

上傳圖片，圖/ Realme

Bard 的解讀，圖/ Bard

基于 GPT-3.5 的 ChatGPT 并不支持圖片，而基于文心大模型 4.0 的文心一言就出現(xiàn)了前文提到的「多模態(tài)『轉(zhuǎn)錄』過程中的信息丟失」，把 GPT5 Pro「看成」了 GPs Pro。此外，文心一言在表達(dá)上也比較「含糊」，不像 Bard 能夠傳達(dá)出比較清晰的信息。

基于同一張圖的解讀，圖/文心一言

受限于時(shí)間，目前我們只是進(jìn)行了部分的測(cè)試對(duì)比，并不能完整評(píng)判三家大模型的表現(xiàn)，如果大家想要看到更深度的對(duì)比評(píng)測(cè)，歡迎在評(píng)論區(qū)反饋告訴我們，后續(xù)會(huì)有相關(guān)規(guī)劃。

不過先回到 Gemini Pro 的加持下的 Bard，從初步上手體驗(yàn)來看，不僅表現(xiàn)出了對(duì)圖片和語音的全面支持，而且部分文本生成回答的質(zhì)量甚至比 ChatGPT 還略高一籌。等到后續(xù)支持中文，在一眾免費(fèi)（文心大模型 4.0 是收費(fèi)的）對(duì)話機(jī)器人中，很大可能會(huì)成為 ChatGPT（GPT-3.5）的上位替代。

至于未來支持 Gemini Ultra 的 Bard Advanced，預(yù)計(jì)將會(huì)與基于 GPT-4 的 ChatGPT 一樣，采用收費(fèi)模式，至于兩者的表現(xiàn)會(huì)有什么區(qū)別，就需要我們拭目以待了。

寫在最后

或許有些「不公平」，但谷歌想要超越 OpenAI 繼續(xù)領(lǐng)導(dǎo)生成式 AI 革命，意味著 Gemini 不能只是超越 GPT-4，否則不管企業(yè)客戶還是普通用戶為什么要從 GPT-4 遷移到 Gemini。

就在宣告 Gemini 發(fā)布的新聞稿中，谷歌 DeepMind CEO Demis Hassabis 指出，Gemini 是谷歌目前規(guī)模最大，性能最強(qiáng)的大模型，「可以像我們一樣，理解我們周圍的世界。」

Demis Hassabis，當(dāng)時(shí)他們開發(fā)出了 AlphaGo，圖/谷歌

這可能才是谷歌 Gemini 與 GPT-4 最核心的區(qū)別所在。

不同于今年上半年對(duì)于 AGI（通用人工智能）未來的兩極分化看法，很多人堅(jiān)持認(rèn)為 AGI 永遠(yuǎn)不會(huì)實(shí)現(xiàn)。下半年以來，具身智能以及 AGI 再度成為了新的熱點(diǎn)，谷歌、微軟、馬斯克、李飛飛團(tuán)隊(duì)以及 OpenAI 等公司都在繼續(xù)推進(jìn)具身智能和 AGI 的探索。

甚至據(jù)路透社報(bào)道，OpenAI CEO Sam Altman 此前被趕下臺(tái)的導(dǎo)火索，就是 AGI 探索項(xiàng)目（代號(hào) Q）突破帶來的威脅。

但無論是具身智能還是 AGI，就要求 AI 首先能夠通過聽覺、視覺以及文字理解我們周圍的世界，就像 Gemini Ultra 展現(xiàn)出的能力，或是 OpenAI 對(duì)正在開發(fā)的 GPT-5 提出的規(guī)劃。從這個(gè)角度來看，留給谷歌證明 Gemini 大模型優(yōu)越性的時(shí)間，也不多了。

題圖來自谷歌