從去年底 ChatGPT 席卷全球開始,關(guān)于谷歌的「失落」就一再被提起。 明明最早提出了 transfomer 模型,明明還是全球市值、利潤(rùn)最高的幾家科技公司之一,結(jié)果卻在大模型和生成式 AI 上敗給了一家成立于 2015 年的「小公司」——OpenAI。 即使在發(fā)布 PaLM2 大模型和聊天機(jī)器人 Bard 之后,谷歌依然沒能超越 OpenAI,無論是從用戶體驗(yàn),還是月訪問次數(shù)上。 但在生成式 AI 這場(chǎng)世紀(jì)大戰(zhàn)中,最終會(huì)是屠龍勇士徹底戰(zhàn)勝巨龍?還是巨龍反殺屠龍勇士?谷歌當(dāng)然希望看到后者。 谷歌「大殺器」,終于來了美西時(shí)間 12 月 6 日,谷歌正式發(fā)布了預(yù)告已久的 AI 大模型—— Gemini(1.0)。谷歌表示,Gemini 是旗下迄今為止最強(qiáng)大、最通用的模型,在 32 個(gè)廣泛使用的基準(zhǔn)測(cè)試中,有 30 個(gè)都超越了 GPT-4,展現(xiàn)出了最先進(jìn)的性能和結(jié)果。 圖/谷歌 在需要結(jié)合數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理學(xué)等 57 個(gè)科目來測(cè)試知識(shí)和解決問題能力的 MMLU(大規(guī)模多任務(wù)語言理解)上,Gemini Ultra 的得分高達(dá) 90.0%,是第一個(gè)超越人類專家的模型。 但這是 Gemini Ultra。 Gemini 大模型按照參數(shù)規(guī)模分為三個(gè)版本,分別是最強(qiáng)大的 Gemini Ultra,兼具靈活性和強(qiáng)大的 Gemini Pro,以及能夠在移動(dòng)設(shè)備上本地運(yùn)行的 Gemini Nano。 圖/谷歌 事實(shí)上,目前用戶可以使用的 Gemini 大模型只有 Gemini Pro,實(shí)際對(duì)標(biāo)的 GPT-3.5。按照谷歌的說法,配備 Gemini Ultra 的 Bard Advanced 還要等到明年初才推出,而 Gemini Nano 將于本月稍晚時(shí)候率先登陸 Pixel 8 Pro,首批更新將支持自帶錄音 App 與 Gboard 輸入法。 不算意外,就在一周前,The Information 爆料稱,谷歌原計(jì)劃在今年底推出的 Gemini 將推遲到 2024 年初發(fā)布,原因在非英文查詢下存在一些問題,促使谷歌 CEO 桑達(dá)爾·皮查伊(Sundar Pichai)做出了該決定。 如今來看,顯然是 Gemini Ultra 還存在一些問題,但谷歌經(jīng)過考慮后還是選擇了如期發(fā)布 Gemini,只是最強(qiáng)大的 Gemini Ultra 還是要推遲到明年初。 不過即便如此,僅僅根據(jù)目前放出的官方上手視頻和介紹,Gemini Ultra 已經(jīng)成為了整個(gè)行業(yè)的熱議焦點(diǎn),也被視為 OpenAI GPT-4 最強(qiáng)大的對(duì)手,這當(dāng)然不是沒有理由的。 谷歌 Gemini,OpenAI 最大的威脅今年早些時(shí)候 OpenAI 發(fā)布了 GPT-4,其中最驚艷之處在于對(duì)于圖片的識(shí)別和理解,包括準(zhǔn)確解讀圖片中的「梗」以及直接按圖寫產(chǎn)品(代碼)。 Gemini Ultra 還要更進(jìn)一步。 在上手視頻中,谷歌展示 Gemini Ultra 如何通過攝像頭實(shí)時(shí)理解現(xiàn)實(shí)畫面信息,并根據(jù)現(xiàn)實(shí)畫面的變化給出新的理解,當(dāng)然也可以再根據(jù)對(duì)話給出回答或者結(jié)果,比如基于一張紙質(zhì)世界地圖給出了一種游戲玩法。在游戲過程中,Gemini Ultra 甚至可以實(shí)時(shí)判斷用戶的行為和結(jié)果,與之進(jìn)行互動(dòng)。 展示的背后,是 Gemini 對(duì)文本、圖像、視頻、音頻的「原生多模態(tài)(natively multimodal)」支持。 圖/谷歌 不同于 OpenAI 以及其他大模型廠商將不同模態(tài)訓(xùn)練模型拼接整合在一起,創(chuàng)建出一個(gè)多模態(tài)大模型,借此形成對(duì)文本、視覺、音頻的支持,雖然有些時(shí)候還是可以執(zhí)行某些任務(wù)(比如描述圖像),但在面對(duì)更具概念性和復(fù)雜推理的情況下,由于「轉(zhuǎn)錄」過程中的信息丟失問題,容易出現(xiàn)表現(xiàn)不佳的結(jié)果。 而谷歌強(qiáng)調(diào)的「原生多模態(tài)」,是指 Gemini 從一開始就對(duì)不同模態(tài)進(jìn)行了預(yù)訓(xùn)練,研究人員又用額外的多模態(tài)數(shù)據(jù)對(duì)其進(jìn)行微調(diào),進(jìn)一步提升模型的有效性,實(shí)現(xiàn)對(duì)各種模態(tài)輸入內(nèi)容的「無縫」理解和推理。按照谷歌的說法是:
另一方面,端側(cè)大模型也是時(shí)下從芯片側(cè)到計(jì)算終端側(cè)廠商關(guān)注的重點(diǎn),雖然很多手機(jī)廠商都宣稱了自主訓(xùn)練的端側(cè)大模型,但還沒有一家真正實(shí)裝端側(cè)大模型,基本還是通過云端大模型從語音助手切入。 圖/谷歌 眼下來看,Pixel 8 Pro 上的 Gemini Nano,極有可能最先踏出這一步。不僅如此,Gemini Nano 能力是內(nèi)置在 Android 系統(tǒng)中,未來不只是 Pixel,開發(fā)者可以通過 AICore API 直接調(diào)用其他 Android 手機(jī)的 Gemini AI 能力(在硬件算力上有要求)。 至于 Gemini Pro,用戶現(xiàn)在就能在谷歌 Bard 中實(shí)際體驗(yàn)到。 實(shí)測(cè) Gemini Pro:比 GPT-3.5 稍好,遠(yuǎn)勝文心大模型4.0為了對(duì)比 Gemini Pro(Bard)的水平,我們進(jìn)行對(duì)比的 GPT-3.5(ChatGPT)以及文心大模型 4.0(百度文心一言) 需要指出的是,目前 Gemini Pro(Bard)僅支持 170 多個(gè)國家的英文版本,之后會(huì)擴(kuò)展到更多語言和地區(qū),所以在 Bard 和 ChatGPT 上統(tǒng)一使用英文對(duì)話,文心一言由于英文表現(xiàn)較差,使用中文進(jìn)行對(duì)話。 整體來說,升級(jí) Gemini Pro 之后的 Bard 表現(xiàn)出不俗的知識(shí)和推理能力,比如詢問姚明加盟 NBA 那年亞軍隊(duì)的教練是誰? 中文為網(wǎng)頁對(duì)照翻譯,僅供參考(下同),圖/ Bard 在回答中,Bard 不僅準(zhǔn)確知道姚明是在 2002 年加入 NBA,還展示了正確的推導(dǎo)過程,并找到了當(dāng)年 NBA 亞軍球隊(duì)主教練是新澤西籃網(wǎng)(后改名為布魯克林籃網(wǎng))的拜倫·斯科特(Byron Scott)。 圖/ ChatGPT ChatGPT 也回答出了正確答案——拜倫·斯科特,不同的是,ChatGPT 鎖定的是 2002-2003 賽季(決賽在 2003 年)。 圖/文心一言 文心一言同樣知道需要找到 2002 年 NBA 亞軍隊(duì)的教練,但在亞軍隊(duì)上給出了錯(cuò)誤答案(紐約尼克斯),甚至連紐約尼克斯時(shí)任主教練也是錯(cuò)的。 Bard 在圖片理解和解讀上也有不錯(cuò)的表現(xiàn),基于一張 Realme GT5 Pro 前段時(shí)間的宣傳海報(bào),已經(jīng)能夠比較全面地解讀出海報(bào)傳達(dá)的信息。 上傳圖片,圖/ Realme Bard 的解讀,圖/ Bard 基于 GPT-3.5 的 ChatGPT 并不支持圖片,而基于文心大模型 4.0 的文心一言就出現(xiàn)了前文提到的「多模態(tài)『轉(zhuǎn)錄』過程中的信息丟失」,把 GPT5 Pro「看成」了 GPs Pro。此外,文心一言在表達(dá)上也比較「含糊」,不像 Bard 能夠傳達(dá)出比較清晰的信息。 基于同一張圖的解讀,圖/文心一言 受限于時(shí)間,目前我們只是進(jìn)行了部分的測(cè)試對(duì)比,并不能完整評(píng)判三家大模型的表現(xiàn),如果大家想要看到更深度的對(duì)比評(píng)測(cè),歡迎在評(píng)論區(qū)反饋告訴我們,后續(xù)會(huì)有相關(guān)規(guī)劃。 不過先回到 Gemini Pro 的加持下的 Bard,從初步上手體驗(yàn)來看,不僅表現(xiàn)出了對(duì)圖片和語音的全面支持,而且部分文本生成回答的質(zhì)量甚至比 ChatGPT 還略高一籌。等到后續(xù)支持中文,在一眾免費(fèi)(文心大模型 4.0 是收費(fèi)的)對(duì)話機(jī)器人中,很大可能會(huì)成為 ChatGPT(GPT-3.5)的上位替代。 至于未來支持 Gemini Ultra 的 Bard Advanced,預(yù)計(jì)將會(huì)與基于 GPT-4 的 ChatGPT 一樣,采用收費(fèi)模式,至于兩者的表現(xiàn)會(huì)有什么區(qū)別,就需要我們拭目以待了。 寫在最后或許有些「不公平」,但谷歌想要超越 OpenAI 繼續(xù)領(lǐng)導(dǎo)生成式 AI 革命,意味著 Gemini 不能只是超越 GPT-4,否則不管企業(yè)客戶還是普通用戶為什么要從 GPT-4 遷移到 Gemini。 就在宣告 Gemini 發(fā)布的新聞稿中,谷歌 DeepMind CEO Demis Hassabis 指出,Gemini 是谷歌目前規(guī)模最大,性能最強(qiáng)的大模型,「可以像我們一樣,理解我們周圍的世界。」 Demis Hassabis,當(dāng)時(shí)他們開發(fā)出了 AlphaGo,圖/谷歌 這可能才是谷歌 Gemini 與 GPT-4 最核心的區(qū)別所在。 不同于今年上半年對(duì)于 AGI(通用人工智能)未來的兩極分化看法,很多人堅(jiān)持認(rèn)為 AGI 永遠(yuǎn)不會(huì)實(shí)現(xiàn)。下半年以來,具身智能以及 AGI 再度成為了新的熱點(diǎn),谷歌、微軟、馬斯克、李飛飛團(tuán)隊(duì)以及 OpenAI 等公司都在繼續(xù)推進(jìn)具身智能和 AGI 的探索。 甚至據(jù)路透社報(bào)道,OpenAI CEO Sam Altman 此前被趕下臺(tái)的導(dǎo)火索,就是 AGI 探索項(xiàng)目(代號(hào) Q)突破帶來的威脅。 但無論是具身智能還是 AGI,就要求 AI 首先能夠通過聽覺、視覺以及文字理解我們周圍的世界,就像 Gemini Ultra 展現(xiàn)出的能力,或是 OpenAI 對(duì)正在開發(fā)的 GPT-5 提出的規(guī)劃。從這個(gè)角度來看,留給谷歌證明 Gemini 大模型優(yōu)越性的時(shí)間,也不多了。 題圖來自谷歌 |
|