前兩天,谷歌發布了 Gemini 2.0,打響了反“OpenAI 夸大營銷”的第一槍。 如果你已經體驗過了 Gemini 2.0 的多模態功能,你應該會跟我發出一樣的吶喊:臥 x,這是真的牛 x。 超快視覺理解速度、超像人的語音語調、響應 0 延遲無卡頓,而且還是個免費勞動力。 這幾天,Gemini 2.0 在外網已經徹底瘋狂了。一打開 Twitter,10 條熱門里面有一半以上都是網友用 Gemini 2.0 跑出的哇塞玩法。 相比之下,OpenAI 這幾天在外網幾乎沒啥熱度。這個反差,太讓人唏噓了。 廢話不多說,下面筆者就來帶你見識一下網友玩出的 Gemini 2.0 令人哇塞的用法! 最佳 AI 游戲外掛(以下視頻中字幕與翻譯均由機器自動生成,不保證翻譯質量) 如果你喜歡打游戲,那你一定知道,打游戲的最高配置是:外掛 朋友。 而這里,Gemini 雖然沒有直接破解游戲,但它能在你打游戲的時候,做你的語音搭子,直接指導你怎么破局。 這簡直就是一個活脫脫的通用 AI 外掛呀。 無論你是想讓 AI 幫你分析游戲局勢,還是單純的閑聊,只要你想聊天,Gemini 都能隨時回答你。 或者你突然有一個解密過不去了,卡關了,Gemini 還能根據自己理解游戲規則的能力,給你建言獻策。 ![]() 說到策略游戲,之前我在網上,看到過一個很搞笑的話題: 用 AI 下象棋,克制大爺。 ![]() 我現在在想,讓 Gemini 看著棋盤教我下棋,能不能指導我戰勝大爺。 有興趣的小伙伴可以身先士卒,找個下象棋的大爺試一試。(小心不要被大爺發現了暴打一頓) AI 陪讀論文搭子如果今天你還在用 GPT、Kimi 等對話助手“總結論文”-“多輪對話”,那真的已經不能把你叫做 AI 發燒友了。 因為,真正的 AI 發燒友已經在用 Gemini 2.0 陪讀 AI 論文了。 不需要再像 ChatBot 產品那樣苦哈哈的瘋狂打字、對話調教,絞盡腦汁告訴它你現在在讀哪里。你現在直接就能把你的論文跟 Gemini 遠程共享桌面,然后哪里不懂了直接用嘴問。 這體驗,已經 100% 碾壓了上一代對話產品了。 AI 閱讀賽道,變天了。 AI 編程搭子(真 · Peer Coding)程序員有兩件事兒最爽—— 一件事兒是深夜自己一個人敲代碼。 另一件事兒是白天拉個大神跟你一塊敲代碼。 但不是每個人都能找到一個大神做自己的編程搭子的,一不小心找來的可能是個給自己寫 bug 的豬隊友。 現在不一樣了—— Gemini 2.0 當編程搭子簡直不要太爽! 無論你現在是處在命令行、IDE 還是其他什么開發環境里,都能直接跟編程搭子實時 peer coding 了。 當然,有一點不太好,就是它沒法像 cursor、windsurf 等 AI 編程應用一樣直接替代改代碼,用嘴講怎么改,有時會讓人捉急。 如果將來再給 Gemini 開放遠程控制、鍵盤輸入的權限,AI 編程領域可能要大變天了。 AI 星級廚師午飯吃什么,晚飯吃什么,夜宵吃什么? 每日的靈魂三問,現在可以讓 Gemini 2.0 來幫忙做決定了。 它能根據你廚房里現有的食材,給你提供一個選擇—— 跟上一個編程的例子不同的是,編程用的共享屏幕功能,這個是用的攝像頭。 對,就只需要對著你的冰箱拍就行。把攝像頭對準冰箱里的食材,Gemini 就能迅速分辨出冰箱里各種食材,給你搭配出來一頓飯。 如果你拿國產的 AI 視頻測一測,就能感受到 Gemini 2.0 這個做的多牛了。 but...Gemini 給推薦的是西餐,國產 AI 模型廠商們能不能給搞個中餐版本出來?? 此處 @ 智譜 @ 階躍 @ 豆包 @Kimi @ 文心 @ 通義 @ 海螺 ...(排名無先后) AI 調酒師除了提供食譜,Gemini 還能教你調酒。 直接攝像頭對準架子上的基酒,Gemini 可以直接識別出架子上有什么酒,還能立刻回復調酒配方。這個視覺理解速度和響應速度,真的不是蓋的。 這名網友的手特別抖……我看視頻的時候,都沒有看清架子上到底有什么酒,只能一遍一遍暫停看。 如果是這個網友跟我打視頻電話,問我怎么調酒,我可能會把他扁一頓,讓他拿穩手機再說話…… 失敗案例:虛擬實時鋼琴教師在教學方面,還有一個網友讓 Gemini 教自己彈鋼琴。 這里 Gemini 的確回應了網友的需求,但是——它教的是錯的。 視頻里網友希望 Gemini 找出 G 鍵的位置,結果它誤導網友找的是 C 鍵的位置。而且,這名網友真的是新手。如果不是評論區的好心人指正,可能他以后都會認為 C 鍵是 G 鍵了。 對于不懂行的人來說,幻覺問題導致的認知錯誤是非常致命的。 這種重復的黑白按鍵畫面,對 AI 來說,處理起來還是捉襟見肘了。 不過這個例子確實有點刁難,姑且原諒 Gemini 這一次。 ![]() 這個例子暴露出 Gemini 的另一個弊端是:它沒法理解曲目。 現在 Gemini 還只能分辨人聲,它“聽不進去”音樂。 軟件教學搭子大伙剛上手一個新軟件時,是不是也會被軟件琳瑯滿目的按鈕震懾到? 反正我剛開始使用 PS 軟件的時候,我確實是被嚇到了。數不清的按鈕,看不懂的描述。 ![]() 視頻里的小哥就是在用 Gemini 解決這個問題。 只要給它描述出你想要做的事情,你想要實現的效果,Gemini 就會幫你找出點哪個按鈕可以實現。 這個功能還是很不錯的。以后上手一個新程序的時候,就沒什么學習難度了。 我愿稱這個例子為最直觀的體現 Gemini 用處的一個。 調教說話語氣這個示例中,網友在 system prompt 中對語調進行了約束,來讓 Gemini 說話風格更符合需求。 我本來很想試一下,Gemini 能不能說中文方言。但比較可惜的是,Gemini 不會說中文,更不用說讓它學中文方言口音了。 ChatGPT 的語音模式倒是能說中文,但是你們去體驗一下就知道了,一股子大佐味…… ![]() 果然中文對話這一塊,還是得看我們的國產模型。 讀書搭子最后這個例子跟開頭的 AI 陪讀論文比較類似,這名網友把自己正在讀的書共享給 Gemini,讓它回答一些書中的問題,而 Gemini 都回答上來了。 而且這個網友的需求還挺特殊,他是這么說的:他就是需要一個這樣的天才 AI,陪自己讀書。問問題它會回答,有自己的理解,而且可以隨時隨地陪伴著自己。 ![]() 好家伙,就是主打一個陪伴。 但不得不說,這種需求還是真實存在的。 上一個陪伴自己的是小說、游戲、短視頻。下一個陪伴自己的,就是 AI。 他體驗完 Gemini 2.0 后,跟我的想法一樣: Gemini 2.0 是一個真正的 AI 助手。 ![]() 最后,我突然想 cue 一下 OpenAI。 要問為什么,因為我每天熬夜追 OpenAI 的發布會直播,結果 OpenAI 更新內容的含金量一天不如一天…… 今天 OpenAI 發布會講了個啥? 今天,OpenAI 學 Anthropic 的 Claude project(文件夾功能),往 ChatGPT 里面也加了一個“project”功能: ![]() 如果把每次對話比作一個文件,那 project 功能就是一個文件夾。 用 project 可以組織對話,相當于把一堆文件整理到一個文件夾里面; ChatGPT 還可以根據文件夾中的對話內容,語氣,來調整 ChatGPT 的風格和功能。支持上傳文件、設置自定義指令,還集成了 Search 和 Canvas 等功能。 有一種沒活硬整的感覺……還是看看遠處的視覺功能吧,家人們。 ![]() 極端點說,除了第一天的 o1 滿血版,我感覺 OpenAI 后面這幾天的直播更新內容加起來,還沒有谷歌一個 Gemini 2.0 勁爆。 雖然在 Gemini 2.0 發布的第二天,OpenAI 也官宣了高級語音模式的視覺功能—— 但是,這還是個期貨,要后續才能體驗到,真的讓人挺無語的。 我猜,OpenAI 原定的是,下周官宣視覺功能。 而谷歌這一手王炸,把 OpenAI 整急了,不得已把視覺功能的直播排期提前,進行魔法對波。但視覺功能還在調試中,只能下周拿出來。 這么一想,感覺還挺合理的? 等 OpenAI 的視覺功能正式上線了,我還會做一手實測,看看它是不是真的值得我們等這么久。 如果小伙伴們有什么靈光一現的想測試的場景 case,歡迎在評論區分享出來~ ![]() |
|
來自: squareyang > 《AI人工智能》