百般刁難騰訊新產品，它的極限被我測出來了

獨角戲jlahw6jw 2024-06-05 發布于江西

展開全文

從去年開始，國內各大互聯網公司就先后推出了大模型產品，像是文心一言（百度）、通義千問（阿里）、豆包（抖音）、訊飛星火……

作為互聯網巨頭，騰訊動作不大，讓人感覺成了大模型缺席者，事實上，騰訊開發了混元大模型，在騰訊部分產品里，正在發揮作用。

因為騰訊宣傳力度不強，所以用戶很難注意到，而前兩天，騰訊終于帶著他們的 AI 助手“元寶”強勢來了。

就產品功能來說，元寶與其他的 AI 助手并沒有什么區別，依然是對話界面+各種智能體。

當然了，幾乎所有的 AI 助手都是如此，主流的 AI 助手里，只有天工開物搞了一個音樂創作的功能，可惜體驗很一般。

信息搜索

回到騰訊元寶上來，按照騰訊官方說法，騰訊元寶接入了微信搜一搜、搜狗搜索、內容涵蓋微信公眾號文章，主打一個內容全面，信息準確。

老狐試著用他們搜索近期關注的一個互聯網話題——抖音電商 2024 年的 GMV 還值得看好嗎？

元寶生成的回答，邏輯清晰，開頭說明了預測的 GMV 數據，以及關鍵的興趣電商與貨架電商增長對比，也提到了抖音電商的市場策略和外部環境的競爭。

可以注意到，文章一共引用了 8 篇文章作為參考，來源比較多樣，從公眾號到新浪新聞、網易新聞甚至還有《財富》雜志，在生成的結果里會標注資料來源，重要數據能迅速找到出處。

在生成結果末尾，提供了更多相關文章，基本來自公眾號。

相比于引用資料來說，其實文末的文章質量更高，其中也包含可引用的相關數據，但它們沒有被元寶收納到“引用資料”中。

為了見到自己的文章出現在引用資料里，老狐找了曾寫過的選題，結果第 7 條和第 8 條是科技狐發表在不同平臺的同一篇文章。

類似的情況在老狐測試時重復出現，優化還不夠。

大模型這類涉及到問答形式，需要 AI 引用數據資料來生成回答的模式，回答的質量取決于引用資料的質量。

騰訊元寶背后有騰訊的整個生態，尤其是微信公眾號，后者有大量團隊和個人在上面發布高質量文章，僅就文字內容來說，這是知乎、小紅書比不了的。

但是……沒錯，老狐要說但是。

元寶在生成答案的末尾，附上的內容都是文字，沒有視頻內容，形式上不夠豐富，尤其是在特定的問題上，視頻能呈現出更好的效果。

比如面對“佛跳墻怎么做”這個問題，文心一言會提供視頻內容，其中還有“老飯骨”明星大廚制作的視頻，而元寶只有文字。

這需要騰訊后續升級優化，比如引入視頻號的短視頻，或引入其他平臺如 B站、快手的視頻內容。

文檔總結

文檔總結功能，現在成了大模型內卷的方向之一，尤其是文字長度。

今年 3 月中旬，Kimi 宣布支持文檔最高字數達到 200 萬字，沒過多久，通義千問就把字數上限提升到 1000 萬字。

可能有人會質疑上百萬字數無用，然而，很多企業一份英文財報字數就可能超過 100 萬。

騰訊說元寶能一次性解析最多 10 個 PDF/word/tet 文件，一次性閱讀一本書不成問題。

先來看看普通的文章總結，老狐拿公眾號的文章做了測試，結果讓人有些失望。

總結里提到 SU7 的銷量超出預期，以及雷軍設定新的銷售目標，相關數據原文有提到，但總結卻沒有列出來。

我甩給它小米的財報 PDF 連接，讓它幫我找出關鍵數據，這一點，元寶完成得非常不錯。

繼續增加難度，我同時向它扔了蔚來、小鵬和理想三家車企的去年英文版年報的鏈接，讓它整理一些關鍵數據。

它變成了文檔提取失敗，多次嘗試依然無果。

于是我又特地下載三份年報到本地，上傳數據讓它讀取。

這回倒是不會提取失敗，生成了相關數據，并且用表格進行對比，但三家車企數據雷同。

老狐猜測原因是三篇財報字數接近 350 萬，超過了元寶的文字長度限制，于是默認使用了最后上傳的小鵬財報數據。

用 Kimi 和通義千問來總結，也無法成功，Kimi 提示“超過對話長度”。

不過，改成只總結蔚來的年報時，元寶正確引用了蔚來的數據，但卻犯了一個致命錯誤，把 RMB 和 Dollar 弄混了。

*元寶總結的數據

*蔚來財報截圖

老狐圓不回來了，可能元寶的英文不佳吧。

值得一提的是，在微信里打開好友發過來的 word 或 PDF 文檔，可以選擇用元寶打開，通過元寶小程序總結文檔內容。

而在企業微信里，暫時還不支持元寶打開文檔。

誰是真實的辦公軟件，誰是虛假的辦公軟件一目了然。

AI 寫作

AI 寫作也是如今大模型必提的功能之一，宣傳的文案、策劃等場景，大模型已經能夠滿足。至于技術要求更高、代替老狐工作的長文寫作能力，大模型已經很少提及。

先來看一個比較普通的寫作場景——寫周報，這是我給的 prompt：

“幫我寫一份上周的周報。我周一寫完了之前沒寫完的視頻稿，周二，周三，周四寫了兩篇公眾號稿子，并體驗了一款大模型產品，周五做了測評并寫了一部分文稿”

這是元寶生成的答案。

Prompt 里只有簡單的工作內容，生成的周報豐富了細節，比如“與視頻團隊溝通”、“撰寫過程中注重內容的深度和廣度”。

整體來說，這份周報內容寫得還不賴，完成了大部分框架，根據實際情況再做調整，便足夠應付咱們工作中的需要。

另外我讓元寶完成一份策劃方案，比如公司團建活動，給出 prompt 為：

“策劃一場公司團建活動，參與人數為20人，地點就在公司，時間是下午一點半到六點半，活動內容包括近期工作總結，互動游戲。”

生成的活動策劃案第一項是工作總結，安排的三個互動游戲適合室內，游戲道具也有提及。

只不過第三條“心得分享與交流”，在我看來沒有必要，但這部分可能是大多企業結束團建的儀式。

這份策劃方案大家認為如何？老狐認為還不錯。

邏輯計算和常識

在考驗大模型的邏輯能力時，最常用的題目類型是雞兔同籠求解，不過類似問題已經難不倒普通的大模型，元寶同樣如此。

提高難度，老狐用一道高考模擬題來考驗它，原題是這樣的。

上傳圖片讓元寶識別題目，然而識別出現錯誤。

于是老狐又手動輸入題目，最終計算出一個……錯誤答案！

小伙伴也別覺得元寶計算能力差，事實上，這道題我之前用文心一言、Kimi、通義千問、豆包都計算過（且都無法直接用圖片提取題目文字）。

元寶，文心一言、Kimi、豆包利用不等式知識解題是正確的思路，但是原題需要變通，將 36=4（a+b）帶入進去提取常數，大模型顯然沒有這個創造力，紛紛選擇硬解，集體翻車。

通義千問計算出了正確答案，不過沒用不等式，而是通過微積分知識，求導確定極值。

通義千問這波是拿宰牛刀殺雞。

我調整了 prompt，讓它用不等式知識計算，看著它輸出了 3 分鐘計算過程，中途還更改計算步驟，最后變成了系統超時。

能否制造并使用工具是人與動物的區別之一，而能否靈活運用知識，是人與機器的區別。

常識問題在去年大模型爆發初期常常見到，還鬧出了“林黛玉倒拔垂楊柳”的笑話。現如今，這個 Bug 已經得到優化，元寶在面對這類問題能輕松避開。

老狐用國外的文學知識對它測試，它也能正確指出其中的錯誤。

不過有些陷阱它還是無法避免，比如我在周五問元寶今年多特蒙德為何奪得歐冠冠軍，它說得頭頭是道，然而比賽是周日凌晨才進行。

不過當比賽結束，再問它多特奪冠，它已經能指出其中問題所在。

大模型常識問題需要大量資料支撐，在事發前，沒有任何資料，它可能就會胡言亂語。

大模型就像是三體人，與人類的詭計多端比起來，還是單純了些。

AI 作圖

在騰訊的宣傳稿里，特意提到元寶作畫的能力。

實際上，如果給到的 prompt 提到的主角單一，并給到環境描寫，它能生成信息準確的圖片。

一旦主角有兩位，包含不同的細節，元寶生成的圖片就對不上 prompt 了。

此外，在某些場景下，生成的人物面部會很恐怖。

這種情形下選擇重復輸出，能得到一張容貌姣好的美女照片，但眼神依舊怪異，而且傘骨歪斜。

老狐進行了多次測試后發現，如果人物是正面，且臉部占據畫面較大的面積，元寶對人物面部刻畫會更準確，一旦角度是斜側，或者人物面部較小時，面部就會出現比例失調，尤其是后一種情形。

這不是元寶一個大模型的問題，其他大模型也會如此。

不過有些大模型在處理這類問題時，要討巧得多，要么選擇展示人物背面，避免臉部的刻畫，要么就直接正臉，給側臉是死活不會給的。

在他們面前，元寶、豆包像個耿直 boy，畫人物面部幾率要比其他幾款大模型高得多。

反過來，耿直的元寶也更“聽話”，畫面與 prompt 更契合，用戶更容易得到自己想要的畫面。

總結

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發布，不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息，謹防詐騙。如發現有害或侵權內容，請點擊一鍵舉報。

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：獨角戲jlahw6jw > 《Av2》

舉報/認領

0條評論

發表

請遵守用戶評論公約

類似文章 更多

獨角戲jlahw6jw

關注對話

TA的最新館藏

AI讓王羲之寫了他沒寫過的帖：當算法蘸墨，書法的魂還在嗎？
突破百萬衛星困局：中國方案讓太空不再“擠爆”
普通人切斷慢性炎癥至少能延壽10年，而且是有質量的生活
讓“最快女護士”跑下去最符合公眾期待
【趙振海】5種治療抑郁癥的優選藥物，長期服用不可忽視這三點！
今年夏季為1961年以來最熱 5省區平均氣溫為歷史同期最高

喜歡該文的人也喜歡更多

熱門閱讀換一換