從去年開始,國內各大互聯網公司就先后推出了大模型產品,像是文心一言(百度)、通義千問(阿里)、豆包(抖音)、訊飛星火…… 作為互聯網巨頭,騰訊動作不大,讓人感覺成了大模型缺席者,事實上,騰訊開發了混元大模型,在騰訊部分產品里,正在發揮作用。 ![]() 因為騰訊宣傳力度不強,所以用戶很難注意到,而前兩天,騰訊終于帶著他們的 AI 助手“元寶”強勢來了。 ![]() 就產品功能來說,元寶與其他的 AI 助手并沒有什么區別,依然是對話界面+各種智能體。 ![]() 當然了,幾乎所有的 AI 助手都是如此,主流的 AI 助手里,只有天工開物搞了一個音樂創作的功能,可惜體驗很一般。 ![]() 信息搜索 回到騰訊元寶上來,按照騰訊官方說法,騰訊元寶接入了微信搜一搜、搜狗搜索、內容涵蓋微信公眾號文章,主打一個內容全面,信息準確。 ![]() 老狐試著用他們搜索近期關注的一個互聯網話題——抖音電商 2024 年的 GMV 還值得看好嗎? ![]() 元寶生成的回答,邏輯清晰,開頭說明了預測的 GMV 數據,以及關鍵的興趣電商與貨架電商增長對比,也提到了抖音電商的市場策略和外部環境的競爭。 可以注意到,文章一共引用了 8 篇文章作為參考,來源比較多樣,從公眾號到新浪新聞、網易新聞甚至還有《財富》雜志,在生成的結果里會標注資料來源,重要數據能迅速找到出處。 ![]() 在生成結果末尾,提供了更多相關文章,基本來自公眾號。 ![]() 相比于引用資料來說,其實文末的文章質量更高,其中也包含可引用的相關數據,但它們沒有被元寶收納到“引用資料”中。 為了見到自己的文章出現在引用資料里,老狐找了曾寫過的選題,結果第 7 條和第 8 條是科技狐發表在不同平臺的同一篇文章。 ![]() 類似的情況在老狐測試時重復出現,優化還不夠。 大模型這類涉及到問答形式,需要 AI 引用數據資料來生成回答的模式,回答的質量取決于引用資料的質量。 騰訊元寶背后有騰訊的整個生態,尤其是微信公眾號,后者有大量團隊和個人在上面發布高質量文章,僅就文字內容來說,這是知乎、小紅書比不了的。 但是……沒錯,老狐要說但是。 元寶在生成答案的末尾,附上的內容都是文字,沒有視頻內容,形式上不夠豐富,尤其是在特定的問題上,視頻能呈現出更好的效果。 比如面對“佛跳墻怎么做”這個問題,文心一言會提供視頻內容,其中還有“老飯骨”明星大廚制作的視頻,而元寶只有文字。 ![]() 這需要騰訊后續升級優化,比如引入視頻號的短視頻,或引入其他平臺如 B站、快手的視頻內容。 ![]() 文檔總結 文檔總結功能,現在成了大模型內卷的方向之一,尤其是文字長度。 今年 3 月中旬,Kimi 宣布支持文檔最高字數達到 200 萬字,沒過多久,通義千問就把字數上限提升到 1000 萬字。 ![]() 可能有人會質疑上百萬字數無用,然而,很多企業一份英文財報字數就可能超過 100 萬。 騰訊說元寶能一次性解析最多 10 個 PDF/word/tet 文件,一次性閱讀一本書不成問題。 先來看看普通的文章總結,老狐拿公眾號的文章做了測試,結果讓人有些失望。 ![]() 總結里提到 SU7 的銷量超出預期,以及雷軍設定新的銷售目標,相關數據原文有提到,但總結卻沒有列出來。 我甩給它小米的財報 PDF 連接,讓它幫我找出關鍵數據,這一點,元寶完成得非常不錯。 ![]() 繼續增加難度,我同時向它扔了蔚來、小鵬和理想三家車企的去年英文版年報的鏈接,讓它整理一些關鍵數據。 它變成了文檔提取失敗,多次嘗試依然無果。 ![]() 于是我又特地下載三份年報到本地,上傳數據讓它讀取。 ![]() 這回倒是不會提取失敗,生成了相關數據,并且用表格進行對比,但三家車企數據雷同。 老狐猜測原因是三篇財報字數接近 350 萬,超過了元寶的文字長度限制,于是默認使用了最后上傳的小鵬財報數據。 ![]() 用 Kimi 和通義千問來總結,也無法成功,Kimi 提示“超過對話長度”。 ![]() 不過,改成只總結蔚來的年報時,元寶正確引用了蔚來的數據,但卻犯了一個致命錯誤,把 RMB 和 Dollar 弄混了。 ![]() *元寶總結的數據 ![]() *蔚來財報截圖 老狐圓不回來了,可能元寶的英文不佳吧。 值得一提的是,在微信里打開好友發過來的 word 或 PDF 文檔,可以選擇用元寶打開,通過元寶小程序總結文檔內容。 ![]() 而在企業微信里,暫時還不支持元寶打開文檔。 誰是真實的辦公軟件,誰是虛假的辦公軟件一目了然。 ![]() AI 寫作 AI 寫作也是如今大模型必提的功能之一,宣傳的文案、策劃等場景,大模型已經能夠滿足。至于技術要求更高、代替老狐工作的長文寫作能力,大模型已經很少提及。 先來看一個比較普通的寫作場景——寫周報,這是我給的 prompt: “幫我寫一份上周的周報。我周一寫完了之前沒寫完的視頻稿,周二,周三,周四寫了兩篇公眾號稿子,并體驗了一款大模型產品,周五做了測評并寫了一部分文稿” 這是元寶生成的答案。 ![]() Prompt 里只有簡單的工作內容,生成的周報豐富了細節,比如“與視頻團隊溝通”、“撰寫過程中注重內容的深度和廣度”。 整體來說,這份周報內容寫得還不賴,完成了大部分框架,根據實際情況再做調整,便足夠應付咱們工作中的需要。 另外我讓元寶完成一份策劃方案,比如公司團建活動,給出 prompt 為: “策劃一場公司團建活動,參與人數為20人,地點就在公司,時間是下午一點半到六點半,活動內容包括近期工作總結,互動游戲。” 生成的活動策劃案第一項是工作總結,安排的三個互動游戲適合室內,游戲道具也有提及。 ![]() 只不過第三條“心得分享與交流”,在我看來沒有必要,但這部分可能是大多企業結束團建的儀式。 這份策劃方案大家認為如何?老狐認為還不錯。 ![]() 邏輯計算和常識 在考驗大模型的邏輯能力時,最常用的題目類型是雞兔同籠求解,不過類似問題已經難不倒普通的大模型,元寶同樣如此。 ![]() 提高難度,老狐用一道高考模擬題來考驗它,原題是這樣的。 ![]() 上傳圖片讓元寶識別題目,然而識別出現錯誤。 ![]() 于是老狐又手動輸入題目,最終計算出一個……錯誤答案! ![]() 小伙伴也別覺得元寶計算能力差,事實上,這道題我之前用文心一言、Kimi、通義千問、豆包都計算過(且都無法直接用圖片提取題目文字)。 元寶,文心一言、Kimi、豆包利用不等式知識解題是正確的思路,但是原題需要變通,將 36=4(a+b) 帶入進去提取常數,大模型顯然沒有這個創造力,紛紛選擇硬解,集體翻車。 ![]() 通義千問計算出了正確答案,不過沒用不等式,而是通過微積分知識,求導確定極值。 ![]() 通義千問這波是拿宰牛刀殺雞。 我調整了 prompt,讓它用不等式知識計算,看著它輸出了 3 分鐘計算過程,中途還更改計算步驟,最后變成了系統超時。 ![]() 能否制造并使用工具是人與動物的區別之一,而能否靈活運用知識,是人與機器的區別。 常識問題在去年大模型爆發初期常常見到,還鬧出了“林黛玉倒拔垂楊柳”的笑話。現如今,這個 Bug 已經得到優化,元寶在面對這類問題能輕松避開。 老狐用國外的文學知識對它測試,它也能正確指出其中的錯誤。 ![]() 不過有些陷阱它還是無法避免,比如我在周五問元寶今年多特蒙德為何奪得歐冠冠軍,它說得頭頭是道,然而比賽是周日凌晨才進行。 ![]() 不過當比賽結束,再問它多特奪冠,它已經能指出其中問題所在。 ![]() 大模型常識問題需要大量資料支撐,在事發前,沒有任何資料,它可能就會胡言亂語。 大模型就像是三體人,與人類的詭計多端比起來,還是單純了些。 ![]() AI 作圖 在騰訊的宣傳稿里,特意提到元寶作畫的能力。 實際上,如果給到的 prompt 提到的主角單一,并給到環境描寫,它能生成信息準確的圖片。 ![]() 一旦主角有兩位,包含不同的細節,元寶生成的圖片就對不上 prompt 了。 ![]() 此外,在某些場景下,生成的人物面部會很恐怖。 ![]() 這種情形下選擇重復輸出,能得到一張容貌姣好的美女照片,但眼神依舊怪異,而且傘骨歪斜。 ![]() 老狐進行了多次測試后發現,如果人物是正面,且臉部占據畫面較大的面積,元寶對人物面部刻畫會更準確,一旦角度是斜側,或者人物面部較小時,面部就會出現比例失調,尤其是后一種情形。 這不是元寶一個大模型的問題,其他大模型也會如此。 不過有些大模型在處理這類問題時,要討巧得多,要么選擇展示人物背面,避免臉部的刻畫,要么就直接正臉,給側臉是死活不會給的。 ![]() 在他們面前,元寶、豆包像個耿直 boy,畫人物面部幾率要比其他幾款大模型高得多。 反過來,耿直的元寶也更“聽話”,畫面與 prompt 更契合,用戶更容易得到自己想要的畫面。 ![]() 總結 |
|
來自: 獨角戲jlahw6jw > 《Av2》