隨著ChatGPT的爆火,幾乎所有大廠都爭先恐后地入局了AI助理賽道。 8月17日,抖音開始對外測試AI對話產品“豆包”,并上線了相關APP;2023年8月31日,文心一言率先向全社會全面開放。10月30日,阿里云旗下大模型通義千問 App 現已上架各大安卓應用市場。 在互聯網大廠里,騰訊無疑是最淡定的那個。直到今天,騰訊才宣布基于混元大模型的App“騰訊元寶”正式上線。這個時間幾乎比其他大廠晚了整整半年之久。 在元寶上線的第一時間,我們就上手用了用,發現這個產品有很多值得一說的地方: 產品優點很鮮明,風格很騰訊,頁面給人一種舒服的感覺,AI搜索也加上了公眾號這個國內最好的信息源。但不足之處是,作為一個剛剛推出的產品,搜索、文檔識別等很多功能受限于理解能力等因素,很難精準把握用戶需求,離市面上迭代過好幾輪的產品仍然有一定差距。 / 01 / 元寶很“騰訊“ 打開產品,元寶的初始頁面很簡潔,除了對話頁面外,上方只有一個“發現”欄目,里面是各種各樣的智能體或者AI工具,比如口語陪練、AI頭像等等。 在對話框上方有四個選項,分別對應著當下AI助手最常見的4個應用場景:AI搜索、文檔總結、網頁總結以及AI作圖。 相比之下,其他AI助理的產品設計要更加復雜。比如,通義千問的主頁面會將其他AI應用拆分出工具、角色和頻道;再比如,豆包和文心都會將創造智能體,放在主頁面的底部,作為一級入口。 這樣的設計理念,也符合外界對騰訊系產品的印象:簡潔、聚焦用戶體驗,沒太多花里胡哨的東西。 / 02 / AI搜索:公眾號兜底,理解能力拖后腿 在官方介紹里,AI搜索是元寶的一個特色,也是我很關心的一個點。 在AI搜索里,有兩個能力很重要,一個是推理能力,能不能真正用戶的搜索意圖;另一個是信息源,信息源的質量直接關系到搜索結果的好壞?,F在AI搜索的信息源幾乎大同小異,缺失了微信公眾號這一國內信息質量最高的平臺。而這恰恰是元寶最大的優勢。 為了更好地測試元寶的AI搜索,我向元寶提了一個問題:如何看待GPT4o發布的意義?在參考11篇資料后,元寶給出了這樣的回答: 好的地方是,11篇引用資料中,有4篇文章來自公眾號。不僅如此,在回答的底部,元寶還特地推薦了很多與問題相關的內容。我看了一下,這些內容幾乎全部來自公眾號。 這證明了一件事情:在元寶搜索的信息源中,確實把微信生態里的內容加進來了。 不好的地方是,即使有微信內容生態的加持,相比其他AI助手,元寶給出回答談不上出色,只能算是中規中矩。 同樣的問題,Kimi給出的回答,把GPT4o的特點說明得更清楚,信息量也更大,甚至能夠把GPT4o的低延遲與智能硬件發展結合起來。 如果降低一下問題的難度,把“為什么”改成“是什么”?元寶在回答上的表現要更好一點。比如,當我問元寶“Suno V3.5版本有哪些特點”,元寶就能給出不錯的回答: 對比之下,這個回答明顯優于通義千問,與Kimi幾乎不相上下。 通義千問 Kimi 最后,我又問了元寶一個問題:過去幾年中國人口變化?元寶給出了這樣的回答: 元寶將這個問題,理解成三個信息:人口總量變化、人口結構性變化、人口變化的原因??瓷先セ卮鸷茉敿毴?,但忽略了一個細節,我問的是過去幾年,而元寶給出的人口數據只有2023年的。 再來看通義千問,不僅結構性不如元寶,也沒有人口的確切數據,更多在闡述過去兩年人口變化的情況。 最后來看Kimi,不僅給出了過去三年人口的確切數據,也把每一年的變化說得清清楚楚,另外也有年齡結構、地區分布等結構性變化信息。 總體來說,元寶的AI搜索優劣勢非常明顯,優勢是擁有公眾號這個優質信息源,劣勢是搜索的推理能力不太理想,很難精準篩選出用戶想要的信息。 換句話說,公眾號能夠保證元寶AI搜索的下限,但想要最大程度地發揮公眾號的信息源優勢,元寶還要做更多的努力。 / 03 / 文檔總結:抓重點能力有待提升 接下來,我又對元寶的文檔總結能力做個一個測試,把啟明創投和未盡研究共同發布的《2023生成式AI洞察報告》,同時給了元寶、通義千問和Kimi。 結果嘛,怎么說呢,有點不盡如人意,直接來看結果吧。 這是元寶給出的回答: 回答的問題在于,概述總結的4個點完全是復制文檔里的4個章節,每個部分內容比較泛泛,導致信息量很有限。作為用戶來說,只能看到報告覆蓋的大致內容,卻看不到任何有價值的觀點。作為文檔總結來說,多少有些不合格。 再來看看通義千問的表現,它自行對報告總結了7個部分,每個部分又有2-3個關鍵點的展開,這些關鍵點并不是泛泛的概括,而是都有具體的觀點。 而Kimi沒有總體的概括,選擇直接給出報告里最重要的12個關鍵點,每一個關鍵點都給出明確的觀點。 總體來說,元寶的文檔總結仍然停留在內容討論的方向,很難從中抽離出其中重要的觀點,相反無論是通義千問還是Kimi在這方面已經輕車熟路。 舉個例子,三個總結都有講到報告中中美歐有關人工智能監管的內容,但元寶只能給出中美歐在人工智能監管和立法方面的進展,而通義千問和Kimi都明確提到了,中歐美正在加快AI監管和立法的進程,甚至通義千問還給出各自的進展。 / 04 / 圖片識別能力:有錯誤,也有亮點 最后,我們來測試下元寶對圖片的識別能力,分別上傳同一張圖片,讓它識別出圖片中包含的內容。 我先是問了元寶,能夠從圖片中看到什么。元寶能夠基本識別出圖片里的內容,但仍然有兩個錯誤,一是側躺說成了仰面,二是被子說成了襯衫。當我更進一步詢問這個人是誰,元寶能夠準確回答卷福的名字。 而Kimi無法識別這張圖片,我把同樣圖片和問題給了通義千問。通義千問的回答更加準確,也有很多呈現了細節,比如側臉、毯子、傷疤。但當我詢問這個人是誰,通義千問卻沒辦法給出準確的名字。 / 05 / 總結 作為騰訊姍姍來遲的AI助理產品,元寶從風格上延續了騰訊產品相對簡潔的風格,功能上與現有AI助理產品基本相似。 最大的特色在于,元寶將微信內容生態正式納入了AI搜索的信息源。在信息搜索過程中,公眾號內容的價值也有所體現。盡管有著這個全網最優的信息源,但元寶卻被推理能力上拖了“后腿”, 導致很難精準篩選出用戶想要的信息。這是元寶后續需要提升的地方。 同樣在文檔識別里,元寶也很難篩選出有價值的觀點,與通義千問、Kimi等產品還有差距。在圖片識別上,元寶盡管會出現部分事實錯誤,但面對圖片信息的延伸問題時,仍然能夠給出準確的回答,這一點實屬難得。 總體來說,作為一個剛剛推出AI助理產品,元寶仍然有很多需要提升的地方。不過考慮到微信公眾號生態的加持,相比其他AI助理,元寶仍然擁有足夠的差異化和更高的上限,這也讓我們對元寶后續的表現有了更多的期待。 |
|