打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

嶅山村夫 2024-05-16 發布于安徽

展開全文

新視界

2024年05月14日 15:21:17 來自北京市

科技 > 人工智能

鳳凰網科技《新視界》出品

從卷參數、卷文本長度再到開卷多模態，國產大模型的角逐賽打的愈發激烈。

特別是2024年初以來，“長文本”悄然走入大眾視野，在眾多晦澀技術用詞之外，讓不少用戶眼前一亮。

今年3月，月之暗面的Kimi智能助手宣布可支持200萬字上下文，緊隨其后，通義千問免費開放1000萬字的長文檔處理功能；4月，訊飛星火也可支持長文本、長圖文、長語音，甚至還能進行超擬人語音對話、一句話聲音復刻。5月14日凌晨，OpenAI推出最新旗艦大模型GPT-4o，能夠對文本、音頻、圖像的任意組合作為輸入，并生成文本、音頻和圖像輸出。

大模型能力競爭來到了新的水平線。

不過，不論是模型參數，還是長文本能力，都并非以數字取勝。簡言之，大模型并非參數越大越好用，文本也并非越長，效果就越好。

大模型到底好不好用，長文本的價值究竟幾何？為了解答這些疑問，鳳凰網科技對多款國產大模型進行了實測，橫向比較了Kimi、文心一言3.5、通義千問、訊飛星火3.5、智譜清言與商湯商量共6款國產大模型，以日常合同、保險賠付、學習輔導、會議資料整理與日常生活等垂直應用行業為具體案例，呈現6大國產大模型的差異之處。

長文本，好用還是雞肋？

起初將長文本概念帶火的正是月之暗面，其旗下的Kimi智能助手主打的就是長文本。

在月之暗面創始人楊植麟看來，通往通用人工智能（AGI）之路，無損的長上下文將會是一個很關鍵的基礎技術。

目前，Kimi支持200萬字超長無損上下文，其相關負責人表示，長文本可進一步幫助打開對AI應用場景的想象力，包括完整代碼庫分析理解、可自主幫人類完成多步驟復雜任務的智能體Agent、不會遺忘關鍵信息的終身助理、真正統一架構的多模態模型等。

當然，理論說明并不直觀，既然Kimi號稱有超強長文本能力，我們就來橫向對比下，以日常合同、保險賠付、日常會議等為例，Kimi與文心一言、通義千問、訊飛星火、商湯商量、智譜清言的差別所在。

● 長文本識別及篩選能力實測：

我們在日常生活中有非常多合同使用的場景，而快速閱讀字數繁多的合同、整理要點是普遍痛點，我們以房屋租賃合同為例，測試了以上幾款產品在處理長文本上的能力。得到的結果如下：

Kimi的回答詳盡且條理清晰，重點信息也做了突出顯示，把注意事項一一列舉了出來。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

訊飛星火的總結同樣對要點進行了提煉，并一一列舉了注意事項。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

通義千問的列舉詳盡，也對重點內容進行了標注。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

而文心一言的表現就略顯差一些了，邏輯性不強，對信息的提取不夠凝練。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

智譜清言同樣交出了一份合格的回答，涵蓋了核心重點內容。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

商湯商量分為對話大模型和文檔大模型，合同需要發給文檔大模型處理，兩個模型入口可能對用戶來說不是很方便，在處理結果上，商湯大模型給出的回答也較為全面。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

● 長文本問答能力實測：

我們以汽車出險賠付為例，參照平安保險機動車商業保險條款，了解事故發生后我們該如何進行保險理賠。

Kimi的回答依舊條理清晰，可行性較高，基本上解決了機動車出現事故后該具體如何操作問題。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

訊飛星火的回答同樣邏輯清晰，雖沒有Kimi的解答那么細，但仍舊全盤列出了現場處理要點以及注意事項。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

文心一言的回復相對而言比較泛泛而談，無法一步到位直接解決當下的問題。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

通義千問的回答同樣有著不錯的實用性，基本涵蓋了事故發生后需要進行的操作。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

商湯商量的回答較為全面，依然需要在文檔大模型中單獨使用，操作上略有不便。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

智譜清言在此問題上的回答雖然相對簡略，但同樣涵蓋了核心步驟。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

● 長文本生成能力實測：

在具體的應用場景中，長文本除了識別與歸納，最核心的功能，就是生成功能了。這里我們設定需要這些大模型生成一份人工智能產業報告（2023）。

在長文本生成方面，Kimi仍舊呈現出了顯著的專業性，不僅內容探討方向更加豐富，且專業內容扎實，實用度高，幾乎可直接拿來做報告的初步提綱。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

訊飛星火的文本生成能力同樣可圈可點，雖在條理性上略遜Kimi一籌，但展現出了更強的文采能力。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

相比較之下，文心一言的學術性能力就稍遜一籌，產出的內容較為簡單、基礎，很難直接使用。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

通義千問的回答稍微有一點文不對題，雖然給出了一張封面，但具體內容可用性較弱。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

商湯商量生成的報告，在結構上比較完整，并涵蓋了當前領域中的專業術語。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

在長文本生成方面，智譜清言的回答中規中矩，有簡單的基礎信息，但還是專業度不足。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

長圖文、長語音，誰在搶跑多模態大模型

在大模型參數已經卷無可卷的當下，越來越多企業正在從細分方向突出重圍，以讓人們感覺大模型的好用之處。除了前文提及的長文本，多模態也是一個關鍵的研究方向。

對于人來說，多模態是一種十分自然的交互模式。但對于計算機來說，多模態卻是極其復雜且困難的。

例如，隨著CNN技術的突破，一度帶動了人臉識別、視頻識別技術的廣泛應用，準確率可以遠超人類，但該項技術卻難以在文本理解方面取得顯著的突破。直到2023年，大語言模型掀起了新一輪技術迭代，典型代表如ChatGPT，才使得AIGC再度向前邁進了一步，但以上多項技術突破，仍舊是以單模態見長。

所以可以認為，當下能夠處理更多模態信息的如文字、圖像、視頻、語音等多模態大模型，可以更加靈活自如的與人們交流互動，也就更加接近真正意義上的AGI。

4月底訊飛星火3.5的更新，就在努力朝這一方向演進。不久前商湯日日新5.0也剛剛更新，提升的核心指標也包括多模態能力，號稱圖文感知能力達到全球領先水平。通義千問與文心一言目前也均有多模態模型。Kimi方面，實際上在Sora于今年初驚艷亮相之后，其內部就在推進多模態模型的研發，其聯合創始人周昕宇表示，預計2024年會推出多模態模型及產品，但截至目前，相關產品仍未面世，可以說，在多模態能力方面，Kimi已經晚了一步。

鳳凰網科技也就目前已經發布的幾款大模型的多模態處理能力，進行了綜合實測。

比如我們上傳了一張小米su7發布會的PPT實拍圖，讓大模型對該頁PPT進行重點總結。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

訊飛星火準確的識別出了該張PPT中的重點信息，與此同時，對部分信息進行了推理，在多模態能力上呈現出了部分優勢。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

智譜也準確識別出PPT的信息，并在最后進行總結。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

商湯商量識別出了PPT中的主要文字信息，對于圖片的識別能力稍遜色了一點點。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

通義千問和商湯的表現相近，整理了圖片中的文字內容，但分析和歸類能力較弱。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

文心一言涉及了部分推理演繹，不過理解有部分錯誤，比如將800cltc續航里程和時速搞混了。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

再比如我們在日常生活中有非常多輔導孩子學習的場景，我們截取了一張初中數學題的圖片，交給大模型進行識別并給出解題思路。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

商湯商量識別出了文字內容，并進行了解題，但解題思路有誤，把長方形的長和寬搞錯了，直接給出了錯誤答案。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

訊飛星火不僅精準的識別出了圖片中的文字，并給出了十分精準且正確的解題思路。如果在日常輔導孩子學習的場景下，非常實用。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

通義千問、文心一言和智譜清言的解題思路基本相近，但邏輯上不是特別清晰，對于輔導來說，比較難教給孩子清晰、有邏輯的解題思路。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

同樣在圖文識別方面，我們上傳了2023年世界人工智能大會的議程，希望大模型能幫忙整理一份重點。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

文心一言識別的很全面細致，但歸納重點的能力稍遜。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

訊飛星火的內容識別凝練且主次分明，看起來更加方便。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

通義千問的信息提取較為全面，但缺乏對重要信息的篩選和過濾。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

商湯商量則將圖片中的所有文字進行了提取，基本是原封不動的進行了復述。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

智譜清言的識別最為豐富，對論壇信息進行了突出顯示。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

在音視頻識別層面，目前業內布局尚不多：

我們上傳了2020東京奧運會，乒乓球男單決賽樊振東與馬龍對決的視頻片段，讓大模型為我們整理下視頻的核心內容：

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

訊飛星火對該視頻內容進行了簡要解析，并復述了該段落的核心內容。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

智譜清言則直接表示無視頻分析能力。

打工人、寶媽、學生黨都能用上大模型？我們實測了6款國產大模型的實用性｜新視界

實際上，目前文心一言、通義千問、商湯商量等均不支持音視頻的上傳與解析。

在音視頻這類十分多見的應用場景中，訊飛星火已經有了顯著的領先性。

基因雖不同，但好用才是正義

當下，越來越多人開始追求大模型實用與否，尤其是在學習、辦公、日常生活等常見場景下的具體應用。

可以看到，在長文本、長圖文與長語音方面，幾款國產大模型已經基本上有了顯著差異，比如Kimi的確在長文本方面展現出了較強的能力，但遺憾的是，多模態能力的缺失，讓Kimi的使用場景有顯著的短板。

此外，加強后的商湯商量、訊飛星火，在多模態上已經比通義千問、文心一言的表現更亮眼一些，尤其是訊飛星火，本就有更強的邏輯推理能力和數學能力，加上多模態能力的提升，除了準確的識別文字，還能對音視頻文件進行處理，應用場景更為廣泛。

經過長文本識別與生成能力、多模態輸入和識別能力、數理能力等幾個維度，得出測試結果如下：

圖｜鳳凰網科技作者制作（注：白色星星為半顆星）

隨著大模型的競爭進入新一層，各家已不再盲目追求參數，對于許多人而言，大模型之爭，歸根結底是要回歸可用性，不然就是對算力資源的極大浪費。

當下，不管是大人輔導小孩學習、打工人整理會議記錄、還是學生黨整理學習筆記等應用場景，大模型正與人們的生活產生越來越多聯系，而告別無意義的內卷，為人們創造更多實用價值，才是大模型技術發展所追求的目標

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發布，不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息，謹防詐騙。如發現有害或侵權內容，請點擊一鍵舉報。

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：嶅山村夫 > 《人工智能ChatGPT爆紅》

舉報/認領

0條評論

發表

請遵守用戶評論公約

類似文章 更多

嶅山村夫

關注對話

TA的最新館藏

讀了這篇文章，我才知道一線教師寫教育論文到底該怎么寫
知網檢索已死，手動找文獻的苦日子被這款AI徹底終結了
審稿人最反感的5類論文，踩中一條就可能被退稿！
淡薄的人情味在教師間悄然蔓延
深圳的書店越來越沒意思了
班風懶散，早讀不出聲，厲害的班主任有一個共性：會反向要求學生

喜歡該文的人也喜歡更多

熱門閱讀換一換