久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

     嶅山村夫 2024-05-16 發布于安徽



    科技


    鳳凰網科技 《新視界》出品

    從卷參數、卷文本長度再到開卷多模態,國產大模型的角逐賽打的愈發激烈。

    特別是2024年初以來,“長文本”悄然走入大眾視野,在眾多晦澀技術用詞之外,讓不少用戶眼前一亮。

    今年3月,月之暗面的Kimi智能助手宣布可支持200萬字上下文,緊隨其后,通義千問免費開放1000萬字的長文檔處理功能;4月,訊飛星火也可支持長文本、長圖文、長語音,甚至還能進行超擬人語音對話、一句話聲音復刻。5月14日凌晨,OpenAI推出最新旗艦大模型GPT-4o,能夠對文本、音頻、圖像的任意組合作為輸入,并生成文本、音頻和圖像輸出。

    大模型能力競爭來到了新的水平線。

    不過,不論是模型參數,還是長文本能力,都并非以數字取勝。簡言之,大模型并非參數越大越好用,文本也并非越長,效果就越好。

    大模型到底好不好用,長文本的價值究竟幾何?為了解答這些疑問,鳳凰網科技對多款國產大模型進行了實測,橫向比較了Kimi、文心一言3.5、通義千問、訊飛星火3.5、智譜清言與商湯商量共6款國產大模型,以日常合同、保險賠付、學習輔導、會議資料整理與日常生活等垂直應用行業為具體案例,呈現6大國產大模型的差異之處。

    01

    長文本,好用還是雞肋?

    起初將長文本概念帶火的正是月之暗面,其旗下的Kimi智能助手主打的就是長文本。

    在月之暗面創始人楊植麟看來,通往通用人工智能(AGI)之路,無損的長上下文將會是一個很關鍵的基礎技術。

    目前,Kimi支持200萬字超長無損上下文,其相關負責人表示,長文本可進一步幫助打開對AI應用場景的想象力,包括完整代碼庫分析理解、可自主幫人類完成多步驟復雜任務的智能體Agent、不會遺忘關鍵信息的終身助理、真正統一架構的多模態模型等。

    當然,理論說明并不直觀,既然Kimi號稱有超強長文本能力,我們就來橫向對比下,以日常合同、保險賠付、日常會議等為例,Kimi與文心一言、通義千問、訊飛星火、商湯商量、智譜清言的差別所在。

    ● 長文本識別及篩選能力實測:

    我們在日常生活中有非常多合同使用的場景,而快速閱讀字數繁多的合同、整理要點是普遍痛點,我們以房屋租賃合同為例,測試了以上幾款產品在處理長文本上的能力。得到的結果如下:

    Kimi的回答詳盡且條理清晰,重點信息也做了突出顯示,把注意事項一一列舉了出來。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    訊飛星火的總結同樣對要點進行了提煉,并一一列舉了注意事項。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    通義千問的列舉詳盡,也對重點內容進行了標注。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    而文心一言的表現就略顯差一些了,邏輯性不強,對信息的提取不夠凝練。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    智譜清言同樣交出了一份合格的回答,涵蓋了核心重點內容。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    商湯商量分為對話大模型和文檔大模型,合同需要發給文檔大模型處理,兩個模型入口可能對用戶來說不是很方便,在處理結果上,商湯大模型給出的回答也較為全面。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    ● 長文本問答能力實測:

    我們以汽車出險賠付為例,參照平安保險機動車商業保險條款,了解事故發生后我們該如何進行保險理賠。

    Kimi的回答依舊條理清晰,可行性較高,基本上解決了機動車出現事故后該具體如何操作問題。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    訊飛星火的回答同樣邏輯清晰,雖沒有Kimi的解答那么細,但仍舊全盤列出了現場處理要點以及注意事項。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    文心一言的回復相對而言比較泛泛而談,無法一步到位直接解決當下的問題。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    通義千問的回答同樣有著不錯的實用性,基本涵蓋了事故發生后需要進行的操作。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    商湯商量的回答較為全面,依然需要在文檔大模型中單獨使用,操作上略有不便。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    智譜清言在此問題上的回答雖然相對簡略,但同樣涵蓋了核心步驟。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    長文本生成能力實測:

    在具體的應用場景中,長文本除了識別與歸納,最核心的功能,就是生成功能了。這里我們設定需要這些大模型生成一份人工智能產業報告(2023)。

    在長文本生成方面,Kimi仍舊呈現出了顯著的專業性,不僅內容探討方向更加豐富,且專業內容扎實,實用度高,幾乎可直接拿來做報告的初步提綱。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    訊飛星火的文本生成能力同樣可圈可點,雖在條理性上略遜Kimi一籌,但展現出了更強的文采能力。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    相比較之下,文心一言的學術性能力就稍遜一籌,產出的內容較為簡單、基礎,很難直接使用。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    通義千問的回答稍微有一點文不對題,雖然給出了一張封面,但具體內容可用性較弱。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    商湯商量生成的報告,在結構上比較完整,并涵蓋了當前領域中的專業術語。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    在長文本生成方面,智譜清言的回答中規中矩,有簡單的基礎信息,但還是專業度不足。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    02

    長圖文、長語音,誰在搶跑多模態大模型

    在大模型參數已經卷無可卷的當下,越來越多企業正在從細分方向突出重圍,以讓人們感覺大模型的好用之處。除了前文提及的長文本,多模態也是一個關鍵的研究方向。

    對于人來說,多模態是一種十分自然的交互模式。但對于計算機來說,多模態卻是極其復雜且困難的。

    例如,隨著CNN技術的突破,一度帶動了人臉識別、視頻識別技術的廣泛應用,準確率可以遠超人類,但該項技術卻難以在文本理解方面取得顯著的突破。直到2023年,大語言模型掀起了新一輪技術迭代,典型代表如ChatGPT,才使得AIGC再度向前邁進了一步,但以上多項技術突破,仍舊是以單模態見長。

    所以可以認為,當下能夠處理更多模態信息的如文字、圖像、視頻、語音等多模態大模型,可以更加靈活自如的與人們交流互動,也就更加接近真正意義上的AGI。

    4月底訊飛星火3.5的更新,就在努力朝這一方向演進。不久前商湯日日新5.0也剛剛更新,提升的核心指標也包括多模態能力,號稱圖文感知能力達到全球領先水平。通義千問與文心一言目前也均有多模態模型。Kimi方面,實際上在Sora于今年初驚艷亮相之后,其內部就在推進多模態模型的研發,其聯合創始人周昕宇表示,預計2024年會推出多模態模型及產品,但截至目前,相關產品仍未面世,可以說,在多模態能力方面,Kimi已經晚了一步。

    鳳凰網科技也就目前已經發布的幾款大模型的多模態處理能力,進行了綜合實測。

    比如我們上傳了一張小米su7發布會的PPT實拍圖,讓大模型對該頁PPT進行重點總結。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    訊飛星火準確的識別出了該張PPT中的重點信息,與此同時,對部分信息進行了推理,在多模態能力上呈現出了部分優勢。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    智譜也準確識別出PPT的信息,并在最后進行總結。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    商湯商量識別出了PPT中的主要文字信息,對于圖片的識別能力稍遜色了一點點。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    通義千問和商湯的表現相近,整理了圖片中的文字內容,但分析和歸類能力較弱。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    文心一言涉及了部分推理演繹,不過理解有部分錯誤,比如將800cltc續航里程和時速搞混了。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    再比如我們在日常生活中有非常多輔導孩子學習的場景,我們截取了一張初中數學題的圖片,交給大模型進行識別并給出解題思路。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    商湯商量識別出了文字內容,并進行了解題,但解題思路有誤,把長方形的長和寬搞錯了,直接給出了錯誤答案。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    訊飛星火不僅精準的識別出了圖片中的文字,并給出了十分精準且正確的解題思路。如果在日常輔導孩子學習的場景下,非常實用。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    通義千問、文心一言和智譜清言的解題思路基本相近,但邏輯上不是特別清晰,對于輔導來說,比較難教給孩子清晰、有邏輯的解題思路。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    同樣在圖文識別方面,我們上傳了2023年世界人工智能大會的議程,希望大模型能幫忙整理一份重點。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    文心一言識別的很全面細致,但歸納重點的能力稍遜。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    訊飛星火的內容識別凝練且主次分明,看起來更加方便。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    通義千問的信息提取較為全面,但缺乏對重要信息的篩選和過濾。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    商湯商量則將圖片中的所有文字進行了提取,基本是原封不動的進行了復述。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    智譜清言的識別最為豐富,對論壇信息進行了突出顯示。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    在音視頻識別層面,目前業內布局尚不多:

    我們上傳了2020東京奧運會,乒乓球男單決賽樊振東與馬龍對決的視頻片段,讓大模型為我們整理下視頻的核心內容:

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    訊飛星火對該視頻內容進行了簡要解析,并復述了該段落的核心內容。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    智譜清言則直接表示無視頻分析能力。

    打工人、寶媽、學生黨都能用上大模型?我們實測了6款國產大模型的實用性|新視界

    實際上,目前文心一言、通義千問、商湯商量等均不支持音視頻的上傳與解析。

    在音視頻這類十分多見的應用場景中,訊飛星火已經有了顯著的領先性。

    03

    基因雖不同,但好用才是正義

    當下,越來越多人開始追求大模型實用與否,尤其是在學習、辦公、日常生活等常見場景下的具體應用。

    可以看到,在長文本、長圖文與長語音方面,幾款國產大模型已經基本上有了顯著差異,比如Kimi的確在長文本方面展現出了較強的能力,但遺憾的是,多模態能力的缺失,讓Kimi的使用場景有顯著的短板。

    此外,加強后的商湯商量、訊飛星火,在多模態上已經比通義千問、文心一言的表現更亮眼一些,尤其是訊飛星火,本就有更強的邏輯推理能力和數學能力,加上多模態能力的提升,除了準確的識別文字,還能對音視頻文件進行處理,應用場景更為廣泛。

    經過長文本識別與生成能力、多模態輸入和識別能力、數理能力等幾個維度,得出測試結果如下:

    圖|鳳凰網科技作者制作(注:白色星星為半顆星)

    圖|鳳凰網科技作者制作(注:白色星星為半顆星)

    隨著大模型的競爭進入新一層,各家已不再盲目追求參數,對于許多人而言,大模型之爭,歸根結底是要回歸可用性,不然就是對算力資源的極大浪費。

    當下,不管是大人輔導小孩學習、打工人整理會議記錄、還是學生黨整理學習筆記等應用場景,大模型正與人們的生活產生越來越多聯系,而告別無意義的內卷,為人們創造更多實用價值,才是大模型技術發展所追求的目標

      本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發現有害或侵權內容,請點擊一鍵舉報。
      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 精品无码国产自产在线观看水浒传| 中文字幕亚洲人妻系列| 中文字幕理伦午夜福利片| 综合色一色综合久久网| 亚洲理论在线A中文字幕| 肉大捧一进一出免费视频| 99草草国产熟女视频在线| 日本55丰满熟妇厨房伦| 久久久这里只有精品10| 不卡高清AV手机在线观看| 老子午夜精品无码| 亚洲AV高清一区二区三区尤物| 无码天堂亚洲国产AV| 免费A级毛片中文字幕| 九九电影网午夜理论片| 日本无遮挡吸乳视频| 精品一区二区三区在线成人| 久久久久久伊人高潮影院| 亚洲AV无码AV在线影院 | 亚洲日韩精品无码一区二区三区| 一区二区三区精品视频免费播放| 猫咪AV成人永久网站在线观看| 男女无遮挡XX00动态图120秒| 亚洲AV日韩AV不卡在线观看 | 国产AV无码专区亚洲AWWW | jizzjizz少妇亚洲水多| 国产成人不卡一区二区| 国产高清一区二区不卡| 久久香蕉国产线看观看怡红院妓院| 美女被强奷到抽搐的动态图| 国产日产精品系列| 午夜美女裸体福利视频| 久久精品国产中文字幕| 2021国产精品视频网站| 欧美成人一卡二卡三卡四卡| 国产成人免费高清激情视频| 国产精品 视频一区 二区三区| 午夜久久久久久禁播电影| 国内精品无码一区二区三区| 在线 欧美 中文 亚洲 精品| 男人狂桶女人高潮嗷嗷|