久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    國內10款大語言模型測評-競品分析

     你好122 2024-06-29

    國內大公司現在基本上都研發了自己的大模型,都支持很多功能。之前也有不少人對這些模型進行了分析,但都是單一的產品。這篇文章,我們從多個維度,以競品分析的方式對國內的幾個大模型進行比較一下。

    國內10款大語言模型測評-競品分析

    一、競品分析目的與意義

    AI 大模型的英文含義是:Large AI Models。他的的定義通常指的是具有大量參數和復雜結構的人工智能模型,這些模型利用深度學習技術,通過大規模的數據訓練,能夠在多個任務上表現出優越的性能。

    由于市面上涌現了各種各樣的大模型,對于我們用戶來說,并不知道哪種大模型比較適合我們,或者說哪種比較好用,這次我用六個維度來測評一下國內十款大模型,讓大家可以根據自己的需求,來選擇適合自己的模型來使用。

    二、在研究大模型之前,讓我們來簡單了解一下這些大模型里面的一些基本的定義

    1)大語言模型(Large Language Model, LLM)是一種專門用于處理和生成自然語言文本的人工智能模型,它有大量參數和復雜結構,能夠理解、生成和翻譯自然語言。大語言模型通常通過在大規模文本數據上進行訓練,學習語言的各種模式和特征。

    2)多模態大模型(Multimodal Models)是指能夠處理和理解多種類型數據(如文本、圖像、音頻、視頻等)的人工智能模型。這些模型通過集成不同模態的數據,能夠更全面地理解和生成復雜信息。這種能力使多模態大模型在各種應用場景中表現出色,例如自然語言處理、圖像識別、語音識別和生成、以及多模態交互等。

    3)通用語言模型(General Language Models)是一個廣泛的術語,通常用來描述能夠處理多種語言任務的模型,而不論其規模大小。GLM可以包含從小型到大型的各種模型,關鍵在于它們具備處理自然語言的通用能力。這些模型可能專注于特定類型的任務,如問答系統、文本分類或語言生成,但它們通常設計得足夠靈活,以適應多種不同的應用場景。

    三、競品分析

    1、模型選擇

    本次主要分析國內使用率比較高的通義千問、文心一言、kimi等10個左右的大模型,通過日常生活、工作流程等方式做對比和總結說明,分析出幾款相對比較好用的大模型。

    國內10款大語言模型測評-競品分析

    2、調研維度

    為了更直觀測試這些模型在實際場景下的表現,我們收集整理一套場景數據集,主要包括:

    是否能夠聯網獲取信息、知識理解、上傳文本分析、文生圖、邏輯推理、休閑問答(多倫對話能力)等六個方向進行調研

    3、調研過程

    給每個分析角度一個規則,分析這些模型的回答是否能按照這些規則輸出相對穩定的回答,并對這些回答給出一個相對合理的分數。

    基本的規則為:

    由于已經上線的大模型已經屬于相對完善的模型,所以我根據模型的回答,分析回答后得出:回答是否“不滿足預期”、“符合預期”和“高于預期”

    • 不滿足預期的標準為:需求不滿足(包括:部分滿足和部分不滿足)、內容質量相關(包括:內容不全面、語句前后不通、信息前后不一致、有危害性的信息、還有一些不太符合要求的格式)

    • 高于預期的標準為:語意正確、格式美觀、沒有那些危險有害偏激的信息、有提煉的總結、有一些推理的過程等等。

    評分標準:(滿分10分)

    • 不滿足預期:需求不滿足的比如回答與問題無關的直接0分、有高危害信息內容:0分、內容不全面:-1分、語句前后不通順:-1分、信息前后不一致:-1分、有偏見性的行為:-1分、格式不符合:-1分

    • 高于預期:語意正確:+1分、格式分段/分點合理美觀:+1分、有提煉總結:+1分、有推理過程等:+1分

    1)是否能夠聯網獲取信息

    國內10款大語言模型測評-競品分析

    總結:在進行了一系列的測試之后,測試結果顯示,除了百小應未能聯網外,其他所有模型都有聯網功能,豆包、文心一言、萬知在格式是也比較美觀合理。豆包在需求之外還進行了問題拓展,所以分數較高。

    2)知識理解

    國內10款大語言模型測評-競品分析

    總結:在進行了一系列的測試之后,測試結果顯示,所有模型均能回答出所提出的問題,但是,智普AI和萬知可以在需求滿足,分段分點有總結的情況下,全面的回答出了問題。所以分數較高

    3)上傳文本分析

    國內10款大語言模型測評-競品分析

    總結:在進行了一系列的測試之后,測試結果顯示,除了訊飛星火、智普AI、萬知、360智腦基本都能滿足需求,而kimi大模型邏輯清晰、分段分點回答、結尾也有對全文的總結,所以分數較高。

    4)文生圖

    國內10款大語言模型測評-競品分析

    總結:在進行了一系列的測試之后,測試結果顯示,除了通義千問、文心一言、豆包和騰訊元寶其余模型均不能直接生成圖片。

    5)邏輯推理

    國內10款大語言模型測評-競品分析

    總結:在進行了一系列的測試之后,測試結果顯示,所有模型均能回答正確,通義千問、文心一言、訊飛星火、騰訊元寶的答案既滿足需求答案正確、也有推理過程格式分點、分段有合理性,所以分數較高。

    6)休閑問答(多倫對話能力)

    國內10款大語言模型測評-競品分析

    總結:在進行了一系列的測試之后,測試結果顯示,大多數模型都能滿足需求,有很多模型都自稱AI,非常有AI感,少數模型,比如文心一言、豆包與之對話,讓人感覺對面是您的朋友,沒有AI的距離感,讓人感覺很舒適。所以得分較高。

    四、總結分析

    國內10款大語言模型測評-競品分析

    總的排名為:

    1、文心一言(8.2) 2、騰訊元寶(7.8) 3、豆包(7.7) 4、通義千問(7.5) 5、kimi(6.5) 6、智譜AI(5.3) 7、訊飛星火(5.2) 萬知(5.2) 9、白小應 360智腦。(4.5)

    以上排名均為本人對大模型的主觀判斷,謹代表自己。不代表任何官方和別人哈。

    最后,我們期待國內AI企業能持續引領技術創新,深化行業應用,為社會創造更多價值。展望未來,讓我們共同期待AI技術帶來的無限可能,攜手開啟智能新時代的大門。

    本文由 @貝琳_belin 原創發布于人人都是產品經理。

    題圖來自Unsplash,基于CC0協議

    該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務

      本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發現有害或侵權內容,請點擊一鍵舉報。
      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 国产办公室秘书无码精品99| 国产日产欧产精品精品软件| 婷婷综合久久中文字幕| 国产真人无码作爱视频免费 | 成人AV无码一区二区三区| 国产精品中文字幕久久| 成年视频人免费网站动漫在线| 精精国产XXXX视频在线播放| 亚洲一区二区精品极品| 影音先锋2020色资源网| 日韩有码中文字幕av| 四虎国产精品成人| 久久国产免费观看精品3| 四虎永久地址WWW成人久久| 最新国产精品久久精品| 女高中生强奷系列在线播放| 亚洲国产精品无码久久98| 日本高清中文字幕免费一区二区| 国产精品毛片无遮挡高清| 亚洲欧美人成网站在线观看看| 亚洲性色AV一区二区三区| 国产亚洲精品AA片在线播放天| 男人把女人桶到喷白浆的软件免费 | 18禁午夜宅男成年网站| 下面一进一出好爽视频| 在线观看国产成人AV天堂| 久久综合亚洲色一区二区三区| 无码天堂亚洲国产AV| 在线视频中文字幕二区| 美女内射视频WWW网站午夜| 天天做天天爱夜夜爽导航| AV老司机亚洲精品天堂| 国产萌白酱喷水视频在线观看| 国产不卡在线一区二区| 国产乱子伦一区二区三区| 好大好深好猛好爽视频| 日韩中文字幕高清有码| 日本丶国产丶欧美色综合| 粗壮挺进邻居人妻无码| 精品偷拍一区二区三区| 中文丝袜人妻一区二区|