多模態(tài)AI產(chǎn)業(yè)鏈全景解析

真友書(shū)屋 2024-11-13

展開(kāi)全文

糖芯兒 / 今天12:58 發(fā)布

當(dāng)前AI大模型從單模態(tài)向多模態(tài)持續(xù)演進(jìn)，成為人工智能發(fā)展明確趨勢(shì)。

海內(nèi)外大模型相關(guān)研究與產(chǎn)品競(jìng)相涌現(xiàn)，進(jìn)入百舸爭(zhēng)流的新時(shí)代，指令和語(yǔ)料得以轉(zhuǎn)化為現(xiàn)實(shí)生產(chǎn)力，垂域應(yīng)用遍地開(kāi)花。

隨著AI感知交互和生成能力快速發(fā)展，多模態(tài)加速賦能千行百業(yè)，有望推動(dòng)人工智能全面邁進(jìn)“通感”時(shí)代。

01多模態(tài)AI行業(yè)概覽

人工智能領(lǐng)域研究致力于以技術(shù)實(shí)現(xiàn)計(jì)算機(jī)對(duì)于人類(lèi)認(rèn)知世界方式的高度效仿。

AI模型走向多模態(tài)必然性的三大因素包括跨模態(tài)任務(wù)需求+跨模態(tài)數(shù)據(jù)融合+對(duì)人類(lèi)認(rèn)知能力的模擬。

單模態(tài)交互是一個(gè)局限的、并不完整的模型，而“多模態(tài)”發(fā)展趨勢(shì)已十分明朗。

單模態(tài)模型的數(shù)據(jù)輸入通常僅限于一種模態(tài)的信息，因此它只需處理單一類(lèi)型的數(shù)據(jù)。這類(lèi)模型是專(zhuān)門(mén)針對(duì)特定類(lèi)型的數(shù)據(jù)設(shè)計(jì)的，并應(yīng)用于文本處理、圖像處理等領(lǐng)域。

多模態(tài)大模型具備處理多樣化數(shù)據(jù)格式的能力。其核心是處理和整合不同類(lèi)型的數(shù)據(jù)源，可以捕獲跨模態(tài)的復(fù)雜關(guān)系，使機(jī)器能夠更全面地理解和分析信息，從而在各種任務(wù)中表現(xiàn)得更好。

借助大規(guī)模數(shù)據(jù)集進(jìn)行訓(xùn)練與推理，多模態(tài)的目標(biāo)在于提供全面、精確的分析結(jié)果，其中包括認(rèn)知模塊、對(duì)準(zhǔn)模塊、模式模塊，實(shí)現(xiàn)對(duì)多模態(tài)數(shù)據(jù)的全面理解和應(yīng)用。

多模態(tài)AI以模態(tài)融合為核心技術(shù)環(huán)節(jié)，圍繞“表征-翻譯-對(duì)齊-融合-聯(lián)合學(xué)習(xí)”五大技術(shù)環(huán)節(jié)，解決實(shí)際場(chǎng)景下復(fù)雜問(wèn)題的多模態(tài)解任務(wù)。

其應(yīng)用場(chǎng)景按架構(gòu)可分為視頻分類(lèi)、事件檢測(cè)、情緒分析、視覺(jué)問(wèn)答、情感分析、語(yǔ)音識(shí)別、跨模態(tài)搜索、圖像標(biāo)注、跨模態(tài)嵌入、轉(zhuǎn)移學(xué)習(xí)、視頻解碼、圖像合成等。

深度學(xué)習(xí)為多模態(tài)研究帶來(lái)了巨大的推動(dòng)力，多模態(tài)模型已經(jīng)達(dá)到了前所未有的準(zhǔn)確性和復(fù)雜性。

當(dāng)前階段多模態(tài)AI的發(fā)展受益于四大關(guān)鍵因素的推動(dòng)：1）大規(guī)模的多模態(tài)數(shù)據(jù)集；2）更強(qiáng)大的計(jì)算能力；3）研究者也開(kāi)始掌握更為先進(jìn)的視覺(jué)特征提取技術(shù)；4）出現(xiàn)了強(qiáng)大的語(yǔ)言特征抽取模型，包括Transformer架構(gòu)。

02多模態(tài)AI市場(chǎng)格局梳理

2024年以來(lái)，全球AI多模態(tài)模型加速演進(jìn)。技術(shù)側(cè)方面來(lái)看大廠聚焦多模態(tài)能力提升，同時(shí)開(kāi)源模型加速迭代；價(jià)格側(cè)方面，海內(nèi)外大模型“提質(zhì)降價(jià)”趨勢(shì)顯著，AI應(yīng)用成本端持續(xù)優(yōu)化。

谷歌Gemini1.5Pro、MetaLlama3、OpenAIGPT-4o等多模態(tài)大模型陸續(xù)發(fā)布，在語(yǔ)音、視頻生成方面加速演進(jìn)。

OpenAI Sora大模型的發(fā)布標(biāo)志著AI視頻生成領(lǐng)域的新突破，進(jìn)一步推動(dòng)了多模態(tài)大模型的發(fā)展，引領(lǐng)全球AI大廠多模態(tài)進(jìn)程進(jìn)入快車(chē)道。

沙利文發(fā)布的《2024年中國(guó)大模型能力評(píng)測(cè)》對(duì)國(guó)內(nèi)主流的15個(gè)大模型進(jìn)行了橫評(píng)，將中國(guó)大模型分成了三個(gè)梯隊(duì)。

百度、騰訊、阿里等互聯(lián)網(wǎng)大廠旗下大模型位于第一梯隊(duì)，綜合表現(xiàn)更為優(yōu)異。

百度文心一言大模型：2023年3月，百度正式推出大模型文心一言，10月發(fā)布對(duì)標(biāo)GPT-4的4.0版本；2024年4月，文心大模型4.0工具版發(fā)布，實(shí)現(xiàn)了基礎(chǔ)模型的全面升級(jí)，在理解、生成、邏輯和記憶能力上都有顯著提升。

阿里云通義千問(wèn)：2023年4月，阿里云推出了超十萬(wàn)億參數(shù)量的自研大語(yǔ)言模型通義千問(wèn)。2024年5月9日，阿里云正式發(fā)布通義千問(wèn)2.5大模型，其性能對(duì)標(biāo)GPT-4Turbo。相比上一代2.1版本，通義千問(wèn)2.5在理解能力、邏輯推理、指令遵循、代碼能力上分別提升9%、 16%、19%、10%。

騰訊在多模態(tài)AI領(lǐng)域采取的是全面押注合成數(shù)據(jù)與多模態(tài)AI的戰(zhàn)略，開(kāi)源模型包括VITA和混元系列。

華為旗下的盤(pán)古系列AI大模型已經(jīng)發(fā)展到5.0版本，采用了“5+N+X”三層架構(gòu)，即L0層的5個(gè)基礎(chǔ)大模型、L1層的N個(gè)行業(yè)通用大模型、以及L2層可以讓用戶(hù)自主訓(xùn)練的更多細(xì)化場(chǎng)景模型。

天工大模型：2023年4月17日，昆侖萬(wàn)維發(fā)布了自研雙千億級(jí)大語(yǔ)言模型天工1.0。2024年4月17日，昆侖萬(wàn)維宣布天工3.0正式開(kāi)啟公測(cè)，采用4千億級(jí)參數(shù)MoE混合專(zhuān)家模型，是全球模型參數(shù)最大、性能最強(qiáng)的MoE模型之一。

豆包大模型：是字節(jié)跳動(dòng)推出的一款自研大模型，于2024年5月15日在火山引擎原動(dòng)力大會(huì)上正式發(fā)布。眾多企業(yè)已經(jīng)接入火山引擎的大模型服務(wù)，包括吉利汽車(chē)、賽力斯、vivo、小米、華碩等來(lái)自汽車(chē)、手機(jī)、PC等多個(gè)行業(yè)的企業(yè)。

智譜AI：全棧自主創(chuàng)新GLM-4全家桶，在多模態(tài)理解、復(fù)雜長(zhǎng)文本、和自動(dòng)解決復(fù)雜任務(wù)上都有較大提升，全方面對(duì)標(biāo)GPT-4。11月8日，智譜AI宣布旗下AI視頻生成產(chǎn)品“清影”進(jìn)行全面升級(jí)，從純視覺(jué)生成邁入“有聲視頻”階段。新推出的音效模型CogSound，可以根據(jù)視頻內(nèi)容自動(dòng)生成相應(yīng)的音效，包括環(huán)境音、物體碰撞以及交通工具聲等。

10月，中文通用大模型綜合性測(cè)評(píng)基準(zhǔn)（SuperCLUE）發(fā)布了最新中文多模態(tài)理解測(cè)評(píng)基準(zhǔn)報(bào)告。

03算力：多模態(tài)AI關(guān)鍵基石

多模態(tài)大模型推動(dòng)AI邁向“通感”時(shí)代，語(yǔ)音和圖像數(shù)據(jù)大小顯著高于文本，多模態(tài)大模型拉動(dòng)全球算力需求快速增長(zhǎng)。

國(guó)內(nèi)領(lǐng)先大模型廠商大多自建智算中心，使用自有的AI算力訓(xùn)練大模型；國(guó)內(nèi)AI大模型初創(chuàng)公司受制于創(chuàng)業(yè)初期資金不足，部分廠商租賃海外云廠商AI算力進(jìn)行自研AI大模型訓(xùn)練；同時(shí)訓(xùn)練垂類(lèi)模型的部分AI應(yīng)用廠商亦會(huì)租賃海外云廠商AI算力進(jìn)行調(diào)優(yōu)。

算力產(chǎn)業(yè)鏈核心環(huán)節(jié)包括服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備、芯片、IDC建設(shè)、光通信
等。

國(guó)內(nèi)服務(wù)器品牌廠商在AI服務(wù)器市場(chǎng)占據(jù)優(yōu)勢(shì)。據(jù)IDC數(shù)據(jù)，2023年浪潮信息、新華三、寧暢銷(xiāo)售額位居前三，占據(jù)70%以上的市場(chǎng)份額。

中科曙光是亞洲第一大高性能計(jì)算機(jī)廠商，AI服務(wù)器主要采用海光/寒武紀(jì)芯片，已和百度“文心一言”展開(kāi)合作，為其產(chǎn)業(yè)化應(yīng)用提供算力支持。

03多模態(tài)AI應(yīng)用端

隨著AI大模型進(jìn)一步朝多模態(tài)方向升級(jí)，廣泛的數(shù)據(jù)交互方式和豐富的應(yīng)用場(chǎng)景為提升用戶(hù)體驗(yàn)提供了無(wú)限可能性。

AI應(yīng)用主要方向包括已推出產(chǎn)品并開(kāi)啟商業(yè)化的AI應(yīng)用領(lǐng)域：工具、教育、音樂(lè)、校對(duì)、營(yíng)銷(xiāo)等；還有受益于AI視頻生成等AI多模態(tài)模型的游戲、影視等 IP 開(kāi)發(fā)領(lǐng)域；此外AI眼鏡等終端也成為多模態(tài)AI的重要載體。

AI生成視頻：AI生成視頻技術(shù)持續(xù)迭代，加速應(yīng)用落地和商業(yè)模式創(chuàng)新。萬(wàn)興科技的萬(wàn)興“天幕”是國(guó)內(nèi)首個(gè)專(zhuān)注于以視頻創(chuàng)意應(yīng)用為核心的百億級(jí)參數(shù)多媒體大模型；虹軟科技利用ArcMuse技術(shù)引擎產(chǎn)生圖片、視頻、數(shù)字人以及3D內(nèi)容等，為XR眼鏡載體提供便捷、優(yōu)質(zhì)的內(nèi)容生成引擎；因賽集團(tuán)InsightGPT目前可生成20秒以上的視頻。

AI+游戲：游戲作為集合了文字、圖像、聲音、視頻等內(nèi)容形式的商業(yè)化應(yīng)用，有望更好在研發(fā)端利用多模態(tài)大模型的能力，同時(shí)一些基于AI的NPC等設(shè)計(jì)或進(jìn)一步提升用戶(hù)體驗(yàn)和付費(fèi)意愿，打開(kāi)游戲整體收入增量空間。

AI+ 傳媒/影視 IP/音樂(lè)：AI多模態(tài)技術(shù)有望帶來(lái)動(dòng)畫(huà)、影視、互動(dòng)影視游戲、音樂(lè)等內(nèi)容開(kāi)發(fā)提速，帶來(lái)商業(yè)化增量。中文在線10月發(fā)布了中文逍遙大模型，基于創(chuàng)作者的想法靈感，“中文逍遙”大模型大幅提升創(chuàng)作者的效率，可實(shí)現(xiàn)一鍵生成萬(wàn)字，一張圖寫(xiě)出一部小說(shuō)，一次讀懂100萬(wàn)字小說(shuō)；芒果超媒技術(shù)團(tuán)隊(duì)已自研開(kāi)發(fā)AIGC相關(guān)技術(shù)，可圍繞芒果內(nèi)容IP生成短視頻內(nèi)容，有效降低平臺(tái)運(yùn)營(yíng)宣傳與獲客成本；世紀(jì)天鴻、奧飛娛樂(lè)、閱文集團(tuán)、貓眼娛樂(lè)、光線傳媒、上海電影、掌閱科技、華策影視、捷成股份、易點(diǎn)天下、盛絡(luò)等都在細(xì)分領(lǐng)域有所布局。

AI+教育/電商：AIGC正在加速實(shí)現(xiàn)教育產(chǎn)品功能創(chuàng)新、課程研發(fā)降本增收。例如，語(yǔ)言學(xué)習(xí)應(yīng)用程序多鄰國(guó)基于GPT-4大模型，推出DuolingoMax訂閱服務(wù)，國(guó)內(nèi)AI教育產(chǎn)品繼續(xù)更新迭代，有望逐步帶來(lái)增量；電商方面，AI導(dǎo)購(gòu)加速落地，實(shí)現(xiàn)降本增效。該環(huán)節(jié)相關(guān)布局廠商包括佳發(fā)教育、南方傳媒、皖新傳媒、盛通股份、鷗瑪軟件、光云科技、值得買(mǎi)、壹網(wǎng)壹創(chuàng)、東方甄選、焦點(diǎn)科技等。

AI+醫(yī)療：在醫(yī)保控費(fèi)和分級(jí)診療的大背景下，AI能夠通過(guò)提升人效、精細(xì)化運(yùn)營(yíng)幫助醫(yī)院實(shí)現(xiàn)降本增效，同時(shí)幫助基層醫(yī)院提高醫(yī)療能力。AI大模型所嵌入的產(chǎn)品有望實(shí)現(xiàn)較好的落地。未來(lái)多模型AI有望在成像技術(shù)、疾病篩查與預(yù)測(cè)、手術(shù)與康復(fù)等場(chǎng)景下持續(xù)發(fā)力。潤(rùn)達(dá)醫(yī)療、嘉和美康、衛(wèi)寧健康、創(chuàng)業(yè)慧康、迪安診斷等已在“AI+醫(yī)療”領(lǐng)域率先布局。

AI+辦公：在AI領(lǐng)域，語(yǔ)音輸入和圖像輸入意味著更自然便捷的人機(jī)交互方式和更廣泛的應(yīng)用場(chǎng)景，或進(jìn)一步革新辦公產(chǎn)品。當(dāng)前國(guó)內(nèi)“AI+辦公”類(lèi)廠商多個(gè)產(chǎn)品進(jìn)入測(cè)試階段，監(jiān)管落地后相關(guān)產(chǎn)品商業(yè)化有望加速。金山辦公發(fā)布的具備大語(yǔ)言模型能力的生成式人工智能應(yīng)用，名為“WPS AI”，這也是國(guó)內(nèi)協(xié)同辦公賽道首個(gè)類(lèi)ChatGPT式應(yīng)用。彩訊股份、致遠(yuǎn)互聯(lián)、科大訊飛等在該領(lǐng)域加速布局。

當(dāng)前全球開(kāi)啟新一輪AI技術(shù)競(jìng)賽。大型科技公司一改傳統(tǒng)AI解決方案的商業(yè)模式，聚焦AI大語(yǔ)言模型研發(fā)，并向更前沿的多模態(tài)大模型深耕。在AI浪潮持續(xù)爆發(fā)背景下，多模態(tài)有望帶動(dòng)產(chǎn)業(yè)鏈各環(huán)節(jié)全面發(fā)展。樂(lè)晴智庫(kù)精選

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：真友書(shū)屋 > 《題材》

舉報(bào)/認(rèn)領(lǐng)