笑容 2023-03-23 19:05:53 本篇文章轉(zhuǎn)自楊長(zhǎng)雍大佬的分析。 理解chatgpt人工智能大浪潮帶來(lái)的真正產(chǎn)業(yè)機(jī)會(huì),首先要深刻理解李彥宏前段那段話: 一是MAAS通用大模型。OPENAI公司做出的Chatgpt、百度公司做出的文心一言都屬于這種。通用大模型在Chatgpt出現(xiàn)之前,很多研究者都認(rèn)為這個(gè)方向走不通,OPENAI解決了從0到1的問(wèn)題,現(xiàn)在越來(lái)越多的大公司都加入進(jìn)來(lái)開(kāi)始攻關(guān)了,通用大模型的研發(fā)已經(jīng)成為各國(guó)新一輪技術(shù)競(jìng)爭(zhēng)的核心領(lǐng)域。 通用大模型需要龐大的算力、數(shù)據(jù)、算法訓(xùn)練做支撐,是燒錢的活,只有超級(jí)大公司能做。OPENAI背后微軟投資了上百億美金,在中國(guó)也只有百度、騰訊、阿里、360這些既有數(shù)據(jù)又有錢又有人的公司才能做。 通用大模型類似于互聯(lián)網(wǎng)時(shí)代的操作系統(tǒng),比如WINDOWS、安卓、IOS操作系統(tǒng),是人工智能的底座,實(shí)際上是不會(huì)同時(shí)存在太多的。因?yàn)楸旧肀趬緲O高,先發(fā)者又保有優(yōu)勢(shì),相互競(jìng)爭(zhēng)會(huì)非常激烈,最終只會(huì)剩下幾家大的,就看誰(shuí)做的最好。目前中國(guó)最早推出的通用大模型是百度的文心一言,阿里、百度等大公司也不得不跟進(jìn)人工智能這次科技革命,相信未來(lái)中國(guó)也會(huì)有幾家通用大模型。 通用大模型的運(yùn)行和服務(wù)都在云上,通用大模型公司就是服務(wù)本身,文心一言通過(guò)百度智能云對(duì)外提供服務(wù),chatGPT通過(guò)微軟云對(duì)外提供服務(wù),這對(duì)云計(jì)算的要求很高,模型、框架、芯片、應(yīng)用必須高度融合。 這個(gè)方向存在很多的投資機(jī)會(huì),比如AI芯片、算力、云計(jì)算、光通信、大模型本身,但不是今天討論的重點(diǎn)。 二是行業(yè)大模型,即細(xì)分垂直行業(yè)大模型。這是通用大模型和企業(yè)之間的中間層。他們可以基于對(duì)行業(yè)的洞察,調(diào)用通用大模型能力,為行業(yè)客戶提供解決方案。拓爾思就是媒體資訊、網(wǎng)絡(luò)輿情、產(chǎn)業(yè)大腦等多個(gè)細(xì)分領(lǐng)域的行業(yè)大模型,這個(gè)是今天討論的重點(diǎn),后面再說(shuō)。 三是應(yīng)用開(kāi)發(fā)。基于現(xiàn)有的文字、圖片、語(yǔ)音視頻生成的能力可以開(kāi)發(fā)出今天還無(wú)法想象的應(yīng)用。在 AI時(shí)代、在大模型時(shí)代,也會(huì)出現(xiàn)這種現(xiàn)象級(jí)的應(yīng)用,只不過(guò)它是基于大模型來(lái)開(kāi)發(fā)的。很久前分析的萬(wàn)興科技就是這一類應(yīng)用的代表。 高質(zhì)量行業(yè)大模型不可或缺,意義十分重大,是人工智能商業(yè)化落地的基礎(chǔ)。 通用大模型作為操作系統(tǒng),雖然有良好的泛化能力,能嫁接到所有的行業(yè)和公司上面,但是也有2個(gè)非常明顯的缺點(diǎn):一是知識(shí)覆蓋面廣但是深度不夠。二是在匹配下游企業(yè)具體需求上不精準(zhǔn)。 造成這2個(gè)缺點(diǎn)的原因大家可能都清楚。一是行業(yè)數(shù)據(jù)壁壘。比如在金融、政府、媒體、醫(yī)療等特定領(lǐng)域的知識(shí)并不公開(kāi),開(kāi)放度很低,有些還涉及保密,通用大模型沒(méi)有辦法獲取這些數(shù)據(jù)并進(jìn)行訓(xùn)練,就不具備對(duì)專業(yè)業(yè)務(wù)場(chǎng)景的理解能力。二是不同行業(yè)不同企業(yè)的需求各不相同,通用大模型只能提供通用的場(chǎng)景應(yīng)用,沒(méi)有辦法對(duì)接所有企業(yè)來(lái)進(jìn)行深度適配,商業(yè)化就無(wú)法精準(zhǔn)落地。 所以,李彥宏說(shuō),當(dāng)通用大模型面向某一個(gè)行業(yè)進(jìn)行精調(diào),就會(huì)更好地解決某個(gè)行業(yè)的問(wèn)題,吃的比較透,它就可以服務(wù)相應(yīng)行業(yè)很多的企業(yè)或者組織。大模型商業(yè)化落地的基本條件是具備能精準(zhǔn)適配下游場(chǎng)景任務(wù),且保證結(jié)果高效、可控、合規(guī)的“高質(zhì)量”行業(yè)大模型。 怎么樣生成一個(gè)高質(zhì)量的行業(yè)大模型呢?——那就是在通用大模型的基礎(chǔ)上,利用行業(yè)數(shù)據(jù)進(jìn)一步訓(xùn)練生產(chǎn)行業(yè)大模型,并對(duì)行業(yè)大模型調(diào)優(yōu)實(shí)現(xiàn)。這其中,對(duì)通用大模型“再訓(xùn)練”、“調(diào)優(yōu)”形成高質(zhì)量行業(yè)大模型的兩個(gè)基本動(dòng)作,也決定了廠商必備的三大能力:豐富的行業(yè)數(shù)據(jù)積累、大模型調(diào)優(yōu)能力、AI工程化。 首先,行業(yè)數(shù)據(jù)是基礎(chǔ)。數(shù)據(jù)是數(shù)字經(jīng)濟(jì)時(shí)代最寶貴的資產(chǎn),是糧食。行業(yè)數(shù)據(jù)搜索引擎上搜不到,買不到,必須靠長(zhǎng)時(shí)間的積累。這是有極高的壁壘的,只有長(zhǎng)期為細(xì)分領(lǐng)域提供數(shù)據(jù)服務(wù)的公司才能獲得全面真實(shí)深度有效的數(shù)據(jù),而這種數(shù)據(jù)能快速提升行業(yè)大模型學(xué)習(xí)能力,并不斷拉開(kāi)與后來(lái)者之間的差距,為廠商帶來(lái)先發(fā)優(yōu)勢(shì)。 然后,必須具備大模型調(diào)優(yōu)能力。大模型調(diào)優(yōu)能力需要具備領(lǐng)先的深度學(xué)習(xí)/NLP技術(shù)積累/知識(shí)圖譜/搜索引擎等多方面的人工智能能力,這一點(diǎn)只有極少數(shù)的公司才具備。 最后,AI工程化能力。AI工程化是指提供AI應(yīng)用開(kāi)發(fā)的系列方法、工具和實(shí)踐集合,形成快速測(cè)試、構(gòu)建和部署AI應(yīng)用開(kāi)發(fā)流水線,加速AI應(yīng)用落地過(guò)程,實(shí)現(xiàn)模型自動(dòng)重新訓(xùn)練和部署。行業(yè)大模型只解決了大模型“可用”的問(wèn)題,若想AI成為企業(yè)的生產(chǎn)力,還需要解決大模型“落地”的工程化問(wèn)題,否則落地效率、周期會(huì)遠(yuǎn)超預(yù)期。 AI工程化能力涉及兩個(gè)方面:1)通過(guò)分布式訓(xùn)練提升計(jì)算效率,解決大模型大體量參數(shù)、復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)帶來(lái)的內(nèi)存、通訊以及計(jì)算瓶頸;2)實(shí)現(xiàn)模型開(kāi)發(fā)過(guò)程的持續(xù)生產(chǎn)、持續(xù)交付和持續(xù)部署。一方面,需要將定制化解決方案經(jīng)驗(yàn)沉淀形成標(biāo)準(zhǔn)化產(chǎn)品,實(shí)現(xiàn)產(chǎn)品與服務(wù)的規(guī)模化,加速商業(yè)化落地效率;另一方面,也需要完善AI開(kāi)發(fā)生命周期的工具、固化開(kāi)發(fā)流程,提高模型開(kāi)發(fā)全流程的緊耦合度,提升大模型訓(xùn)練效率。 拓爾思正在打造高質(zhì)量的行業(yè)大模型,提供行業(yè)大模型到智能應(yīng)用的一體化服務(wù),為什么相信他能夠成功并實(shí)現(xiàn)價(jià)值呢? 首先,要確定拓爾思正在干這個(gè)事,并且即將推出系列產(chǎn)品。拓爾思機(jī)構(gòu)調(diào)研時(shí)表示,將積極擁抱大模型發(fā)展,基于通用AIGC大模型,專注優(yōu)勢(shì)行業(yè)進(jìn)行專業(yè)大模型的研發(fā),融合學(xué)習(xí)行業(yè)特有的大數(shù)據(jù)和知識(shí),提升大模型對(duì)行業(yè)應(yīng)用的適配性。公司也將以預(yù)訓(xùn)練大模型、In-Context Learning、instruction tuning等技術(shù)為基礎(chǔ),將公司自主研發(fā)的文本生成、交互式生成、跨模態(tài)生成、小樣本學(xué)習(xí)、大模型與外部知識(shí)庫(kù)的融合等功能作為研發(fā)重點(diǎn),突破基于大模型的AIGC關(guān)鍵技術(shù),在問(wèn)答式AI、智能創(chuàng)作、搜索引擎等領(lǐng)域?qū)崿F(xiàn)成功應(yīng)用。 一是有海量專業(yè)高壁壘的數(shù)據(jù)資產(chǎn)。拓爾思過(guò)去30年,主營(yíng)業(yè)務(wù)就是大數(shù)據(jù)軟件產(chǎn)品及服務(wù)、人工智能產(chǎn)品及服務(wù),2022年前三季度營(yíng)收占比達(dá)到了72%,凈利潤(rùn)超過(guò)1個(gè)億。公司于2010年自建大數(shù)據(jù)中心,至今已經(jīng)積累了1300億以上的數(shù)據(jù)總量,并以日均億級(jí)數(shù)據(jù)的速度持續(xù)增加。 拓爾思的主要客戶是ZF機(jī)構(gòu)和8000多家企業(yè),覆蓋ZF、金融、能源、傳媒等多個(gè)領(lǐng)域,均為行業(yè)頭部機(jī)構(gòu),如GJ知識(shí)產(chǎn)權(quán)局、南方電網(wǎng)、中國(guó)銀行、平安集團(tuán)、科技日?qǐng)?bào)等。 公司在數(shù)字ZF和公共服務(wù)領(lǐng)域的“產(chǎn)品+云服務(wù)+解決方案”已經(jīng)覆蓋80%的ZY和GWY機(jī)構(gòu)、60%的省級(jí)政府和50%的地市政府。公司以內(nèi)容智能為核心的融媒體行業(yè)服務(wù)已經(jīng)覆蓋72%的ZY媒體、61%的省級(jí)媒體和40%的行業(yè)媒體機(jī)構(gòu)用戶。 比如,媒體資訊領(lǐng)域的“數(shù)家資訊大數(shù)據(jù)服務(wù)平臺(tái)”通過(guò)聚焦傳媒領(lǐng)域的數(shù)據(jù)場(chǎng)景云服務(wù),覆蓋了數(shù)百家媒體機(jī)構(gòu)用戶,成為媒體大數(shù)據(jù)的國(guó)內(nèi)市場(chǎng)占有率第一。 通過(guò)多年的積累,拓爾思形成了超過(guò)30個(gè)專業(yè)領(lǐng)域的數(shù)據(jù)庫(kù)資產(chǎn),如語(yǔ)義分析知識(shí)庫(kù)、專利知識(shí)庫(kù)、媒體知識(shí)庫(kù)、金融知識(shí)庫(kù)等,覆蓋媒體服務(wù)、輿情服務(wù)、金融風(fēng)控、產(chǎn)業(yè)投研、金融監(jiān)管、智能消保、開(kāi)源情報(bào)、政務(wù)應(yīng)用等8大業(yè)務(wù)場(chǎng)景。 公司的重要產(chǎn)品,搜索性數(shù)據(jù)庫(kù)“海貝”是一款從內(nèi)核到系統(tǒng)完全國(guó)產(chǎn)自研的搜索型數(shù)據(jù)庫(kù),已經(jīng)服務(wù)于安全大數(shù)據(jù)、媒體大數(shù)據(jù)、ZF大數(shù)據(jù)以及J隊(duì)大數(shù)據(jù)等眾多細(xì)分行業(yè),擁有GJ市場(chǎng)監(jiān)督管理總局、HG總署、ZL局、商標(biāo)局等一系列客戶。在GJ層面,幾個(gè)重大的基礎(chǔ)數(shù)據(jù)庫(kù),例如云搜系統(tǒng)、企業(yè)信用信息公示系統(tǒng)、專利檢索系統(tǒng)等都構(gòu)建在海貝之上。目前海貝已完成與龍芯、海光、飛騰、鯤鵬等國(guó)產(chǎn)芯片以及中標(biāo)麒麟、統(tǒng)信UOS等國(guó)產(chǎn)操作系統(tǒng)的適配工作,完全滿足信創(chuàng)要求和國(guó)產(chǎn)化替換需求。以信用中國(guó)項(xiàng)目為例,該項(xiàng)目由FGW、人民YH指導(dǎo),GJ信息中心主辦。原來(lái)在某云平臺(tái)上由ElasticSearch對(duì)外提供檢索服務(wù),2018年遷移至公司“TRS海貝大數(shù)據(jù)管理系統(tǒng)”上,目前海貝在該項(xiàng)目中每秒需要支持大約1.2萬(wàn)的并發(fā)檢索,日訪問(wèn)量接近10億,獲得了用戶的高度認(rèn)可。海貝搜索引擎就類似互聯(lián)網(wǎng)上的百度、360搜索引擎,源源不斷的將這些保密行業(yè)的數(shù)據(jù)積累起來(lái)。 這些數(shù)據(jù)資源基于拓爾思自研的數(shù)據(jù)底座經(jīng)過(guò)采集、清洗、轉(zhuǎn)換、分類、打標(biāo)等流程完成基礎(chǔ)數(shù)據(jù)治理后,與不同行業(yè)知識(shí)模型融合處理,被加工成數(shù)據(jù)資產(chǎn)進(jìn)入到數(shù)據(jù)流通與交易環(huán)節(jié)。這些數(shù)據(jù)資產(chǎn)可用作大模型的訓(xùn)練語(yǔ)料,具備高質(zhì)量、高價(jià)值的特點(diǎn),有利于提升大模型的專業(yè)性與精準(zhǔn)度。 這些數(shù)據(jù)都是極其珍貴、很難獲取的,將形成非常高的壁壘,其他企業(yè)很難有這個(gè)基礎(chǔ)。 二是有很強(qiáng)的大模型調(diào)優(yōu)能力。拓爾思充分利用過(guò)往在NLP領(lǐng)域的工程技術(shù)積累,能基于行業(yè)場(chǎng)景任務(wù)對(duì)大模型進(jìn)行校對(duì)和優(yōu)化,使大模型高效適配行業(yè)場(chǎng)景,模型推理效果滿足客戶需求。 拓爾思長(zhǎng)期聚焦知識(shí)圖譜、自然語(yǔ)言處理(NLP)等語(yǔ)義智能核心技術(shù),將通用預(yù)訓(xùn)練大模型與傳統(tǒng)NLP技術(shù)相結(jié)合,利用行業(yè)Know-How,根據(jù)不同場(chǎng)景,通過(guò)對(duì)通用大模型進(jìn)行調(diào)整和優(yōu)化(Fine-tuning)來(lái)適配不同指標(biāo),獲得不同行業(yè)客戶側(cè)重的準(zhǔn)確率、召回率、綜合F1值等指標(biāo),形成行業(yè)化的“專業(yè)大模型”,進(jìn)一步優(yōu)化結(jié)果可控性,更好地服務(wù)于用戶的具體場(chǎng)景和需求。 拓爾思已經(jīng)具備350余個(gè)專業(yè)領(lǐng)域深度學(xué)習(xí)算法模型,包括NLP通用模型和專業(yè)領(lǐng)域模型,如風(fēng)控征信模型、公共安全模型、指數(shù)模型等,在AIGC商業(yè)落地上已經(jīng)具備豐富的經(jīng)驗(yàn)。 比如,海貝引擎就融入了拓爾思自研的NLP技術(shù),如文本分詞、自動(dòng)分類、相似文本檢索、拼音檢索提示等,也集成了深度學(xué)習(xí)引擎,支持以文搜圖、以圖搜圖、圖文融合搜索,可以對(duì)圖像中的文字進(jìn)行OCR識(shí)別,也可以提取圖像或者文本的特征數(shù)據(jù),通過(guò)基因編碼存儲(chǔ)到海貝數(shù)據(jù)庫(kù)里,成功實(shí)現(xiàn)圖像相似性檢索功能。 三是具備一站式A工程化能力。自成立以來(lái)的30年間,拓爾思豐富的行業(yè)大模型、機(jī)器模型的應(yīng)用實(shí)踐,已經(jīng)覆蓋政務(wù)、媒體、公共安全、知識(shí)產(chǎn)權(quán)等領(lǐng)域的多種場(chǎng)景,并積累了豐富的AI工程經(jīng)驗(yàn),不僅能搭建分布式訓(xùn)練架構(gòu),提高大模型訓(xùn)練速度,還具備涵蓋數(shù)據(jù)標(biāo)注、模型設(shè)計(jì)、模型訓(xùn)練、模型優(yōu)化、模型評(píng)估、模型部署等一站式AI工程化落地工具和服務(wù)能力,有助于實(shí)現(xiàn)專業(yè)大模型貼合用戶場(chǎng)景快速落地。 比如開(kāi)發(fā)的智創(chuàng)就是一款專注文字生成類的內(nèi)容自動(dòng)生產(chǎn)平臺(tái),專注于輔助型、應(yīng)用型、創(chuàng)作型等文本內(nèi)容的自動(dòng)生成,已在政務(wù)、媒體、金融、元宇宙等多個(gè)領(lǐng)域的多樣化場(chǎng)景中實(shí)現(xiàn)落地。例如,在文本生成領(lǐng)域,為經(jīng)濟(jì)日?qǐng)?bào)、浙江日?qǐng)?bào)、重慶日?qǐng)?bào)等近20家新聞媒體單位提供機(jī)器寫稿服務(wù),為冶金工業(yè)信息標(biāo)準(zhǔn)研究院、南方電網(wǎng)、教育出版社等提供研報(bào)自動(dòng)生成服務(wù)。 那么未來(lái),拓爾思不僅會(huì)利用通用大模型和行業(yè)大數(shù)據(jù),逐步打造媒體資訊、輿情監(jiān)控等優(yōu)勢(shì)行業(yè)的高質(zhì)量模型,可以為客戶提供底層能力和行業(yè)解決方案,自己打造或者幫助其他企業(yè)打造能滿足行業(yè)需求的人工智能應(yīng)用。只要打造成功一個(gè)就前途無(wú)量,何況這樣的細(xì)分行業(yè)有很多個(gè)可以復(fù)制。 這是一家站在人工智能風(fēng)口,具備高壁壘數(shù)據(jù)資產(chǎn)和AI技術(shù),極度稀缺,有成功經(jīng)驗(yàn),并正在努力進(jìn)取的,行業(yè)大模型和應(yīng)用公司,有可能創(chuàng)造很大的價(jià)值。極可能是最早通過(guò)AI 實(shí)現(xiàn)利潤(rùn)的公司。 公司最近的變化是愿意出來(lái)交流了,接受了很多機(jī)構(gòu)的調(diào)研,這也是積極的一面。 |
|