當(dāng)前人工智能發(fā)展正從“模型為中心”轉(zhuǎn)向“數(shù)據(jù)為中心”,高質(zhì)量數(shù)據(jù)集成為大模型競爭的“護(hù)城河”。為此,基于《“數(shù)據(jù)要素 ×”三年行動(dòng)計(jì)劃(2024—2026 年)》以及《高質(zhì)量數(shù)據(jù)集建設(shè)指南(征求意見稿)》,筆者系統(tǒng)性地解構(gòu)行業(yè)級(jí)高質(zhì)量數(shù)據(jù)集的建設(shè)路徑,在 AI 時(shí)代具有典型意義。
高質(zhì)量數(shù)據(jù)集的建設(shè)背景
在 AI 產(chǎn)業(yè)深度變革的浪潮中,高質(zhì)量數(shù)據(jù)集建設(shè)呈現(xiàn)出三大顯著特征——需求爆發(fā)、政策驅(qū)動(dòng)、技術(shù)拐點(diǎn),其發(fā)展態(tài)勢深刻重構(gòu)著行業(yè)格局:
需求爆發(fā)
通用大模型向垂直領(lǐng)域的滲透催生了場景化數(shù)據(jù)資源的井噴式需求。央企加速開放電網(wǎng)調(diào)度、核電診斷、金融風(fēng)控等 30 余個(gè)行業(yè)核心數(shù)據(jù)集,推動(dòng)產(chǎn)業(yè)數(shù)字化從單點(diǎn)探索邁向系統(tǒng)化升級(jí)。這種需求不僅源于技術(shù)落地的訴求,更來自 C 端用戶對(duì)智能服務(wù)體驗(yàn)的升級(jí)期待,如手機(jī)端大模型通過場景重構(gòu)實(shí)現(xiàn)功能躍遷,使普惠化智能服務(wù)覆蓋數(shù)億用戶。市場規(guī)模的擴(kuò)張態(tài)勢已然明確,即行業(yè)共性數(shù)據(jù)資源庫的構(gòu)建正驅(qū)動(dòng)千億級(jí)市場形成。
政策驅(qū)動(dòng)
國家戰(zhàn)略層面對(duì)數(shù)據(jù)要素的系統(tǒng)性部署構(gòu)成核心驅(qū)動(dòng)力。2017 年國務(wù)院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》開啟了政策先導(dǎo),2020 年《關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意見》首次將數(shù)據(jù)納入生產(chǎn)要素,而國家數(shù)據(jù)局聯(lián)合 17部門聯(lián)合印發(fā)的《“數(shù)據(jù)要素 ×”三年行動(dòng)計(jì)劃(2024—2026 年)》更標(biāo)志著政策體系的成熟。中央與地方形成協(xié)同推進(jìn)機(jī)制。工信部 2016 年發(fā)布的《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016—2020 年)》強(qiáng)化產(chǎn)業(yè)支撐體系,貴州省以信用體系與大數(shù)據(jù)融合試點(diǎn)推動(dòng)社會(huì)治理創(chuàng)新,浙江省通過構(gòu)建“城市大腦”實(shí)現(xiàn)全域數(shù)據(jù)資源整合。這種“中央頂層設(shè)計(jì)—部委專項(xiàng)落實(shí)—地方場景創(chuàng)新”的三級(jí)政策框架,為高質(zhì)量數(shù)據(jù)集建設(shè)提供了剛性制度保障。
技術(shù)拐點(diǎn)
底層技術(shù)的突破性演進(jìn)正顛覆傳統(tǒng)數(shù)據(jù)建設(shè)范式。Transformer 架構(gòu)(一種深度學(xué)習(xí)模型架構(gòu))在推動(dòng)大模型性能躍升的同時(shí),也暴露出算力分散、領(lǐng)域數(shù)據(jù)稀缺等瓶頸。當(dāng)前技術(shù)演進(jìn)呈現(xiàn)兩大特征,其一是模型效率革命,如 DeepSeek-R1 系列驗(yàn)證高質(zhì)量推理數(shù)據(jù)可提升參數(shù)量效率 3 倍,使數(shù)據(jù)質(zhì)量取代算力規(guī)模成為“新護(hù)城河”;其二是架構(gòu)自主突破,如高質(zhì)量數(shù)據(jù)集建設(shè)中 95% 國產(chǎn)化率的要求,推動(dòng)自主芯片 /OS/ 云平臺(tái)的技術(shù)適配。這些突破標(biāo)志著 AI 發(fā)展從“模型優(yōu)先”轉(zhuǎn)向“數(shù)據(jù)優(yōu)先”的新階段。
高質(zhì)量數(shù)據(jù)集的戰(zhàn)略定位與意義
在人工智能技術(shù)從實(shí)驗(yàn)室走向產(chǎn)業(yè)化落地的關(guān)鍵轉(zhuǎn)型期,高質(zhì)量數(shù)據(jù)集的戰(zhàn)略定位已超越基礎(chǔ)技術(shù)資源范疇,升維為國家數(shù)字競爭力的核心基礎(chǔ)設(shè)施。其戰(zhàn)略意義深刻貫穿技術(shù)根基、經(jīng)濟(jì)引擎與安全壁壘三大維度,構(gòu)成了支撐“人工智能 +”國家戰(zhàn)略落地的系統(tǒng)性支柱。
奠定人工智能發(fā)展的技術(shù)根基
數(shù)據(jù)集質(zhì)量直接決定了人工智能的“智商”水平,這是其最根本的戰(zhàn)略定位。國家數(shù)據(jù)發(fā)展研究院院長胡堅(jiān)波明確指出:“高質(zhì)量數(shù)據(jù)集是人工智能真正的'護(hù)城河’”。技術(shù)驗(yàn)證亦進(jìn)行了證明,紐約大學(xué)研究發(fā)現(xiàn),醫(yī)學(xué)數(shù)據(jù)中含 0.001% 錯(cuò)誤即會(huì)導(dǎo)致模型輸出致命誤判,而 DeepSeek-R1 模型證明高質(zhì)量推理數(shù)據(jù)可使參數(shù)量效率提升 300%。此類數(shù)據(jù)猶如“智能燃料”,通過精準(zhǔn)的特征供給驅(qū)動(dòng)模型認(rèn)知躍升,“數(shù)據(jù)集質(zhì)量決定人工智能智商上限”,奠定其在技術(shù)生態(tài)中的基石地位。
驅(qū)動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展的核心引擎
高質(zhì)量數(shù)據(jù)集通過構(gòu)建“數(shù)據(jù)—算力—模型”的融合生態(tài),催化出顯著的 GDP 增長乘數(shù)效應(yīng)。國家數(shù)據(jù)局實(shí)施的《“數(shù)據(jù)要素 ×”三年行動(dòng)計(jì)劃(2024—2026 年)》將數(shù)據(jù)集定位為“產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型升級(jí)的加速器”。這種引擎效應(yīng)建立在數(shù)據(jù)資產(chǎn)化的創(chuàng)新機(jī)制上,主要包括:第一,短期價(jià)值釋放。央企開放的 30 個(gè)行業(yè)數(shù)據(jù)集催生千億級(jí)交易市場,其中金融風(fēng)控?cái)?shù)據(jù)集使銀行不良貸款識(shí)別率提升 29%,直接拉動(dòng)信貸資產(chǎn)質(zhì)量優(yōu)化。第二,長期生態(tài)共建。深城交主導(dǎo)建設(shè)的交通行業(yè)多模態(tài)數(shù)據(jù)集支撐多個(gè)大模型訓(xùn)練,有效帶動(dòng)智能網(wǎng)聯(lián)、低空經(jīng)濟(jì)等新產(chǎn)業(yè)孵化。
中國信息通信研究院副院長魏亮的“石油煉化”理論深刻闡釋其經(jīng)濟(jì)邏輯“原始數(shù)據(jù)需煉化成高質(zhì)量數(shù)據(jù)集,才能驅(qū)動(dòng)模型效能轉(zhuǎn)化”,這種“數(shù)據(jù)煉油廠”角色使其成為新質(zhì)生產(chǎn)力培育的關(guān)鍵載體。
構(gòu)筑國家科技安全的戰(zhàn)略屏障
在全球化技術(shù)競爭背景下,高質(zhì)量數(shù)據(jù)集承載著維護(hù)科技主權(quán)的使命。數(shù)據(jù)集的國產(chǎn)化率是核心領(lǐng)域數(shù)據(jù)管控要求,國務(wù)院國資委規(guī)劃發(fā)展局副局長胡武婕強(qiáng)調(diào):“行業(yè)數(shù)據(jù)集加速匯聚共享是人工智能自主可控的基礎(chǔ)保障”。國家數(shù)據(jù)局副局長夏冰的論斷揭示了其戰(zhàn)略本質(zhì):“數(shù)據(jù)集的質(zhì)效提升是人工智能賦能實(shí)體經(jīng)濟(jì)的催化劑,需構(gòu)建部際協(xié)同機(jī)制筑牢安全根基”。在芯片制程受限的現(xiàn)實(shí)環(huán)境下,高質(zhì)量數(shù)據(jù)集已成為中國突破“算力圍城”的核心戰(zhàn)略資源。高質(zhì)量數(shù)據(jù)集通過“技術(shù)根基—經(jīng)濟(jì)引擎—安全壁壘”的三角戰(zhàn)略架構(gòu),確立了人工智能時(shí)代的國家基礎(chǔ)設(shè)施地位。其戰(zhàn)略意義不僅在于推動(dòng)產(chǎn)業(yè)實(shí)效,更深層的在于構(gòu)建了中國自主的 AI 發(fā)展范式——當(dāng)算力鴻溝客觀存在時(shí),以數(shù)據(jù)質(zhì)量優(yōu)勢實(shí)現(xiàn)“非對(duì)稱超越”。隨著《高質(zhì)量數(shù)據(jù)集建設(shè)指南(征求意見稿)》的落地與國家數(shù)據(jù)要素市場的培育,這一戰(zhàn)略支柱將進(jìn)一步釋放“數(shù)據(jù) × 產(chǎn)業(yè)”的乘數(shù)效應(yīng),最終支撐中國在全球人工智能治理中實(shí)現(xiàn)從“規(guī)則接受者”向“標(biāo)準(zhǔn)制定者”的歷史性跨越。
高質(zhì)量數(shù)據(jù)集的定義和特征
高質(zhì)量數(shù)據(jù)集的定義
根據(jù)全國數(shù)據(jù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)發(fā)布的《高質(zhì)量數(shù)據(jù)集建設(shè)指南(征求意見稿)》和國家標(biāo)準(zhǔn)草案定義,高質(zhì)量數(shù)據(jù)集是指經(jīng)過專業(yè)采集、加工處理可直接用于 AI 模型開發(fā)與訓(xùn)練,能顯著提升模型性能的數(shù)據(jù)集合,其核心特征體現(xiàn)為“高價(jià)值 × 高密度 × 標(biāo)準(zhǔn)化”的三維體系。
高質(zhì)量數(shù)據(jù)集的三大特征
高價(jià)值指數(shù)據(jù)集直接驅(qū)動(dòng)模型性能躍升的戰(zhàn)略屬性。如金融領(lǐng)域數(shù)據(jù)集通過精準(zhǔn)標(biāo)注交易欺詐模式,使大模型風(fēng)險(xiǎn)誤報(bào)率降低 55%,凸顯其對(duì)決策效率的實(shí)質(zhì)提升。高質(zhì)量數(shù)據(jù)集需緊密關(guān)聯(lián)應(yīng)用場景,如工業(yè)設(shè)備故障預(yù)測、醫(yī)療影像診斷等,賦能模型在特定領(lǐng)域?qū)崿F(xiàn)突破性表現(xiàn)。
高密度強(qiáng)調(diào)數(shù)據(jù)的精煉性與信息濃度。通過嚴(yán)格清洗去除冗余噪聲,確保樣本蘊(yùn)含有效特征的最大化。典型案例如醫(yī)療影像數(shù)據(jù)集標(biāo)注病灶邊界精度達(dá)99.99%,這得益于自動(dòng)化標(biāo)注框架與領(lǐng)域專家核驗(yàn)機(jī)制的協(xié)同,如放射科醫(yī)生參與審核,實(shí)現(xiàn)精準(zhǔn)剔除無效樣本與強(qiáng)化數(shù)據(jù)關(guān)鍵特征的統(tǒng)一。
標(biāo)準(zhǔn)化通過分級(jí)規(guī)范,保障數(shù)據(jù)可用性。具體可分為三類:一是整合社會(huì)通用知識(shí)(如基礎(chǔ)教育、基礎(chǔ)科學(xué)數(shù)據(jù))的通識(shí)數(shù)據(jù)集,此數(shù)據(jù)集主要用于支撐通用模型訓(xùn)練;二是聚焦領(lǐng)域基礎(chǔ)知識(shí)(如金融術(shù)語庫、交通規(guī)則庫)的行業(yè)通識(shí)數(shù)據(jù)集,理解這類數(shù)據(jù)需具備基礎(chǔ)專業(yè)背景;三是面向深度業(yè)務(wù)場景(如電網(wǎng)故障診斷日志、核電設(shè)備運(yùn)行數(shù)據(jù))的行業(yè)專識(shí)數(shù)據(jù)集,構(gòu)建這類數(shù)據(jù)集需要領(lǐng)域?qū)<业膮⑴c。
從本質(zhì)上來講,高質(zhì)量數(shù)據(jù)集是人工智能時(shí)代的“新型基礎(chǔ)設(shè)施”——其戰(zhàn)略價(jià)值已超越技術(shù)工具范疇,成為驅(qū)動(dòng)產(chǎn)業(yè)智能升級(jí)、構(gòu)筑數(shù)字主權(quán)、重塑全球 AI 競爭格局的核心支點(diǎn)。正如夏冰所強(qiáng)調(diào)的:“數(shù)據(jù)集的質(zhì)效提升是人工智能賦能實(shí)體經(jīng)濟(jì)的催化劑,需部際協(xié)同構(gòu)建多元生態(tài)”。
高質(zhì)量數(shù)據(jù)集的典型建設(shè)思路
按照國家數(shù)據(jù)局關(guān)于高質(zhì)量數(shù)據(jù)集建設(shè)的統(tǒng)籌部署,圍繞“試技術(shù)融合、試場景支撐、試標(biāo)準(zhǔn)驗(yàn)證、試機(jī)制建設(shè)”四項(xiàng)工作任務(wù),筆者提出高質(zhì)量數(shù)據(jù)集典型建設(shè)思路(如圖1 所示),以確保高質(zhì)量數(shù)據(jù)集建設(shè)可持續(xù)、可復(fù)制、可推廣,為創(chuàng)新領(lǐng)域和關(guān)鍵行業(yè)的智能化轉(zhuǎn)型夯實(shí)基礎(chǔ)。
圖 1 高質(zhì)量數(shù)據(jù)集典型建設(shè)思路
堅(jiān)持“價(jià)值驅(qū)動(dòng),場景牽引”,實(shí)現(xiàn)數(shù)據(jù)集建設(shè)靶向聚焦
以行業(yè)真實(shí)業(yè)務(wù)痛點(diǎn)和應(yīng)用場景為原點(diǎn),構(gòu)建從需求反推數(shù)據(jù)供給的閉環(huán)建設(shè)邏輯。這一路徑通過深入挖掘垂直領(lǐng)域的核心訴求,精準(zhǔn)定位數(shù)據(jù)資源的價(jià)值錨點(diǎn),避免“為建而建”的資源錯(cuò)配,優(yōu)先突破人工智能應(yīng)用最迫切、最容易產(chǎn)生效果、最影響行業(yè)高質(zhì)量發(fā)展的領(lǐng)域。在實(shí)踐中體現(xiàn)為三重協(xié)同機(jī)制 : 業(yè)務(wù)需求精準(zhǔn)映射、場景化數(shù)據(jù)供給和動(dòng)態(tài)反饋調(diào)優(yōu)機(jī)制。這種價(jià)值驅(qū)動(dòng)的建設(shè)范式,從根本上改變了傳統(tǒng)“數(shù)據(jù)先行、應(yīng)用滯后”的粗放模式,使數(shù)據(jù)集成為破解行業(yè)瓶頸的戰(zhàn)略工具。正如《“數(shù)據(jù)要素 ×”三年行動(dòng)計(jì)劃(2024—2026 年)》所要求的:需“圍繞應(yīng)用需求牽引、典型場景切入”,最終實(shí)現(xiàn)數(shù)據(jù)資源向生產(chǎn)力要素的高效轉(zhuǎn)化。
強(qiáng)化技術(shù)牽引,構(gòu)建先進(jìn)敏捷的數(shù)據(jù)開發(fā)能力體系
以大模型、數(shù)據(jù)合成、超智融合算力等新一代人工智能技術(shù)為支撐,創(chuàng)新數(shù)據(jù)開發(fā)模式與技術(shù)路徑。依托大規(guī)模異構(gòu)算力平臺(tái),建立多模態(tài)并行處理與加速機(jī)制,全面提升數(shù)據(jù)處理效率與數(shù)據(jù)質(zhì)量控制能力。引入大模型自動(dòng)標(biāo)注與人機(jī)協(xié)同能力,在圖像、語音、視頻等復(fù)雜模態(tài)上應(yīng)用預(yù)訓(xùn)練模型進(jìn)行智能標(biāo)注與初步語義聚類,大幅減少人工成本、提升標(biāo)注一致性。同步開展數(shù)據(jù)增強(qiáng)與生成技術(shù)研究,通過仿真生成、時(shí)序數(shù)據(jù)合成等手段擴(kuò)展樣本覆蓋度,提高長尾問題覆蓋能力。圍繞高質(zhì)量訓(xùn)練數(shù)據(jù)構(gòu)建目標(biāo),集成清洗、脫敏、合規(guī)校驗(yàn)、標(biāo)簽審核等自動(dòng)化工具鏈,建立敏捷迭代的“采—標(biāo)—檢—訓(xùn)”閉環(huán)開發(fā)體系,確保高質(zhì)量數(shù)據(jù)集供給的穩(wěn)定性與適配性。
突出數(shù)據(jù)支撐,夯實(shí)多模態(tài)、多源異構(gòu)數(shù)據(jù)治理基礎(chǔ)
構(gòu)建覆蓋數(shù)據(jù)采集、匯聚、管理、調(diào)用的全過程數(shù)據(jù)治理體系,支持結(jié)構(gòu)化數(shù)據(jù)、圖像視頻、音頻語音、傳感數(shù)據(jù)等多種模態(tài)的統(tǒng)一接入、分級(jí)治理與標(biāo)準(zhǔn)轉(zhuǎn)換,打通源系統(tǒng)與訓(xùn)練平臺(tái)之間的“數(shù)據(jù)斷點(diǎn)”。推進(jìn)“原始數(shù)據(jù)—預(yù)處理數(shù)據(jù)—訓(xùn)練數(shù)據(jù)”三層架構(gòu)設(shè)計(jì),配套元數(shù)據(jù)管理、數(shù)據(jù)血緣追蹤、數(shù)據(jù)質(zhì)量監(jiān)控等機(jī)制,確保數(shù)據(jù)資產(chǎn)可追溯、可評(píng)估、可調(diào)優(yōu)。在全生命周期管理基礎(chǔ)上,構(gòu)建面向不同訓(xùn)練目標(biāo)的主題化數(shù)據(jù)倉庫,支撐預(yù)訓(xùn)練集、微調(diào)集、測試集、驗(yàn)證集四類數(shù)據(jù)集的按需編排與快速交付。
堅(jiān)持標(biāo)準(zhǔn)引領(lǐng),形成可遷移可復(fù)用的數(shù)據(jù)集建設(shè)規(guī)范
圍繞數(shù)據(jù)集“可交付、可訓(xùn)練、可迭代”三大目標(biāo),同步推進(jìn)采集、標(biāo)注、元數(shù)據(jù)、注釋、脫敏、安全等關(guān)鍵環(huán)節(jié)的標(biāo)準(zhǔn)體系建設(shè),建立覆蓋“源頭—處理—交付—調(diào)用”的全鏈路高質(zhì)量數(shù)據(jù)集建設(shè)標(biāo)準(zhǔn),形成一整套可遷移、可擴(kuò)展、可復(fù)制的操作規(guī)范體系。重點(diǎn)驗(yàn)證數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)的接口規(guī)范、用戶身份管理、接入?yún)f(xié)議、標(biāo)識(shí)規(guī)則、目錄描述要求等通用技術(shù)要求,并對(duì)數(shù)據(jù)格式、分類指南、質(zhì)量評(píng)估、平臺(tái)管理等關(guān)鍵領(lǐng)域的標(biāo)準(zhǔn)化要求進(jìn)行實(shí)際對(duì)接和測試,打通構(gòu)建、治理與共享之間的關(guān)鍵環(huán)節(jié)。
完善協(xié)同機(jī)制,保障高質(zhì)量數(shù)據(jù)集長效運(yùn)營與推廣
構(gòu)建多主體參與的數(shù)據(jù)集共建共享機(jī)制,形成“行業(yè)主導(dǎo)、平臺(tái)承載、企業(yè)參與、多元共贏”的生態(tài)格局。以數(shù)據(jù)資產(chǎn)確權(quán)、使用授權(quán)、成果收益等機(jī)制為核心,推動(dòng)建立多元共建、共享開放的數(shù)據(jù)供給模式,激發(fā)數(shù)據(jù)持有方參與積極性。構(gòu)建基于項(xiàng)目制和聯(lián)盟制的數(shù)據(jù)集協(xié)同開發(fā)模式,實(shí)現(xiàn)區(qū)域間、企業(yè)間的數(shù)據(jù)流動(dòng),促進(jìn)高質(zhì)量數(shù)據(jù)集的跨域融合與能力復(fù)用。同時(shí),構(gòu)建“共建 + 共評(píng) + 共用”的聯(lián)合攻堅(jiān)機(jī)制,明確各參與方責(zé)任邊界與數(shù)據(jù)權(quán)益分配方式,為高質(zhì)量數(shù)據(jù)集的規(guī)模化建設(shè)與可持續(xù)運(yùn)營提供保障。
推廣建設(shè)模式,形成高質(zhì)量數(shù)據(jù)集復(fù)制推廣新范式
堅(jiān)持“試點(diǎn)先行、模塊化拆解、生態(tài)化復(fù)制”的原則,推動(dòng)建設(shè)成果的廣泛推廣和應(yīng)用。圍繞“數(shù)據(jù)集建設(shè)技術(shù)體系、標(biāo)準(zhǔn)規(guī)范體系、平臺(tái)工具體系、運(yùn)營治理機(jī)制”四大方面,推動(dòng)“數(shù)據(jù)采集—清洗標(biāo)注—平臺(tái)建設(shè)—模型訓(xùn)練—應(yīng)用落地”的全流程閉環(huán)體系在行業(yè)內(nèi)外復(fù)制部署。
高質(zhì)量數(shù)據(jù)集的業(yè)務(wù)藍(lán)圖
高質(zhì)量數(shù)據(jù)集的邏輯架構(gòu)主要包括數(shù)據(jù)源、數(shù)據(jù)集構(gòu)成,核心是持續(xù)生產(chǎn)能夠匹配不同行業(yè)、領(lǐng)域的大模型進(jìn)行訓(xùn)練,如圖 2 所示:
圖 2 高質(zhì)量數(shù)據(jù)集的邏輯架構(gòu)
參考國家高質(zhì)量數(shù)據(jù)集建設(shè)指南和相關(guān)標(biāo)準(zhǔn),高質(zhì)量數(shù)據(jù)集的業(yè)務(wù)藍(lán)圖主要包括行業(yè)高質(zhì)量數(shù)據(jù)集及場景應(yīng)用、數(shù)據(jù)集開發(fā)運(yùn)營平臺(tái)、數(shù)據(jù)基礎(chǔ)設(shè)施與安全設(shè)施、標(biāo)準(zhǔn)機(jī)制驗(yàn)證及提升推廣體系、價(jià)值貢獻(xiàn)與權(quán)益分配機(jī)制等五大部分,如圖 3 所示:
圖 3 高質(zhì)量數(shù)據(jù)集的業(yè)務(wù)藍(lán)圖
筆者以某交能融合鏈主型企業(yè)申請(qǐng)的行業(yè)高質(zhì)量數(shù)據(jù)集為例,闡述每一部分的建設(shè)內(nèi)容:
高質(zhì)量數(shù)據(jù)集及場景應(yīng)用
該企業(yè)通過開拓新能源及車網(wǎng)互動(dòng)、智慧交通等業(yè)態(tài),在業(yè)務(wù)創(chuàng)新的同時(shí),利用邊緣計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等技術(shù),采集沉淀了大量的數(shù)據(jù)。同時(shí)結(jié)合大數(shù)據(jù)、大模型、人工智能技術(shù),探索了多個(gè)創(chuàng)新場景,從而具備了從數(shù)據(jù)到價(jià)值的鏈路閉環(huán)。一方面,這些數(shù)據(jù)源能夠?yàn)楦哔|(zhì)量數(shù)據(jù)集提供源源不斷的數(shù)據(jù);另一方面,眾多的應(yīng)用場景又能支撐大模型的應(yīng)用價(jià)值,從而構(gòu)建了多模態(tài)、多行業(yè)和多功能數(shù)據(jù)集,并且賦能 N 個(gè)應(yīng)用場景。
圖 4 某交能高質(zhì)量數(shù)據(jù)集及場景應(yīng)用
數(shù)據(jù)集開發(fā)運(yùn)營平臺(tái)
高質(zhì)量數(shù)據(jù)集的構(gòu)建不是一蹴而就的,更不是一勞永逸的,而是一個(gè)持續(xù)性的運(yùn)營業(yè)務(wù),需要通過“數(shù)據(jù)需求—規(guī)劃—采集—預(yù)處理—標(biāo)注—模型驗(yàn)證”,形成一個(gè)端到端的閉環(huán),并且利用運(yùn)營真正吸引數(shù)據(jù)集的供需雙方,從而實(shí)現(xiàn)從技術(shù)到商業(yè)、從數(shù)據(jù)到價(jià)值,打造可持續(xù)發(fā)展的健康商業(yè)模式,實(shí)現(xiàn)數(shù)據(jù)“供得出、流得動(dòng)”。高質(zhì)量數(shù)據(jù)集本質(zhì)上是一個(gè)訓(xùn)練大模型數(shù)據(jù)的生產(chǎn)線,能夠持續(xù)不斷地獲取、加工,給大模型訓(xùn)練供給高質(zhì)量數(shù)據(jù)。這個(gè)生產(chǎn)線包括八大模塊,即運(yùn)營門戶、數(shù)據(jù)需求、數(shù)據(jù)規(guī)劃、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注、數(shù)據(jù)驗(yàn)證和技術(shù)底座。
圖 5 某交能高質(zhì)量數(shù)據(jù)集開發(fā)運(yùn)營平臺(tái)
數(shù)據(jù)基礎(chǔ)設(shè)施與安全設(shè)施
高質(zhì)量數(shù)據(jù)集是戰(zhàn)略項(xiàng)目,關(guān)乎國家信息安全,因此打造一個(gè)牢固堅(jiān)韌安全的基礎(chǔ)設(shè)施是重中之重。該企業(yè)構(gòu)建了網(wǎng)絡(luò)預(yù)調(diào)度體系、存儲(chǔ)與計(jì)算資源池、數(shù)據(jù)采集與邊緣處理設(shè)備為核心的基礎(chǔ)設(shè)施,同時(shí)全鏈路配套數(shù)據(jù)脫敏與加密,權(quán)限分級(jí)與行為審計(jì),安全邊界防護(hù)、風(fēng)控預(yù)警與應(yīng)急響應(yīng)機(jī)制,對(duì)關(guān)鍵數(shù)據(jù)進(jìn)行分域分級(jí)保護(hù),從而實(shí)現(xiàn)數(shù)據(jù)的“保安全”。
圖 6 某交能高質(zhì)量數(shù)據(jù)集基礎(chǔ)設(shè)施與安全設(shè)施
標(biāo)準(zhǔn)機(jī)制驗(yàn)證及提升推廣體系
高質(zhì)量數(shù)據(jù)集的建設(shè)還處于早期階段,尚未形成成熟可復(fù)制的統(tǒng)一模式,所以在遵循一些新標(biāo)準(zhǔn)的同時(shí),還需要對(duì)這些標(biāo)準(zhǔn)進(jìn)行驗(yàn)證,并且探索提升和推廣體系,從而讓后續(xù)的建設(shè)運(yùn)營有章可循、持續(xù)優(yōu)化。這方面主要包括從標(biāo)準(zhǔn)執(zhí)行到標(biāo)準(zhǔn)驗(yàn)證、標(biāo)準(zhǔn)反饋和標(biāo)準(zhǔn)優(yōu)化的全體系建設(shè),從而能夠在不斷提升數(shù)據(jù)集質(zhì)量的同時(shí),也能夠更好的賦能行業(yè)。
圖 7 某交能高質(zhì)量數(shù)據(jù)集標(biāo)準(zhǔn)機(jī)制驗(yàn)證及提升推廣
價(jià)值貢獻(xiàn)與權(quán)益分配機(jī)制
高質(zhì)量數(shù)據(jù)集建成發(fā)布后,就會(huì)面臨價(jià)值貢獻(xiàn)如何評(píng)估、權(quán)益收益如何分配的問題。并且只有價(jià)值貢獻(xiàn)評(píng)估客觀、公平,權(quán)益分配機(jī)制遵循“誰貢獻(xiàn),誰受益”的原則,才能夠讓數(shù)據(jù)集保有持續(xù)的生命力,接入更多有價(jià)值的數(shù)據(jù)源,吸引更多大模型訓(xùn)練方。價(jià)值貢獻(xiàn)與權(quán)益分配機(jī)制的建立主要包括三部分內(nèi)容:數(shù)據(jù)使用授權(quán)機(jī)制、數(shù)據(jù)及服務(wù)交易機(jī)制、收益分配機(jī)制,這些機(jī)制能夠推動(dòng)高質(zhì)量數(shù)據(jù)集可持續(xù)健康發(fā)展。
圖 8 某交能高質(zhì)量數(shù)據(jù)集價(jià)值貢獻(xiàn)與權(quán)益分配機(jī)制
高質(zhì)量數(shù)據(jù)集的典型建設(shè)路徑
高質(zhì)量數(shù)據(jù)集的建設(shè)路徑是一項(xiàng)涵蓋數(shù)據(jù)全生命周期的系統(tǒng)工程,需嚴(yán)格遵循規(guī)范化的流程框架并結(jié)合場景化落地策略,其核心步驟可歸納為六個(gè)階段,各階段環(huán)環(huán)相扣且需動(dòng)態(tài)迭代優(yōu)化。
數(shù)據(jù)需求定義(戰(zhàn)略錨定與標(biāo)準(zhǔn)構(gòu)建)
該階段需從業(yè)務(wù)場景出發(fā),明確數(shù)據(jù)集的戰(zhàn)略定位與技術(shù)規(guī)格。依據(jù)《高質(zhì)量數(shù)據(jù)集建設(shè)指南 ( 征求意見稿 )》,需完成三項(xiàng)關(guān)鍵任務(wù):場景化需求分析,針對(duì)行業(yè)痛點(diǎn)精準(zhǔn)錨定數(shù)據(jù)價(jià)值,如金融風(fēng)控?cái)?shù)據(jù)集需聚焦欺詐交易特征識(shí)別。胡堅(jiān)波強(qiáng)調(diào)需“從醫(yī)療、教育等亟需領(lǐng)域切入,避免盲目跟風(fēng)”,此過程需聯(lián)合領(lǐng)域?qū)<?/span>建立數(shù)據(jù)質(zhì)量模型,界定關(guān)鍵指標(biāo);數(shù)據(jù)可獲得性評(píng)估,預(yù)判行業(yè)知識(shí)壁壘與技術(shù)難度,如核電診斷數(shù)據(jù)集需協(xié)調(diào)央企設(shè)備日志與安全規(guī)范;標(biāo)準(zhǔn)化框架設(shè)計(jì),基于全國數(shù)據(jù)標(biāo)準(zhǔn)化委員會(huì)的“三類分級(jí)”規(guī)范(通識(shí) / 行業(yè)通識(shí) / 行業(yè)專識(shí)),定義數(shù)據(jù)結(jié)構(gòu)與元數(shù)據(jù)標(biāo)準(zhǔn)。
數(shù)據(jù)規(guī)劃(架構(gòu)設(shè)計(jì)與資源調(diào)配)
本階段需將需求轉(zhuǎn)化為可執(zhí)行藍(lán)圖,主要包括三大工作內(nèi)容:一是架構(gòu)設(shè)計(jì),規(guī)劃存儲(chǔ)、計(jì)算、安全三大體系,例如深圳交通行業(yè)高質(zhì)量數(shù)據(jù)集,采用信創(chuàng)云平臺(tái)整合庫表管理、任務(wù)調(diào)度功能,實(shí)現(xiàn) 607TB 視頻數(shù)據(jù)的分布式存儲(chǔ);二是質(zhì)量計(jì)劃制定,設(shè)定數(shù)據(jù)清洗、標(biāo)注精度等 KPI,如醫(yī)療數(shù)據(jù)清洗后錯(cuò)誤率需壓降至 0.001% 以下以規(guī)避模型誤判風(fēng)險(xiǎn);三是工作量預(yù)估與資源分配,測算采集標(biāo)注成本,調(diào)配領(lǐng)域?qū)<屹Y源。蘇州絲綢紋樣數(shù)據(jù)集建設(shè)時(shí)整合 222 件文物數(shù)字化團(tuán)隊(duì),工作量精確至樣本 / 小時(shí)級(jí)。
數(shù)據(jù)采集(多源獲取與質(zhì)量控制)
采集過程需融合技術(shù)合規(guī)“雙約束”,多模態(tài)采集技術(shù)應(yīng)用,典型的數(shù)據(jù)集項(xiàng)目采用“前置交換 + 物聯(lián)網(wǎng)感知 + 互聯(lián)網(wǎng)爬取”復(fù)合方式,歸集視頻、GPS 等數(shù)據(jù)。在采集過程中要注意兩大保障:質(zhì)量保障,通過自動(dòng)化校驗(yàn)規(guī)則(如交通視頻幀重復(fù)率檢測算法)攔截?zé)o效數(shù)據(jù),原始數(shù)據(jù)清洗率超 30%;合規(guī)性保障,嚴(yán)格遵循《數(shù)據(jù)安全法》,核電數(shù)據(jù)采集采用“私有化部署 + 區(qū)塊鏈溯源”機(jī)制阻斷敏感信息泄露。
數(shù)據(jù)預(yù)處理(特征強(qiáng)化與噪聲剔除)
本階段決定數(shù)據(jù)集信息密度,主要的核心操作包括轉(zhuǎn)換驗(yàn)證,例如統(tǒng)一時(shí)空坐標(biāo);聚合清洗,剔除冗余記錄;特征工程,例如金融交易數(shù)據(jù)經(jīng)特征選擇后,欺詐特征維度濃縮至原始數(shù)據(jù)的12%,實(shí)現(xiàn)高密度表征;樣本平衡,采用 SMOTE算法擴(kuò)增工業(yè)設(shè)備故障樣本。
數(shù)據(jù)標(biāo)注(知識(shí)注入與精度控制)
標(biāo)注環(huán)節(jié)是價(jià)值升華的關(guān)鍵,由多級(jí)標(biāo)注體系構(gòu)成,行業(yè)專識(shí)數(shù)據(jù)需領(lǐng)域?qū)<医槿耄绾穗?/span>設(shè)備診斷標(biāo)注由工程師定義故障閾值;人機(jī)協(xié)同機(jī)制,采用“預(yù)標(biāo)注 + 人工核驗(yàn)”模式;元數(shù)據(jù)綁定模式,例如絲綢紋樣數(shù)據(jù)集中每樣本關(guān)聯(lián)織造年代、工藝等 32 項(xiàng)元數(shù)據(jù),支撐跨產(chǎn)業(yè)復(fù)用。
模型驗(yàn)證與迭代優(yōu)化(閉環(huán)反饋)
該階段實(shí)現(xiàn)數(shù)據(jù)價(jià)值閉環(huán):基準(zhǔn)驗(yàn)證,數(shù)據(jù)集需通過模型性能測試,如金融數(shù)據(jù)集使風(fēng)控模型誤報(bào)率降幅≥ 55% 方達(dá)交付標(biāo)準(zhǔn);持續(xù)優(yōu)化機(jī)制,依托評(píng)測工具集監(jiān)測數(shù)據(jù)漂移,如深圳交通數(shù)據(jù)集每季度更新 15% 樣本以適配路網(wǎng)變化;跨域流通激活,運(yùn)用隱私計(jì)算技術(shù)打通醫(yī)保—交通數(shù)據(jù)壁壘,催生慢病出行預(yù)警等創(chuàng)新應(yīng)用。
在當(dāng)前人工智能從“模型優(yōu)先”向“數(shù)據(jù)優(yōu)先”轉(zhuǎn)型的關(guān)鍵階段,高質(zhì)量數(shù)據(jù)集已成為賦能產(chǎn)業(yè)智能升級(jí)的戰(zhàn)略基礎(chǔ)設(shè)施和國家數(shù)字競爭力的核心支柱。通過系統(tǒng)化構(gòu)建“價(jià)值驅(qū)動(dòng)、技術(shù)融合、標(biāo)準(zhǔn)引領(lǐng)、生態(tài)協(xié)同”的建設(shè)體系,我國正加速打通從數(shù)據(jù)資源到智能應(yīng)用的閉環(huán)路徑——以《高質(zhì)量數(shù)據(jù)集建設(shè)指南 ( 征求意見稿 )》為規(guī)范框架,以“數(shù)據(jù)要素 ×”三年行動(dòng)計(jì)劃為實(shí)施藍(lán)圖,推動(dòng)金融、醫(yī)療、交通等高價(jià)值領(lǐng)域?qū)崿F(xiàn)“原始數(shù)據(jù)煉化—特征提純—模型賦能”的質(zhì)效躍升。未來,隨著全生命周期管理、多模態(tài)治理、權(quán)益分配三大機(jī)制的完善,高質(zhì)量數(shù)據(jù)集將持續(xù)釋放三大戰(zhàn)略價(jià)值——筑牢人工智能技術(shù)根基的“護(hù)城河”,激活數(shù)字經(jīng)濟(jì)新質(zhì)生產(chǎn)力的“新引擎”,以及構(gòu)筑科技自主可控的“安全壁壘”,最終支撐我國在全球智能時(shí)代從數(shù)據(jù)規(guī)則的“接受者”邁向標(biāo)準(zhǔn)制定的“主導(dǎo)者”,真正實(shí)現(xiàn)數(shù)據(jù)要素向創(chuàng)新動(dòng)能的系統(tǒng)性進(jìn)化。