近日,2025百度云智大會在北京成功舉辦。百度智能云全新升級百度百舸AI計算平臺5.0和千帆企業級AI開發平臺4.0,讓企業以更低成本、更高效率部署和開發AI產品。 會上,百度集團執行副總裁、百度智能云事業群總裁沈抖分享了百度智能云新一代AI云基礎設施最新進展和落地實踐。 ![]() 其中百度百舸AI計算平臺為具身智能 “大腦” 迭代提供支持,已全面適配主流開源具身VLA模型,將視覺語言模型強化學習訓練速度提超1倍、單輪迭代時間縮超50%。 該平臺已支持包括北京、上海、浙江、廣東創新中心在內的具身智能“國家隊”,并已服務產業鏈超20家重點企業,加速技術成果落地;同時,提供高效云端開發工具,實現研發兩倍提效。 ![]() 作為本屆大會的重要環節,“AI+機器人”專場論壇吸引了全網超過數十萬網友的在線觀看。 來自北京人形機器人創新中心、國地共建人形機器人創新中心、智源研究院、維他動力、千尋智能、簡智新創、智平方、北京大學、英偉達等具身智能行業技術先鋒、企業代表齊聚,圍繞具身模型、數據、人機交互、落地應用、產品出海等關鍵話題,共探泛化落地最優解。 ▍具身智能關鍵期 百度智能云打造AI基礎設施推動產業規?;涞?/span> 百度智能云副總裁、泛科技業務部總經理張瑋在致辭中表示,當前具身智能處于關鍵窗口期,雖有較大發展空間,但仍面臨技術研發與應用落地的挑戰。 ![]() 百度智能云副總裁、泛科技業務部總經理張瑋 技術層面,持續推進訓推AI算力、數據采標、大模型、語音交互等方向的合作,助力具身企業的技術和產品研發,其中百度百舸AI計算平臺最新升級的5.0版本中的部分新功能,便是順應具身企業的模型開發專屬需求而來。 場景層面,依托在各行業的AI落地經驗,鏈接資源推動企業與場景方雙向奔赴,共創可規模化的價值場景。 張瑋認為,具身機器人融入場景時的“無違和感”,是行業進入下一階段的標志,百度智能云將持續打造領先AI基礎設施,攜手伙伴推動具身智能從技術突破走向規模化應用。 ▍具身智能基礎模型多技術路線快速迭代 落地場景應用可期 現場,北京大學計算機學院助理教授、智源具身多模態大模型中心負責人仉尚航詳細介紹了具身智能多模態大模型演進趨勢。 ![]() 北京大學計算機學院助理教授、智源具身多模態大模型中心負責人仉尚航 仉尚航認為,構建具身快慢系統是具身智能從 “單一任務/本體” 邁向 “通用泛化” 的關鍵路徑。技術路線上,一方面是以 “大腦 (推理)+ 小腦 (控制)” 的分層快慢系統,大腦模型負責任務拆解、規劃,給小腦模型提示,小腦模型執行原子任務,該分層結構還具備底層系統支持,可跨越不同本體與場景應用。 另一方面則是VLA端到端快慢系統,通過將末端執行器的Pose預測重構為語言建模問題,快系統依據初始狀態生成Action和Pose,慢系統利用結束狀態進行失敗檢測與專家反饋糾錯,同時具備持續性策略更新機制,將慢系統知識遷移至快系統,實現模型進化。 此外,仉尚航團隊還提出Robo4D方法,通過構建4D空間提升機器人操作泛化性,利用先驗引導算法基于單一視角視頻片段生成四維世界空間,當視頻質量欠佳時,能通過世界空間映射多輪優化視頻質量。 百度智能云泛科技行業具身智能賽道負責人張龍君表示,百度智能云自 2023 年下半年專項投入具身智能賽道,核心價值是通過技術賦能與場景鏈接,助力企業突破技術研發與商業化落地難題。 ![]() 百度智能云泛科技行業具身智能賽道負責人張龍君 在技術賦能上,百度智能云聚焦具身大腦、小腦、數據、本體四大方向,加速具身企業關鍵技術突破,助力產品持續升級。 在AI基礎設施方面,支持包括北京人形、國地中心、千尋智能等企業的具身模型研發工作。目前,百舸平臺已適配 RDT、π0、GROOT N1.5 等主流VLA模型,同時在WM世界模型和VLM模型上,全面實現了提效。 在數據方面,重點支持北京人形、國地中心、智源研究院等企業的具身數據采標工作,同時已與NVIDIA推進云上仿真平臺等產品服務合作。 在人機交互方面,將百度多年在語音交互上的技術和產品化積累,遷移至具身智能領域,助力維他動力、云深處等企業打造“更懂人”的具身智能產品。 在安全方面,全力支持智元機器人多個量產型號產品的安全能力建設,為具身智能產品規?;慨a保駕護航。 在場景鏈接上,依托百度智能云在千行百業的AI落地服務經驗,聯動教科研、康養、制造物流等領域資源,推動企業與場景方雙向奔赴。針對商業化落地中操作成功率不足等問題,遷移自動駕駛業務“云代駕”超低延時遙操方案,為具身企業商業化落地提供保障,驅動真實場景數據飛輪,助力模型迭代。 ▍聚焦國內具身頭部梯隊 人形機器人已站在量產化前夕 北京人形機器人創新中心CTO唐劍指出,當前人形機器人商業化落地的難點在于非結構化場景下泛化能力不夠。為此北京人形機器人創新中心圍繞本體、模型、系統三個方面進行技術攻關。 ![]() 北京人形機器人創新中心CTO唐劍 在平臺研發上,北京人形機器人創新中心推出全球首個一腦多能、一腦多機的通用具身智能平臺 “慧思開物”。該平臺由具身 “大腦” 和具身 “小腦” 構成,“大腦” 具備自然交互、空間感知等能力,負責任務規劃;“小腦” 實現全身控制、雙臂協作等任務,執行具體動作,該平臺能讓機器人實現從任務理解到執行的全流程智能化,還可適應多構型本體與多樣化應用場景。 模型構建方面,北京人形機器人創新中心發布具身世界模型體系,其中72B具身多模態大模型擁有物理時空理解與推理能力,具身智能世界基座模型實現神經網絡驅動世界模擬器,打通認知與預判;跨本體VLA模型XR-1,實現同一模型跨本體運行、多場景適配與多技能調用,為技術通用性和能力擴展提供支撐。 在機器人系統優化方面,北京人形機器人創新中心自研人形機器人全身控制自主導航系統,具備點對點導航、動態障礙感知和自主避障能力,拓展自主與語義導航應用空間,解決移動與操作協同執行瓶頸。此外,北京人形機器人創新中心還構建全國首個通用具身智能數據集 RoboMIND,在數據標注、失敗學習機制、虛實協同訓練等方面實現技術創新。 國地共建人形機器人創新中心副總經理劉宇飛圍繞聚焦具身智能落地與技術研發進行分享,劉宇飛表示,在場景實踐方面,團隊探索全尺寸人形機器人移動作業,在汽車產線完成多工位上下料、噴涂等全身操作;同時對標行業做長程任務自主分揀,此前已在WRC展示青龍雙臂機器人的自主識別與操作能力;此外團隊還基于小平臺測試商超取物等民生場景,驗證人形機器人在多領域的應用潛力。 ![]() 國地共建人形機器人創新中心副總經理劉宇飛 技術研發方面,國地共建人形機器人創新中心已構建全國多省市虛實結合訓練場,在河南、江蘇等地落地垂類場景訓練,河南場新增觸覺數據采集,江蘇場聚焦紡織與汽車產業,已采集約30萬條數據。此外,國地共建人形機器人創新中心發布3B參數的VLA具身操作模型,可適配多品牌機器人完成分揀任務,團隊開發 “格物致知” 平臺,支持本體選配、技能訓練與仿真應用開發,還適配鴻蒙等系統,實現機器人自主對話,降低開發門檻。 智源研究院具身數據負責人姚國才提出具身智能行業存在“模型缺數據、數據缺本體、本體缺應用”的循環悖論,這個問題需要全行業協同突破,而非依賴單一主體。姚國才認為具身智能落地關鍵痛點,存在成本高、質量差、數據孤島三大問題:遙操作與標注成本高,硬件維護和管理耗時;遙操作數據易出現動作重復或無效操作,質量難控;不同組織數據格式、采集方案差異大,甚至企業內部數據也難互通。 ![]() 智源研究院具身數據負責人姚國才 針對這些問題,姚國才團隊提出新的解決方案:以“三分管理、七分工具”降低數據成本,用AI預標注將標注時間大幅縮短;構建“本體 - 數據 - 模型”三維評測體系,提前判斷數據質量,同時團隊開發統一數據格式工具鏈,打造“多本體、全流程、AI inside” 的一站式數采平臺,打通采集、標注、訓練全流程,目前該體系已接入多種機器人本體,助力打破數據孤島,為具身智能模型提供高質量數據支撐。 維他動力聯合創始人趙哲倫,分享了消費級具身智能機器人的研發思路與落地規劃。趙哲倫認為,消費級機器人需平衡“全地形能力”與“友善設計”:外觀上遵循黃金分割比與迪士尼12動畫法則,用柔滑圓角、高級材質降低人與機器的距離感;同時通過靈巧頭部設計,將雙目橫向FOV擴展至 230°、縱向FOV提升至125°,實現僅靠雙目就能覆蓋移動所需的視覺范圍。 ![]() 維他動力聯合創始人趙哲倫 架構設計上,趙哲倫提出“端側AI大腦+小腦”方案:智能本體集成超100TOPS算力芯片,負責機器人本體控制與感知決策規劃;頭部單元以低功耗模式處理激光雷達、雙目相機、四陣列麥克風等傳感器數據;搭配高功率密度關節電機(0.4公斤重量可達450瓦峰值功率)與600-700瓦時電池組,助力機器人實現5小時以上續航,還聯合伙伴開發機器人專用激光雷達,以應對復雜生活場景中的障礙。 交互層面,趙哲倫主張突破傳統 “確定性操作” 模式,構建 “多模態輸入(視覺、聽覺、觸覺)—Agent模型—全維度輸出(表情、動作、語音)” 框架:端側部署1B參數的VOA模型,負責環境感知與本體控制;云端聯動百度智能云處理自然語言,可拆解 “去奧森找WC”這類復雜任務,指引機器人分步執行。 此外,趙哲倫提到團隊計劃年底量產機器人,目前已迭代 20 余版模型,后續將通過全國測試(生產 50 臺工程樣機)、連續試制 300 臺測試機、招募 3 萬私域種子用戶,再聯合百度智能云、京東等伙伴推進量產,最終打造 “智能伴隨” 體驗,覆蓋幫人拿物、家庭跟拍、老人小孩看護、遠程替身等家庭場景。 NVIDIA中國區機器人業務負責人李雨倩,分享了NVIDIA三大計算平臺對具身智能端到端開發落地的支撐方案。李雨倩指出,NVIDIA 以 DGX(訓練)、Omniverse/Cosmos(仿真與合成數據)、AGX(推理)三大平臺,覆蓋具身智能開發全流程。其中,Isaac Sim 仿真平臺提供數字孿生環境,支持機器人強化學習、VLA 模型訓練測試,兼容 ROS 等生態,物理描述精準,能實現 Sim to real 高效銜接;Isaac Lab 強化學習平臺可調用抓取等模塊化模型,支持多 GPU 多節點訓練,宇樹四足機器人、天工人形機器人等均借助其優化運動能力。 ![]() NVIDIA中國區機器人業務負責人李雨倩 李雨倩提到,NVIDIA開源VLA 模型GROOT N1.5,結合仿真數據生成與R訓練,還推出GROOT Dreams架構,能通過10秒真實數據生成百萬條訓練數據;新發布的Jetson Thor機器人大腦,算力達 2000+TOPS(FP4),顯存128GB,支持端側大模型部署,且體積與上一代相當,具備工業級安全標準,可提升傳感器處理與多模態交互能力。此外,Isaac平臺已與百度智能云打通,方便企業開箱即用仿真與訓練服務。 千尋智能具身智能部負責人解浚源指出,當前具身智能賽道雖熱度高漲,但行業仍處于早期階段,整體規模與估值相較于大模型公司明顯更低。他強調,制約該領域發展的關鍵并非算力或資本,而是硬件迭代的客觀周期 —— 無論是量產穩定可靠的機器人,還是管理大規模數據采集工廠,都需要耗費大量時間推進。 ![]() 千尋智能具身智能部負責人解浚源 技術路線方面,解浚源認為行業已收斂至 VLA 路線,核心方向為端到端訓練。他以自動駕駛領域為例,說明通過端到端訓練讓機器人模仿人類行為,能有效推動其技術快速進步,并預測未來 1-3 年,機器人在操作簡單物體的流暢度的提升,以及可執行任務數量的增加,都將呈現顯著變化。 數據采集是當前機器人技術的核心難點。解浚源提到,與過往 AI 數據標注不同,機器人數據采集需關聯物理世界,要統籌管理整個供應鏈中的機器人與數采員,以此保障數據采集的高效性與多樣性 —— 因為單一重復的標準動作,對機器人學習幾乎沒有實際意義。 場景落地層面,解浚源給出明確判斷:短期內,工廠場景將率先實現機器人應用;中期來看,物流、商場貨架上貨、酒店服務等服務業領域,將蘊含更大的落地機會;長期愿景則是讓機器人走進家庭,協助人們完成日常事務。同時,他對仿真技術在機器人領域的應用持保留態度,認為真機數據采集與訓練更具效率和經濟性,而中國強大的供應鏈基礎與熟練工人資源,為這一模式提供了有力支撐。 簡智新創機器人聯合創始人李興龍,圍繞具身智能海外高價值場景進行分享。李興龍提出,具身智能要實現商業化落地,需滿足四大核心條件,分別是技術可靠性、經濟可行性、場景適配性與生態協同性。 ![]() 簡智新創機器人聯合創始人李興龍 李興龍強調,國內企業在工程化能力、研發實力及生產效率上具備明顯優勢,如果能做好海外市場認證、進出口技術處理等準備工作,具身智能產品出海的市場潛力十分巨大。 同時他提到,簡智新創自身以數據驅動為核心,不僅打造了手持式數據采集儀,還構建了 “混合模型系統、物理 AI 研究平臺、端側推理平臺、本體平臺” 的研發體系,將從數據采集、數據治理到場景落地全環節持續發力,助力具身智能行業發展。 ▍圓桌論壇大咖共探:“造人”還是“造生產力”? 圓桌論壇環節由硅星人創始人&CEO駱軼航主持,BV百度風投投資副總裁崔軻迪、智平方合伙人&副總裁張鵬、阿米奧機器人聯合創始人&技術負責人馮騫、BeingBeyond合伙人&大模型負責人鄭思鵬、一星機器人聯合創始人&技術副總裁丁琰、靈初智能聯合創始人柴曉杰共同參與,圍繞具身智能 “造人還是造生產力”、模型與數據關系及產業投資現狀等問題展開深度交流。 ![]() 在“通用與場景的關系”這一議題上,各位嘉賓結合自身實踐分享觀點。丁琰表示,一星機器人聚焦輪式雙臂領域,認為直接以通用為目標難度極高,且具身智能的泛化難度遠超大語言模型,國內現有資源難以支撐,因此主張從具體場景切入,“先找'釘子’,再找'錘子’”,先在專用場景或大行業內做出成果。 ![]() 一星機器人聯合創始人&技術副總裁丁琰 張鵬提出,通用智能的核心在于智能化,而非固定形態,形態可隨環境變化;通用能力需依托場景逐步積累,選場景時要滿足技術可達、任務有延續性與閉環性、商業和數據能形成閉環三大條件,讓機器人在場景中持續迭代學習。 ![]() 阿米奧機器人聯合創始人&技術負責人馮騫 馮騫認同智能泛化性的重要性,指出工廠場景中的光照變化、來料變化等需求,對機器人短期單場景泛化能力有要求,而這與長期實現跨本體、跨場景泛化屬于同一路線,二者并不矛盾。 ![]() 靈初智能聯合創始人柴曉杰 柴曉杰提到,靈初智能堅持采用類人五指靈巧手技術路線,即便短期與部分場景需求存在矛盾,也不愿為適配場景使用專用夾具,因為只有這樣才能積累具有通用性的數據,避免陷入傳統自動化的局限,且靈初智能是行業內少有的不在展會上使用平行夾爪的企業。 ![]() BV百度風投投資副總裁崔軻迪 崔軻迪則從投資視角出發,表明百度風投相信通用的價值,投資邏輯是 “tokenize robots”,認為人形機器人與具身智能分屬不同領域,當前行業發展方向已較為明確,后續關鍵在于執行力。 談及 “模型與數據的關系”。崔軻迪強調,具身智能本質是 AI 行業,數據與模型缺一不可,當前行業內不少企業已找到各自的數據解決方案,早期投資就是要支持企業攻克數據難題。 柴曉杰認為,模型與數據的重要性分階段體現,此前行業數據匱乏,如今數據量增多后,單純依賴 Open VLA 路線在精度、質量提升上不及預期,二者需相互迭代推進。 ![]() 智平方合伙人&副總裁張鵬 張鵬提出 “場景定義數據、數據定義模型” 的邏輯,模型未收斂時,數據用于驗證模型穩定性;模型收斂后,依托數據實現 Scaling Law,數采中心的核心作用就是引入場景,加速模型穩定。 丁琰表示,一星機器人秉持 “數據為先” 理念,聚焦真機數據,認為其具有不可替代性;目前正籌建國內外多個數據采集場,滿負荷運轉時月采數據可達 500 萬條以上,還通過可穿戴設備實現工廠場景零成本采集高精度數據,同時提到客戶對數據的需求分為開源研究與定制化兩類。 馮騫指出,阿米奧機器人重視通過場景落地實現數據回流,即便機器人初始落地時成功率并非完美,也會先投入場景執行任務,同步采集工廠實景數據與視頻數據,盡早積累數據壁壘。 ![]() BeingBeyond合伙人&大模型負責人鄭思鵬 鄭思鵬則認為,通用模型難以從單一場景中誕生,模型初始化階段若預訓練場景有限,會限制通用技能獲?。粩祿植几?“食譜”,互聯網數據、仿真數據、真機數據等各有重要性,不同企業會根據需求確定數據側重方向。 針對 VLA 技術路線,嘉賓們也表達了各自看法。鄭思鵬認為,VLA 因 Scaling Law 帶來明確的投資回報預期,為實現具身智能的 “GPT 時刻” 提供了可行路徑。 丁琰表示,VLA 適用于短程任務,面對 2 分鐘左右的長程遙操作數據時,現有 VLA 模型難以應對,仍需改進。 張鵬稱,VLA 是當前機器人領域在端到端模式上的共識,能保障從感知、決策、規劃到控制的全鏈路模型迭代由數據驅動,支撐產品持續演進。 馮騫指出,在模型中加入語言模塊并擴大規模后,VLA 對泛化性的提升效果顯著,有助于推動更多任務落地。 在產業投資判斷方面,崔軻迪明確表示,具身智能領域當前投資并非過熱,而是過冷。該行業需要大量資本投入,目前仍存在諸多爭議話題,待爭議逐步收斂,會有更多資金涌入。且與發展十年的自動駕駛領域相比,具身智能當前投資額差距明顯,未來增長空間廣闊。 如需咨詢企業合作事宜,歡迎聯系機器人大講堂-客服(19560423866,手機與微信同號)進行對接。 |
|