出品 丨 搜狐汽車·汽車咖啡館 作者 丨 胡耀丹 悄無聲息間,“端到端”的智駕競爭已經演進至第二階段。 最直觀的一項變化是,2025年1月始,各家車企的“車位到車位”功能將逐漸上車,開啟“城市NOA開城大賽”“端到端上車大賽”之后的又一場“戰役”。 在2024年,理想、華為、特斯拉已經沖刺在了“第一線”,開啟了“車位到車位”功能的推送,Momenta雖然沒有用“車位到車位”功能來形容,但其已經發布了“一段式端到端”量產智駕大模型。2025年,小鵬、極氪、小米、元戎啟行等,也均將正式進入“車位到車位”功能競賽的戰場。
“車位到車位”的概念由華為在2024年4月首次提出,其所描述的技術就是采用端到端架構的ADS 3.0。因此,“車位到車位”功能競爭的表象下,本質是端到端智駕上車的競爭。 但在端到端智駕系統的火爆背后,技術路線的分歧正在逐步顯現。目前,業內多將端到端智駕技術分為一段式端到端、兩段式端到端,以此作為劃分,大部分企業仍然在“兩段式端到端”的階段,距離“一段式端到端”還有一定距離。 北汽新能源商創中心解決方案業務總監梁耕龍和北京理工大學汽車研究所所長、教授龔建偉等曾公開對外表示,一段式端到端是終極目標。有行業觀點判斷,2025年將是“一段式端到端”的沖刺之年。 不過也有觀點指出,很難用一段式、兩段式作為劃分端到端技術演進程度的標準。此外,除了“端到端”之外,多模態大模型也成為了技術焦點。VLM(視覺-語言模型)、VLA(視覺-語言-動作模型)等概念,與端到端一同站在了技術的聚光燈下。 伴隨著2025年的到來,爭議與挑戰下,智能駕駛技術正在持續分化。在端到端智駕上車的過程中,智駕的效果也將直接通過市場反饋,間接影響智駕路線的收斂、智駕公司的生存。 01 華為、理想、特斯拉帶頭上車 “車位到車位”功能、端到端架構,正在競相上車。 這場競爭始于2024年,華為、理想、特斯拉是率先落地這一功能的三家企業。 2024年11月,理想汽車向理想L系列AD Max用戶和理想MEGA用戶全量推送“車位到車位”功能;2024年12月,鴻蒙智行全系已陸續開啟全量推送HUAWEI ADS 3.0“車位到車位領航輔助 Beta”;2024年12月,特斯拉FSD v13 開啟推送,實現了“從車位到車位”這一功能。 2025年,更多的參與者將加入競爭。 2025年1月底,小鵬P7+的“車位到車位”功能預計于XOS 5.5.0正式版全量上線;極氪也預計將于2025年1月左右分批推送“車位到車位”領航輔助功能;元戎啟行計劃在2025年一季度向部分種子用戶推送“車位到車位”的功能;小米汽車在2024年12月開始了先鋒版推送。 ““車位到車位””功能指的是,從原始車位出發到目的車位,車輛全場都能夠進行智能駕駛。這一功能主要借助于端到端智駕技術實現,因此被認為是一種將“端到端”具像化的技術傳播話術。 具體的效果層面上,“車位到車位”在兩方面有所突破,一是智駕出行的場景覆蓋度,二是智駕功能的連貫、流暢度。 在“車位到車位”上車競賽前,智駕行業的競爭還處于“開城大賽”“全國都能開”的競爭階段,即互相PK彼此的城市NOA功能能在多少座城市使用,是否全國都能使用。彼時,城市NOA功能指的單單是在城市道路的場景中,實現點到點的輔助駕駛。 而“車位到車位”則將這場競賽拉到一個新高度。在場景覆蓋度方面,“車位到車位”實現從高速、鄉間小路、隧道、城市道路、停車場等場景的全覆蓋;在連貫、流暢度方面,“車位到車位”要做到在各種場景間順滑切換,實現全程無接管。 一個細節是,華為、理想等“車位到車位”智駕系統,均能夠自動通過此前需要駕駛員操作的場景,比如高速ETC、停車場閘機等。這也被視作該智駕系統的特點之一。 02 路線爭論 在“車位到車位”的功能名稱背后,車企/品牌背后的“端到端”技術思路有相似,也有區別。 在“端到端”架構火爆之前,智能駕駛系統大致由三個核心板塊組成,包括感知、決策、規控。“端到端”架構則去掉決策、規控等功能的明確劃分,多個流程融為一體,在該系統內,感知信號輸入后,直接進行決策信號輸出。按當下的“一段式端到端”和“兩段式端到端”做為區分方式,這被稱為“一段式端到端”。 與之相比,“兩段式端到端”的架構稍微復雜一些。其仍然保留了兩個流程。一般來說,第一個流程仍然是感知,第二個流程為決策、規控。 華為、理想、特斯拉系統的區別在于,華為落地推送的智駕方案采用了兩段式端到端,而理想智駕方案中“端到端”的部分則采用了一段式端到端。由于特斯拉自2023年開始不再舉辦AI Day,外界對其智駕系統的信息所知不多,但有信息顯示,特斯拉FSD Beta V12為一段式端到端。 值得一提的是,目前華為正在向“一段式端到端”努力。據媒體報道,2025年,“一段式端到端”智駕方案將是華為車BU的重點。
但除了端到端本身之外,三者選擇的系統模式也不同。比如,華為在ADS 3.0端到端智駕系統中,除了感知和決策規劃這兩段之外,還額外加入了本能安全網絡。決策規劃后的信號必須經過本能安全網絡,才會最終輸出到車輛的執行機構,以確保安全。 而理想采用了“雙系統”的模式,包括端到端和VLM視覺語言大模式。其用“快系統”(端到端架構)處理簡單任務,讓基于經驗和習慣形成的直覺應對95%的場景,而“慢系統”(VLM,視覺語言模型)則是用邏輯推理、復雜分析和計算能力來解決復雜、未知的約5%交通場景。 雖然沒有官方信息披露,但根據已有信息,特斯拉可能并沒有采用更復雜的網絡結構。這也意味著,三家“車位到車位”功能的“領頭”企業,分別采用了三種不同的技術架構來實現這一功能。 這從側面展現出了當下行業中混戰的一角。 第一場混戰是:“一段式”還是“兩段式”。 兩個架構相比,“一段式端到端”更貼近定義“端到端”的定義。“'一段式’方案很難,但一旦模型學出來能力會很強,這才是我們追求的自動駕駛里面的'ChatGPT’時刻。”商湯科技聯合創始人、首席科學家、絕影智能汽車事業群總裁王曉剛曾說。 但是,并非所有人都對“一段式端到端”持支持態度。百度智能駕駛首席研發架構師、百度智能駕駛事業群組技術委員會主席王亮曾表示,一段式端到端模型的黑盒系統使得控制系統輸出的內容變得困難,缺乏透明度,工程師在調試系統決策邏輯時也面臨挑戰。 不過,《端到端?動駕駛?業研究報告》也指出,缺乏“可解釋性”并不會成為限制端到端模型應用的問題。比如,與其性能較傳統算法的顯著提升相比,可解釋性成為一個次要考量因素。 第二場混戰是:多模態大模型用VLM還是VLA。 在業內不少專業人士眼中,端到端架構與多模態大模型的結合,將是“端到端”路線下一步的發展方向。“去年開始討論端到端,仿佛'端味兒’的濃和淡代表了技術的領先性。到了今年,只講端到端可能也不夠了,大家開始研究多模態大模型。”2025年1月,地平線智駕科技暢想日上,地平線創始人兼CEO余凱調侃道。 所謂多模態大模型,指的是在多種數據模態(如文本、圖像、聲音等)上進行訓練的人工智能模型。理想的VLM(視覺-語言模型),以及基于此更進一步的VLA(視覺-語言-動作模型),都屬于多模態大模型。
采用哪種多模態大模型,相關觀點在不斷碰撞。 目前,VLA備受追捧。“奇瑞的智能化也不客氣了。”2024年10月,奇瑞宣布,將在2025年落地端到端+VLM智駕系統,將在2027年落地端到端 VLA 大模型。元戎啟行CEO周光曾說,現在所有的方案都是端到端1.0,元戎啟行已經投入了更多的精力在VLA模型,這才是端到端2.0。 王曉剛則認為,不否認VLA是端到端的下一代技術方向,只是不會那么快。 此外,要不要做并行系統,行業觀點各不相同。 理想用人類大腦的思考和邏輯的原理,來解釋采用“雙系統”的邏輯。但有觀點認為效果并不會好。 “(雙系統)是一個落后的架構,可能比新手司機會強一點。打個比方,VLM像是讓車上坐了一個教練。”周光說。 但“雙系統”也被認為更加務實。“我們自己選擇的是一條比較務實的道路,系統的內核完全是一段式的端到端數據驅動,但是在數據比較稀疏,短期內用更大數據量也很難收斂的時候,也會用一些有經驗的工程師做一些規則的東西,可以認為是雙并行的系統,目前實踐下來是最有效的。”地平線副總裁兼首席架構師蘇箐說。 如果只看技術概念,在VLA之外,“世界模型”正在成為新寵。CES 2025上,英偉達發布的Cosmos世界基礎模型,可以通過創建合成訓練數據幫助機器人和汽車理解物理世界。地平線面向量產的端到端世界模型World Model,可實現全場景無差別的智能駕駛,為用戶帶來超越“老司機”的擬人化駕駛體驗。 技術路線的爭論意味著,暫時沒有一條路被證明是“最終路線”。智能駕駛,正在技術變革中被不斷重塑。 03 誰能勝出? 技術有周期,人無再少年。 換言之,智能駕駛技術路線,可以不斷在變遷中進行修正、重塑,但是智駕企業——尤其是初創智駕公司,在不高的容錯率下,則很難有“再來一次”的機會。 2024年是分化的一年,有智駕企業喜訊頻傳,紛紛“組團上市”。也有智駕企業風波不斷,禾多科技、縱目科技均陷入泥沼。 頭部智駕企業/車企,如特斯拉、華為、理想,正在技術探索的道理上埋頭前進,而對第二陣營的智駕公司而言,路線抉擇或許將決定生死。 四維圖新CEO程鵬也曾表示,從資金角度分析,2024年沒上市的公司2024年就會開始倒閉,而即便2024年上市了的智駕公司,融資額可能只能撐一年,2026年就撐不住了。因此,他認為,2026是一個變局的點。 《端到端?動駕駛?業研究報告》也指出,中性預期One Model 端到端系統從2026年至2027年開始上車量產。 因此,從2025年到2026年,智駕公司可能將面臨最緊張的一輪淘汰賽。那么,要在端到端、多模態大模型的趨勢中脫穎而出,要做好哪些準備? “我認為拐點到來的技術三要素:第一,領先的算法;第二,足夠大的算力;第三,海量豐富的數據。”余凱說。 從智駕公司的角度來看,市場考驗的無外乎也是這三大要素的儲備。 算法方面,端到端、多模態大模型等算法框架引領了行業方向,公司主要需要儲備足夠多的技術人才進行算法研發。這涉及兩方面的能力,一是公司領導者的魅力、魄力、吸引力,二是公司提供資源的能力。當下智駕人才的高流動,正反映出智駕技術戰背后的“人才戰”。 算力方面,模型訓練算力和車端算力都需要得到提升,以滿足更優秀的模型的需要。模型訓練算力較為考驗財力和先天優勢,比如特斯拉是英偉達H100芯片的最大客戶之一,但是該芯片被禁止出口至中國。《端到端?動駕駛?業研究報告》顯示,大部分研發端到端自動駕駛的公司目前的訓練算力規模在千卡級別,隨著端到端逐漸走向大模型,訓練算力將顯得捉襟見肘。
車端算力則主要是需要在追求芯片算力的同時,進行芯片性價比的平衡。實際上,蔚來、小鵬、理想、Momenta等企業均在開發智駕系統的同時進行芯片研發,軟硬件研發的結合,能幫助其做好算力與成本的“性價比”,同時實現軟硬件結合的全局最優。 而芯片制造商如地平線、英偉達,則開始進行軟件系統研發。地平線SuperDrive智駕系統將在2025年量產落地,目標以捅破天的高階智駕方案,加速推動智能駕駛在三年邁入“handsoff”的新階段。 數據方面,端到端架構較為依賴數據驅動,訓練數據的重要性得到進一步增強。數量方面,訓練數據的來源有二,一是真實場景數據,二是模擬場景數據。目前后者還在發展之中,前者則嚴重依賴數據采集團隊和產品落地。質量方面,系統需要優秀駕駛員所提供的數據來進行迭代,以達到“老司機”水準,但這對數據質量提出了極高的要求。 不過在智駕領域內,并不是所有企業都能夠兼有算法、算力、數據。不同的企業可以設計不同的智駕技術發展路線圖,來滿足技術發展的需求。只不過,其中存在快慢之別。 “采用一段式端到端技術的成本相對較高,所需的算力投入可能會顯著增加,而分段式技術的成本則相對較低,因此在選擇技術方案時,企業需要綜合考慮成本和技術能力的平衡。”北京理工大學汽車研究所所長龔建偉曾說。 對端到端智駕發展路線來說來說,“一段式”還是“兩段式”是局部的爭議;對一家企業來說,技術的發展走哪條路也是“局部”的選擇。“局部最優”并不意味著“整體最優”,實現了“整體最優”,才機會能夠健康成長。 |
|