本文源自 太平洋證券 人工智能專題研究之一 證券分析師 王文龍、徐中華 信息化顧問團 楊凱 整理 百度AI平臺將逐步開放,助力構建百度AI生態圈 “云+大腦”打磨升級構成百度AI平臺 百度AI開發者大會(Baidu Create 2017)上,百度AI平臺架構圖首次完整亮相,全新開放了視頻、語音、AR/VR、機器人視覺、自然語音處理等五大類目共14項全新能力,此次開放的技術能力總共有60個,是目前最全面的AI技術開放平臺。百度AI平臺由百度大腦及百度云組成,分為云、大數據、算法層、感知層、認知層、平臺層五大層次,核心能力的開放已達60余項。 圖表1:百度AI平臺的架構 作為百度AI平臺的核心,百度大腦由算法層、感知層、認知層、平臺層共同組成,是業界第一個完整清晰地把認知層和感知層放在一起的人工智能平臺。
圖表2:百度大腦各層次能力 多領域在人工智能方向進行戰略構建 百度自2013年1月組建專注于Deep Learning(深度學習)的研究院—Institute of Deep Learning(簡稱IDL)開始,百度便已經積極布局人工智能:
2017年1月,陸奇先生加入百度擔任集團總裁兼CEO,圍繞人工智能在集團架構、業務以及人事方面大刀闊斧進行改革,包括將自動駕駛事業部(L4)、智能汽車事業部(L3)、車聯網業務(Car Life etc)合并組建新的智能駕駛事業群組(IDG),并向汽車行業及自動駕駛領域的合作伙伴提供一款名叫Apollo的開放軟件平臺。 國外方面,Amazon、Facebook布局人工智能主要是為了智能其各自的傳統主業以使自身在各自領域保持競爭力,而Google及IBM則是從集團層面對其人工智能生態建設進行了整體規劃。國內方面,阿里巴巴在人工智能方面的行動主要是針對具體的應用場景進行智能化,而騰訊則主要是通過在各事業部組建AI團隊來推進集團人工智能的發展。 圖表3:其他科技巨頭在AI的布局概況
可以看到,百度在AI方面的布局已經相對完善,無論是從AI部門的設置、集團戰略定位,還是從開放的各類技術平臺,均能夠幫助百度更快地構建生態圈,以此帶來更多場景應用的落地。 AI平臺開放、百度生態建設延伸至端 百度AI平臺以百度智能云為基礎、百度大腦為核心,目前開放DuerOS和Apollo兩大平臺向終端下沉,與云端一起初步構建起AI生態圈。同時,深度學習開放平臺PaddlePaddle具備易用、高效、靈活和可伸縮等特點,使程序員可以快速應用深度學習模型來解決各種實際問題,加快實驗室技術在各類場景的應用落地,促進百度AI生態的擴散。 圖表4:百度AI平臺與生態構建 百度AI平臺的開源有助于百度吸引更多優秀的開發者參與進來,在幫助完善AI平臺功能的同時,培養用戶的使用習慣,構建起開發者生態。此外,還可以通過開發者使實驗室技術更快地在具體場景落地。百度可憑借開放的平臺尋找到更多的合作者,構建起合作伙伴生態,共同推出行業解決方案和生態合作方案。 DuerOS:開放的對話式人工智能系統 百度在2017CES上推出了DuerOS。此外,百度還發布了DuerOS智慧芯片,具有:“三低、三高”的特點—低成本、低門檻、低消耗、高安全、高集成、高附加。這款DuerOS智慧芯片已將DuerOS與紫光展銳RDA5981完美集成;還采用了ARM公司mbed OS內核及其安全網絡協議棧,實現了與云端的安全連接,降低了設備商應用開發門檻。 7月15日,在Baidu Create 2017上,度秘事業部總經理景鯤發布了DuerOS開放平臺。該平臺以DuerOS對話系統為核心層,應用層為智能設備開放平臺,能力層為技能開放平臺。其中技能開放平臺目前已經擁有10大品類、100多項原生技能且支持第三方資源和內容接入。作為中國版Alexa,未來百度將以DuerOS為切入點,進一步推動集團人工智能生態的構建。 圖表5:DuerOS開放平臺整體架構 【參考資料:Alexa】 Alexa是Amazon推出的一款語音助手,可以對語音指令進行處理并做出語音回復或執行相應操作,截止2017年6月底,Alexa語音助手已擁有超過1.5萬項技能,比官方2月份公布的1萬多項增長了一半多。 圖表6:語音助手技能數量(單位:項) 目前Alexa主要應用于智能音箱、智能家居、可穿戴設備、購物助手等。亞馬遜允許設備制造商通過使用Alexa語音服務(AVS)將Alexa不斷增長的語音功能集成到自己的連接產品中。該語音服務(AVS)是一種云服務,提供基于云的自動語音識別(ASR)和自然語言理解(NLP)。 Alexa的語音識別系統框架主要包括四大塊:信號處理(Signal processing)、聲學模型(Acoustic model)、解碼器(Decoder)和后處理(Post processing)。 首先將收集來的聲音進行一些信號處理,將語音信號轉化到頻域,每10毫秒的語音生成一個特征向量,發送到后面的聲學模型。聲學模型把音頻分成不同的音素。接下來解碼器可以解出概率最高的詞串。最后一步是后處理,把單詞組合成易讀取的文本。 圖表7:Alexa語音識別步驟 其中,聲學模型就是一個分類器,輸入的是向量,輸出的是音頻類別對應的概率。該模型是一個典型的神經網絡,底部是輸入的信息,隱藏層將向量轉化到最后一層里的音素概率。 一個美式英語的Alexa語音識別系統,會輸出美式英語的音素。以美式英語為基礎的Echo,錄了幾千小時的美式英語語音來訓練神經網絡模型,這個成本非常高。但是,世界上還有很多其它的語言,比如德語,如果再從頭用幾千小時的德語語音訓練,成本太高。所以,這個神經網絡模型有趣的地方就是可以“遷移學習”,它可以保持原有模型中其它層不變,只把最后一層換成德語。兩種不同的語言,音素大部分是不一樣的,但是仍然有不少相同的部分。因此,僅使用少量的德語語音數據,就可以在稍作改變的模型上得到較準確的德語結果。 現在,DuerOS可以將搭載Alexa的智能音箱變成能聽懂中文。未來,百度將把DuerOS打造成AI時代的“安卓”,為AI開發者鋪墊好技術基礎,幫助其更方便快捷地開發智能語音交互設備,從而打造以DuerOS為入口的智能語音生態鏈。 Apollo:自動駕駛開放平臺 百度AI的核心突破口當屬自動駕駛,首先是成立智能駕駛事業群組(IDG)。緊接著于今年4月在上海車展上發布了“Apollo”計劃,向汽車行業及自動駕駛領域的合作伙伴提供開放的、完整的、安全的軟件平臺,幫助他們快速搭建一套屬于自己的自動駕駛系統。Apollo開放平臺的發布標志著百度在人工智能的系統級開放進程更進一步,這也是全球范圍內自動駕駛技術的第一次系統級開放。百度將致力于將Apollo打造成汽車工業時代的安卓,但是比安卓更開放、能量更大。 7月5日百度AI開發者大會上,百度首次對外公布Apollo詳細的路線圖、技術框架以及首期開放Apollo 1.0的能力。會上,百度宣布Apollo生態合作伙伴聯盟規模超50家,目前Apollo生態合作伙伴聯盟已輻射OEM、Tier1、地圖公司、芯片公司、基金投資、個人開發者、創業公司、研究機構及政府機構等,成為全球最強大的自動駕駛生態。 Apollo將提供一套完整的軟硬件和服務系統,包括車輛平臺、硬件平臺、軟件平臺、云端數據服務等四大部分。此外,百度還將開放環境感知、路徑規劃、車輛控制、車載操作系統等功能的代碼或能力,并且提供完整的開發測試工具。并且,百度還會在車輛和傳感器等領域選擇協同度和兼容性最好的合作伙伴,推薦給接入Apollo開放平臺的第三方合作伙伴使用,進一步降低自動駕駛的研發門檻。 Apollo核心技術的總體技術框架由4個部分組成:
圖表8:2017年7月發布的Apollo路線圖 圖表9:Apollo平臺開放情況(紫色為Apollo1.0開放部分,紅色部分為Apollo1.5開放部分) 2017年9月20日,百度宣布Apollo1.5正式開放,包含障礙物感知、決策規劃、云端仿真、高精地圖服務、端到端的深度學習(End-to-End)等五大核心開放能力,并支持晝夜定車道自動駕駛。其中,原本計劃于年底開放的端到端的深度學習(End-to-End)在9月20日宣布提前開放。 能力一:障礙物感知 感知模塊的目標是在給定從激光雷達傳感器獲得的三維點云數據后提供感知障礙的能力。它能檢測、分段和跟蹤以高精度地圖ROI方式定義的障礙。此外,它預測障礙物的運動和姿態信息(如航向、速度等)。核心的3D感知模塊是基于大規模點云數據訓練的深度卷積神經網絡(CNN)的障礙物檢測和分割算法,包括高精地圖ROI過濾、基于CNN的障礙物檢測與分割、MinBox障礙物框構建和HM物體跟蹤。 圖表10:3D感知模塊的組成部分
止目前Apollo已有70多家合作伙伴。新增合作伙伴包括OEM主機廠、Tier1供應商、開發者生態公司。同時百度宣布Apollo基金“雙百計劃”,將在三年內投入100億資金,完成超過100家項目的投資,未來將進一步壯大Apollo平臺的生態聯盟。 能力二:決策規劃 決策規劃模塊根據實時路況、感知模塊輸出的信息、道路限速等信息做出相應的軌跡預測和智能規劃,同時兼顧安全性和舒適性,提高行駛效率。決策規劃模塊主要由障礙物檢測、路徑規劃、選擇與控制三部分組成。 圖表11:決策規劃模塊的組成部分
能力三:高精度地圖 高精度地圖與普通電子地圖的主要區別是高精度地圖擁有更精確的車輛位置信息和更豐富的道路元素數據信息,起到構建類似于人腦對于空間的整體記憶與認知的功能,可以幫助汽車預知路面復雜信息,如坡度、曲率、航向等,更好地規避潛在的風險。是實現自動駕駛的關鍵所在。此外,高精度地圖還起到了車輛間共享路況信息、識別交通標志的作用。 能力四:云端仿真 其中開放云端仿真功能作用極為重要,在正常的產品開發過程中,良好的仿真測試環境將方便產品開發者在模擬環境中快速測試產品的性能、可靠性等,加快產品的迭代測試周期從而提高產品測試效率: 圖表12:云端仿真功能的作用
能力五:端到端 按照2017年7月百度發布的規劃,端到端深度學習能力比原定的2017年12月提前了3個月,開放速度有所加快。本次開放的障礙物感知和決策規劃能力使車輛能夠實現不分晝夜的精準障礙物識別,并能通過深度神經網絡精準預測行駛路徑,從而做出最終的駕駛決策。 百度IDG部門的郁浩在百度技術沙龍上的演講中提到,和Apollo中端到端學習相對的是傳統無人駕駛項目中主要使用的規則式系統,這是過去二十多年無人駕駛研究的主流方向。規則式系統從車輛開始是一個閉環:從車輛到車上的傳感器,獲取輸入信息,這些信息經過感知層處理,提取出道路、行人和車輛等各種信息。在感知到的信息的基礎之上,再加入高精地圖等一些靜態信息,把動態信息和靜態信息結合到一起形成較完備的世界模型(World Model)——對外部環境的完備描述。在此基礎之上就可以進入到決策模塊產生決策,然后控制模塊把決策信號傳遞給車輛。 圖表13:規則式系統 上圖是一個很簡單的閉環模式,也有很多人提出了相關的或類似的架構,比如國際汽車工程師學會(SAE)在上邊閉環的基礎上,更細化分成大環、小環和各個模塊之間的關系。 圖表14:國際汽車工程師學會(SAE)推薦的系統架構圖 為了使規則式系統能夠滿足自動駕駛的需要,需要不斷細化、得到更復雜的功能模塊圖,真正系統落地時往往有上千個模塊。因此規則式系統有3個特點:
簡單地歸納一下,與規則式系統相比,端到端學習更像是在模擬、貼合人的思考過程,包括人的下意識思考。相對規則式系統而言,端到端學習成本更低,但需要大量優質數據來讓機器進行學習、篩選各種情況下有效的路徑。 圖表15:Rule based與End-to-End比較 端到端的已有案例 Apollo1.5的合作者Momenta基于定車道晝夜自動駕駛能力,很快完成了實車驗證。實際道路測試表明,搭載了Apollo1.5的平臺即使在夜間可視度不佳的情形下,依舊能完成各種復雜的交通場景識別。 另一個合作伙伴智行者科技在Apollo平臺上打造的無人駕駛掃路車,目前已經在北京一家園區正式落地,開創了Apollo自動駕駛作業車的先例。2017 CES Asia展會上,百度聯合長城汽車、NVIDIA,在哈弗H7展示了基于單目攝像頭+百度深度學習技術的端到端自動駕駛解決方案,進行了公開試乘。 圖表16:封閉園區的固定路線的接駁 Apollo平臺目標實現生態,開源廣納合作者參與 自Apollo1.0發布2個多月后,其在知名開源平臺Github上已經聚集了6000多的開發者,位居開源平臺前列。Apollo GitHub將自己定義為一個開放的、完整的、安全的自動駕駛平臺,以靈活和高性能的技術架構,為全自動駕駛提供支持。 Apollo開源代碼資源可以分為三部分,分別是apollo、apollo-platform、apollo-kernel。 第一部分,apollo該部分有入門文檔,介紹了Apollo的基本信息。modules文件夾中是各個模塊(如感知模塊perception,預測模塊prediction,端到端e2e)的開源內容。還有一些其他文件夾:docker沙箱,scripts腳本,third_party第三方開源代碼,tools工具。說明文檔推薦使用已經設置好的沙箱模式。 第二部分,apollo-platform該部分內容用來提供平臺支持,目前主要是一套經過修改的ROS(機器人操作系統)。 第三部分apollo-kernel,該部分內容用來提供核心支持,目前Apollo核心使用的是修改過的Linux Kernel 4.4.32。 Apollo生態鏈及標的公司 無人駕駛快速落地,行業生態起到了關鍵性作用,對比手機的Android系統來看,在Android系統2009年面世之前,各個手機廠家都有自己的操作系統,而在Android系統出來后,短短幾年內,各大手機廠商操作系統都統一在開源的Android系統之下(蘋果公司的IOS除外),而沒有跟上這個趨勢的廠商(如諾基亞、摩托羅拉等)很快就銷聲匿跡了。現在Apollo平臺,正如Android系統初生之時,在國內有一統平臺的潛質,Apollo目前已經擁有70多家合作伙伴,已有多家合作伙伴采用公司的平臺進行產品研發,未來前景良好。因此,如果關注A股上市公司,建議投資者重點關注參與到Apollo產業鏈的公司,尤其是那些細分行業的龍頭,具有良好的爆發性機會。 圖表17:Apollo合作伙伴分類
Apollo保持著每周數十次頻率的代碼更新,從2017年7月到9月兩個多月時間新增6.5萬行代碼。同時,Apollo獲得全球開發者的積極響應。截止2017年9月20日,共有1300多個合作伙伴下載使用了Apollo開源代碼,近百個合作伙伴通過Apollo官網申請開放數據。上線當月,在全球最大的開源社區Github的全球C++類項目中排名第一,6000多個開發者推薦使用Apollo開源軟件。 PaddlePaddle:深度學習開放平臺 PaddlePaddle前身是百度于2013年自主研發的深度學習平臺,一直為百度內部工程師研發使用。2016年9月,百度宣布其深度學習平臺PaddlePaddle在開源社區Github及百度大腦平臺開放。2017年年初,PaddlePaddle可在Google開源的Docker容器集群管理系統Kubernetes運行,并成為目前唯一官方支持Kubernetes的深度學習框架,兩個開源項目的結合意味著深度學習對于廣大開發者正變得“觸手可及”。 PaddlePaddle具備5大優勢:
圖表18:幾類深度學習平臺的比較
圖表19:Paddle與TensorFlow在RNN下的表現 目前,PaddlePaddle已經被應用于百度的30多個主要產品,如外賣菜品識別、預估出餐時間、海量圖像識別分類、字符識別(OCR)、機器翻譯和自動駕駛等領域。 百度“能聽會看”作為觸手、帶動技術領域的商業化落地 從“能聽”走向“能聽懂”的學習之路 1、百度以語音識別為切入點,構建人工智能生態圈。 2017年,百度語音開放生態2.0。目前,百度語音開放生態已經構建起包括模型層、功能層、交互層、接入層的四層開放架構,已有近25萬開發者納入生態圈,日調用總數達20億次。在開放生態2.0中,百度將開放遠場識別及喚醒技術、定制化語音合成、語音合成音色等技術:
圖表20:語音技術開放現狀 目前,百度已與聯想、中興、長虹、索尼、iReader、攜程、特斯拉等品牌合作,構建包含模型層、功能層、交互層、接入層的語音開放架構。 語音識別的目標是以電腦自動將人類的語音內容轉換為相應的文字,其應用包括語音撥號、語音導航、室內設備控制、語音文檔檢索、簡單的聽寫數據錄入等。 直到第三次人工智能熱潮來臨,深度學習的崛起、高性能計算和大數據的迅速發展才使語音識別從實驗室走出并開始實現商業落地。近年來語音識別準確率得到了極大的提升。2016年11月,搜狗、百度、科大訊飛相繼宣布其中文語音識別率達到了97%。 圖表21:語音識別錯誤率在近幾年得到了極大降低 語音識別作為人工智能核心技術之一,目前各科技巨頭都將其作為切入點,積極布局人工智能。在智能語音領域方面的布局,科技巨頭和初創公司的打法有所差異,具體表現為:
2、自然語言處理技術賦予機器認知能力 人類語言與計算機之間相互作用的研究領域稱為自然語言處理(簡稱NLP)。它結合了計算機科學、人工智能和計算語言學。開發人員利用NLP可以組織和構建知識,執行自動總結、翻譯、命名實體識別、關系提取、情感分析、語音識別和主題分割等任務。目前,中國在自然語言處理領域的專利數量占比僅次于美國。 自百度誕生之日起,中文分詞這種的基礎NLP技術便已經應用于搜索引擎。自然語言處理專家王海峰博士加入百度后對百度NLP工作進行了重新梳理。在加強分詞、專名識別、query需求分析、query改寫等傳統方向的同時還拓展了機器翻譯、機器學習、語義搜索、語義理解、智能交互、深度問答、篇章理解等新的技術方向。在他的帶領下,NLP團隊已經包括了算法開發、系統實現、學術研究、語言學、產品設計和架構、前端、客戶端工程開發等多領域的人才,全面支持百度各種產品應用。 圖表22:百度自然語言處理技術概要 歷經17年的積累,2013年百度首次開發了NLP Cloud平臺,擁有20多種NLP模塊,每天的請求數超1000億次,每日流量達數十億次,已為超2萬個企業和開發者提供百度翻譯API,應用于百度搜索、Feed、O2O和廣告等業務與產品方向。此外,百度還提供語音翻譯及利用字符識別技術進行的圖片內容翻譯。 在Baidu Create 2017上,百度開放了基于百度自然語言處理技術的理解與交互技術平臺UNIT(Understanding and Interaction Technology Platform),包括詞法分析、情感分析、機器翻譯、語義表示、語言模型、語義相似度等技術,為機器賦予“理解”能力。 圖表23:UNIT整體框架 UNIT基于百度海量的搜索數據、問答數據、網頁數據等為對話系統的開發提供大數據保障,為每個不同的對話任務智能推薦相關數據,以供進一步的訓練數據標注。并首次推出理解與交互“對話訓練師”模式讓普通開發者乃至零編程基礎的人都能成為訓練師。對話系統通過與訓練師對話便可不斷完善系統功能、提升對話能力。目前,UNIT已經應用于車載、客服、家居等場景。 圖表24:訓練師模式 全方位視頻理解技術使機器不僅“會看”,還會理解 在Baidu Create 2017上,百度發布了全方位視頻理解技術,包括視頻分割技術、語義理解、人臉識別及機器人視覺等。
計算機視覺是最主要的人工智能基礎技術之一,主要包括信息采集、模型訓練及識別。目前,計算機視覺在圖像識別和人臉識別兩大領域的準確率都已經超過人類極限。計算機視覺技術主要包括圖像及視頻處理、人臉識別、文字識別、智能監控等,其中人臉識別已經廣泛應用于安防、公安、金融等行業。在計算機視覺領域,我國與國外的差距較小。2014年3月,香港中文大學湯曉鷗教授團隊的GaussianFace算法在人臉識別數據庫LFW上準確率達98.52%,在全球首次突破人眼識別能力。目前,中國在計算機視覺方面的專利已躍居世界第一,占當前全球專利公開數量的55%,并且增長勢頭強勁。 圖表25:計算機視覺專利數量分布(單位:%) 今年1月,百度研究院成立AR實驗室,同時推出AR開放平臺DuMix供開發者及內容創作者使用。在Baidu Create 2017上,百度發布全新DuMix AR開放平臺,提供基礎的AR技術,包括AR SDK、內容制作工具、云端內容平臺和內容分發服務4大部分:
圖表26:DuMix AR的能力特點和技術優勢 未來,DuMix AR開放平臺將通過打通手機百度上內容分發渠道,提供更多場景的AR行業解決方案,賦能各行各業,共同探索AR價值。 總結:人工智能仍在探索階段,各家技術方向并不完全趨同,又涉及整個產業鏈的融合能力,因此,最終落地形態和成熟的商業場景存在較大的不確定性。 |
|
來自: mrjiangkai > 《我的圖書館》