本文內容來源于《測繪學報》2024年第10期(審圖號GS京(2024)2165號) 燕琴1,2, 顧海燕1,2, 楊懿1,2, 李海濤1,2, 沈恒通1,2, 劉世琦1,2 1. 2. 摘要 AI大模型以其泛化性、通用性、高精度等優勢,成為計算機視覺、自然語言處理等AI應用的基石,本文在分析AI大模型發展歷程、價值、挑戰的基礎上,首先從數據、模型、下游任務3個層面闡述了其研究進展,數據層面從單模態向多模態發展,模型層面從小模型向大模型發展,下游任務層面從單任務向多任務發展;其次,探討了遙感大模型3個重點發展方向,即多模態遙感大模型、可解釋遙感大模型、人類反饋強化學習;再次,實現了“無標簽數據集構建-自監督模型學習-下游遷移應用”遙感大模型構建思路,初步開展了技術試驗,驗證了遙感大模型的顯著優勢;最后,進行了總結與展望,呼吁以應用任務為導向,將理論方法、工程技術、應用迭代進行結合,實現遙感大模型的低成本訓練、高效快速推理、輕量化部署及工程化落地應用。 關鍵詞
作者簡介 燕琴(1968—),女,博士,研究員,研究方向為自然資源調查監測、國土空間規劃與用途管制、航空航天遙感測圖等。E-mail:
基金項目 本文引用格式 燕琴, 顧海燕, 楊懿, 李海濤, 沈恒通, 劉世琦. YAN Qin, GU Haiyan, YANG Yi, LI Haitao, SHEN Hengtong, LIU Shiqi. 閱讀全文 AI大模型(也稱“基礎模型”)是人工智能預訓練大模型的簡稱,其主要采用卷積神經網絡、循環神經網絡、自注意力機制、Transformer等架構,在海量數據上進行訓練,能適應多種下游任務,具有很好的泛化性、通用性和實用性,是計算機視覺、自然語言處理等各類AI應用的基石[1-2]。 AI模型的發展歷程(圖1)如下:第一個階段是萌芽期(1950—2005年),該階段是以CNN為代表的卷積神經網絡階段。1980年,卷積神經網絡的雛形誕生;1998年,現代卷積神經網絡的基本結構LeNet-5[3]誕生。此階段的AI模型以簡單的淺層神經網絡為主,不具備處理復雜任務的能力。第二個階段是探索沉淀期(2006—2019年),該階段是以Transformer為代表的全新神經網絡模型階段。2013年,自然語言處理模型Word2Vec[4]誕生,首次提出將單詞轉換為向量的“詞向量模型”;2017年,Google顛覆性地提出了自注意力機制神經網絡結構Transformer[5],奠定了大模型預訓練算法架構的基礎。在此階段,深度神經網絡受到了廣泛關注,但提出的模型一般針對的是單一任務,模型的通用性和泛化性不足。第三個階段是迅猛發展期(2020年至今),該階段是以GPT為代表的預訓練大模型階段。2020年,OpenAI公司推出了GPT-3[6],模型參數規模達到了1750億,成為當時最大的語言模型;2023年3月,發布的超大規模多模態預訓練大模型GPT-4[7],具備了多模態理解與多類型內容生成能力;2023年12月,谷歌推出全新大語言模型Gemini[8],具備多模態理解、邏輯推理等能力。此階段AI模型逐漸落地應用,在生產和生活中發揮越來越重要的作用。 圖1 AI模型發展歷程 Fig.1 The development history of AI models AI大模型具有以下價值:①高泛化通用性。大模型由多個專家模型集成,通過學習大量數據和任務獲得廣泛知識,捕捉更多細節,具有解決多種下游任務的能力,并且可以更好地泛化到新的數據集中。②高精度。具有更多參數和更深層次結構,能對復雜的模式和規律進行準確建模,并通過不斷學習和更新參數提高性能和準確度。③降低門檻。大模型可以自動學習更多特征和規律,減少手動特征工程的需求,使開發者能更輕松地構建高質量模型,節省了大量的訓練時間和計算資源,并且用戶可以通過唯一接口輕松調用各項功能,執行各項下游任務[9-11]。 遙感大模型是利用卷積神經網絡、循環神經網絡、自注意力機制、Transformer等先進的深度學習結構,通過對大規模遙感數據進行訓練,實現對地物分類、目標檢測、語義分割、變化檢測等任務的高效處理[12-13]。國內外遙感領域的商業公司、高校及科研院所陸續推出遙感大模型平臺,在一定程度上能滿足城市規劃、耕地保護、災害監測等實際應用需求。部分國內外遙感大模型平臺見表1。 表1 國內外遙感大模型平臺 Tab.1
由于觀測場景、地物類型、成像條件、遙感器設計與地面相機的差異,遙感影像呈現出多傳感器、多時相、多分辨率、多要素等特點,使遙感大模型構建存在如下挑戰。①高質量樣本體量很小。如在遙感監測業務中,國土三調積累了2.7億個地類圖斑,常態化監測積累了4000萬個變化圖斑,但這些業務中積累的樣本量遠小于計算機視覺領域的數十億圖像數據集,亟須盤活現有的各類數據資源,構建億級高質量樣本。②語言、視覺大模型在遙感領域應用研究比較缺乏。如常用的Image GPT[14]、BERT[15]、SAM[16]等大模型,主要應用于自然語言處理和自然圖像處理領域,亟須借鑒視覺、語言大模型的思路發展遙感大模型。③模型迭代優化技術亟待突破。由于從零開始訓練數十億參數的大模型需要大量算力,難以滿足日益細分的業務需求,需要利用微調及人類反饋強化學習等技術增強大模型的學習能力。④多源數據融合不足,需將不同分辨率、不同傳感器和不同時間點的遙感數據與傳感視頻、文本等異構數據整合,利用多源信息提升遙感大模型的性能。⑤物理、地理、物候、專家等知識未有效利用,可解釋性不強,需要更多地利用多源知識進行引導,提升模型的可信度、可解釋性、場景適應性,以提高模型的決策認知能力[17-18]。 對于遙感大模型的研究進展及面臨的挑戰,武漢大學張良培教授團隊以遙感大模型的預訓練技術為主線,歸納分析了有監督單模態、無監督單模態、視覺-文本聯合多模態預訓練遙感大模型的研究進展,探討了結合遙感領域知識與物理約束、提高數據泛化性、擴展應用場景、降低數據成本4個方面的展望[12]。本文從數據、模型、下游任務3個方面闡述其研究進展,探討多模態、可解釋、人類反饋強化學習3個重要研究方向,并開展自監督單模態遙感大模型初步試驗,旨在推動遙感大模型的研究應用實踐,賦能遙感智能化發展。 1 研究進展AI經歷了從小數據到大數據、從小模型到大模型、從專用到通用的發展歷程。從AI發展歷程來看,AI遙感大模型走向規模化應用需要高質量的樣本數據、泛化的模型結構和高精度的下游遷移,數據層面從單模態向多模態發展,模型層面從小模型向大模型發展,下游任務層面從單任務向多任務發展。 1.1 數據:從單模態向多模態發展多模態數據相比單模態數據更符合人類感知與認知,更有助于場景理解。如影像提供了視覺信息,是多模態模型的基礎,文本是語義理解的關鍵,音頻能夠處理聲音信息和語音識別任務,視頻可用于動作識別、行為分析等任務,溫度信息可用于構建環境感知模型等。因此,多模態數據支撐的大模型更具有多模態理解、高效交互、空間感知、邏輯推理等優勢,可遷移到圖像分類、語義分割、場景描述、圖像問答等多類下游任務。其中,實現多模態任務的關鍵是構建具有充足樣本量的多模態數據集,表2總結了有關研究提出的高質量的多模態數據集。 表2 多模態數據集 Tab.2
遙感業務需要大量的遙感影像數據支持,訓練一個對目標任務有良好表達的模型所需的數據量隨著業務需求的提升逐漸增加,而傳統人工標注耗時長、成本高、效率低,難以滿足訓練多模態大模型的數據需求,必然需要數據擴充。數據快速擴充方式(圖2)有:①數據增強。通過對原始數據集進行旋轉變換、仿射變換、色彩變換、尺度變換等方法進行數據擴充;②提示學習自動標注。利用SAM、segment-anything-eo[30]、SAMRS[31]、RSPrompter[32]等進行實例分割、語義分割、目標檢測等,生成高質量的數據集;③歷史解譯成果自動生成樣本。利用開源地理數據、業務生產解譯成果數據及相應遙感影像,自動生成高質量的樣本數據。 圖2 數據擴充方式 Fig.2 Data augmentation methods 1.2 模型:從小模型向大模型發展AI模型從“標注數據監督學習”的特定任務小模型,發展到“無標注數據預訓練+標注數據微調”的預訓練模型,再到“大規模無標注數據預訓練+指令微調+人類對齊”的大模型,其中,自監督學習是預訓練大模型的核心技術。 自監督學習是通過特定的代理任務生成偽標簽來從未標記的數據中獲取有用的表示信息。主流方法分為預測、對比學習兩大類。預測的自監督學習主要是通過預測重建數據從而使模型學習到數據中的深層特征,BERT通過“完形填空”的方式訓練大型語言模型;GPT通過預測給定的一系列字符后續可能出現的字符,來學習字符之間的語義關聯信息;MAE[33]通過預測重建隨機掩碼后的圖片塊抽取特征訓練視覺模型。對比的自監督學習方法是通過對比學習不同數據視角之間的一致性或差異性,進而學習到數據中的特征表達,BYOL[34]首次舍棄了負樣本,在主流對比學習框架中加入了預測層訓練模型;Moco V3[35]使用動量編碼器訓練ViT(vision transformer)模型,在ImageNet上達到了81.0%的Top-1準確率;DINO[36]加入中心聚集層增加模型穩定性,從網絡中“蒸餾”知識以訓練視覺模型。 遙感領域主要利用3種方式構建遙感大模型(圖3):①微調現有開源視覺大模型。通過微調、提示學習、特征融合等方法,將已有大模型遷移到遙感領域。②構建預訓練大模型。使用無標簽海量遙感數據,構建大型無標簽數據集,利用自監督學習方法構建遙感大模型,通過微調技術使其適配多種業務場景。③構建多模態遙感大模型。將多源遙感數據與有關文本、聲音、視頻、矢量等數據進行融合,充分利用多種數據知識,使模型真正理解遙感[37-39]。 圖3 遙感大模型構建方式 Fig.3 Construction methods of remote sensing large models 在目前典型遙感大模型[40-53](表3)中,紫東太初為全球首個千億參數多模態大模型,突破跨模態多任務自監督學習技術,實現多模態數據的統一表示與相互生成,形成了完整的智能表示、推理和生成能力。RemoteCLIP[40]是第一個用于遙感的視覺語言基礎模型,旨在學習具有豐富語義視覺特征以及對齊的文本嵌入,以實現無縫的下游應用。SkySense是一個通用的十億級遙感基礎模型,在2150萬個時間序列的多模態遙感圖像數據集上進行預訓練,在涵蓋7個遙感任務的16個數據集上展示了卓越的泛化能力,性能大幅領先于其他模型。SkyScript[24]是大規模遙感視覺語言數據集,包括260萬個遙感圖像-文本對,覆蓋2.9萬個不同的語義標簽,可以助力VLM在遙感中的各種多模態任務發展。 表3 典型遙感大模型 Tab.3
1.3 下游任務:從單任務向多任務發展多模態大模型的最終目標是適配并提升特定下游任務上的性能表現,通過提示學習、特征微調等方式將大模型的能力遷移到多任務場景中,適配下游任務的模型微調方式如下:①提示學習微調。利用提示學習讓上游的預訓練模型在盡量不需要標注數據的情況下適配下游任務,從而節省訓練時間和計算資源。②設置適配層。通過微調更新適配層的網絡參數實現不同任務之間的參數共享。③特定任務微調。將多模態大模型的權重作為初始參數,在任務特定數據上進行有監督的微調以適應特定任務需求[54-56]。 下游遷移不僅可以完成語義分割、目標檢測、變化檢測、場景分類等單任務,還可以完成時序作物識別、多模態場景分類、場景描述、視覺問答、視覺對話、視覺定位等多任務。如SkySense可以靈活組合或單獨使用以適應各種任務,從單模態到多模態、靜態到時序、分類到定位,都展現了顯著的泛化能力;GeoChat在視覺對話、目標查詢、目標檢測等多任務處理方面表現突出。多任務處理示例如圖4所示。 圖4 多任務處理示例 Fig.4 Example of multitask processing 2 研究方向遙感大模型已經在對地觀測、自然資源管理、生態環境監測、城市規劃等領域產生了重要影響。然而,遙感數據具有高維、大規模、動態變化、地域差異等特點,需要更強大的大模型來處理這些復雜情況,因此,本節重點探討多模態、可解釋、人類反饋強化學習3個重點發展方向。 2.1 多模態遙感大模型多模態數據不僅包括光學、SAR、LiDAR等遙感數據,還包括文本、音頻和視頻等不同模態數據,可以彌補單個模態的缺陷,通過自監督/無監督學習方法進行多模態大模型的訓練,泛化性顯著提升。構建過程主要包括大規模多模態數據獲取與清洗、基礎模型構建、自監督學習與模型優化訓練、下游任務微調。 目前,多模態遙感大模型(圖5)正向面向理解任務和生成任務發展。面向理解任務的多模態大模型可再分為單流和多流兩種結構。單流結構是指不同模態的特征在拼接后由一個共享的Transformer網絡進行處理,如VL-BERT[57]、UNITER[58];在多流結構中,不同模態則分別由Transformer網絡進行編碼處理,這些網絡之間存在一些特征上的交互融合機制,如ViLBERT[59]、CLIP[54]、ALIGN[60]、VATT[61]。面向生成任務的多模態大模型能夠實現文本、圖片、視頻、音頻等多種模態內容的生成應用,目前主要有序列生成模型(DALL-E2[62]、CogView[63])和擴散模型(DDPM[64]、Stable Diffusion[65])等。 圖5 多模態遙感大模型 Fig.5 Multimodal remote sensing large model 多模態大模型需要解決的科學問題包括多模態數據對齊、多模態關聯建模、跨模態預訓練模型特征耦合和解耦等。需要突破的核心技術包括多模態數據語義統一表示、多模態特征融合、聯合學習訓練、多任務跨模態自監督學習、模態理解與模態生成統一建模、模型參數遷移等[66-70]。 2.2 可解釋遙感大模型可解釋遙感大模型構建一般通過3種方式(圖6):①可視化解釋分析。利用顯著性映射解釋[71-72]、高維特征降維分析等可解釋技術,對大模型網絡內部結構、運行過程、決策過程進行漸進式可視化解釋分析。②知識增強。利用知識增廣、知識支撐、知識約束、知識遷移等方式,增強模型與知識的一致性,提升遙感大模型的可解釋性[73]。③人機協同。強化人類智能與機器智能的交互協作,實現對復雜問題的人機協同求解,形成人機協同混合智能增強形態及場景應用解決方案,提升遙感大模型的問題解決能力[74-76]。 圖6 可解釋遙感大模型構建方式 Fig.6 Construction methods of interpretable remote sensing large models 現有數據驅動的遙感大模型難以融合領域知識,推理與自學習不足,可解釋性不強,缺乏對遙感數據的深層理解與邏輯推理能力,可解釋遙感大模型可提高預測結果的信任度,減少偏差,促進模型調優。需要解決知識表示學習、數據-模型-知識耦合機制、人機協同策略、可解釋信息轉化等科學問題。需要突破大規模隱式表達的知識獲取、多源異構知識融合、知識融入的預訓練模型構建、知識數據雙驅動的決策推理、人在回路反饋優化等[77-78]等核心技術。 2.3 人類反饋強化學習針對遙感大模型調整優化困難的問題,人類反饋強化學習是一種有效方法,它是一種結合計算機視覺的學習范式,旨在通過人類的反饋來進行強化學習優化模型,此方法將人類專家的知識引入大模型的學習過程中,人類專家可以對模型進行評估與指導,指出預測行為的優劣,并給予相應的獎勵或懲罰。該方法可以幫助模型快速收斂到較好的策略,減少試錯過程和學習時間,使得模型能夠更好地遵循用戶意圖,生成符合用戶偏好的內容,進而能夠更有效地完成特定任務[79-84]。 人類反饋強化學習需要解決的科學問題包括模型與人類意圖對齊、試錯與開發權衡機制、學習獎勵函數優化、增強學習優化決策等,需要突破的核心技術包括獎勵模型訓練、獎勵模型精調、強化學習指令微調、人在回路反饋優化等[85-89]。基本思路是:首先,利用大規模數據訓練遙感預訓練大模型,并遷移至實際應用中的場景分類、地物提取、變化檢測等下游任務;然后,在多次應用過程中收集人類專家的偏好標注數據,如專家對遙感影像的地物提取效果的評分,數據收集完成之后,利用這些偏好數據訓練獎勵模型,確保模型可以準確學習到人類專家的評價和獎勵行為;最后,運用強化學習中的近端策略優化方法微調初始的遙感大模型,使遙感大模型與人類的價值觀相對齊,整個流程構成人在回路式的模型訓練優化過程,有利于遙感大模型充分運用人類專家知識,達到持續學習、持續優化的效果(圖7)。 圖7 人類反饋強化學習流程 Fig.7 Human feedback reinforcement learning process 3 試驗驗證在人工智能、AI大模型發展環境下,面向基礎地理信息更新、自然資源調查監測、全球地表覆蓋變化等應用需求,本文實現了“無標簽數據集構建-自監督模型學習-下游遷移應用”遙感大模型構建思路。首先,在全球范圍采樣隨機點,收集大規模無標簽遙感數據,覆蓋城市、農田、水域、森林、荒漠等地表覆蓋類別;然后,利用自監督學習方法,讓模型在沒有人工標簽的情況下自我學習和理解這些數據的內在結構和模式,形成遙感大模型;最后,進行模型微調,遷移至地類提取、變化檢測、目標識別等下游任務。 3.1 大規模無標簽數據集構建根據區域性、時序性、尺度性、多類型數據集采集原則,利用Google Earth Engine在全球范圍內設置采樣點,采集可見光波段多源遙感數據,包括Sentinel-2、北京1號/2號、高分系列、環境系列衛星數據,此外,收集Google Earth、OpenStreetMap等網絡開源數據。 以公開的10 m土地利用覆蓋數據為參考,根據語義豐富程度兼顧樣本均衡性,城區、農田、濕地、森林、水域數據集比例約為6∶1∶1∶1∶1,同時適量采集荒漠、冰雪、草原、云4類數據集。根據各國人口比例,城區中,歐洲、亞洲、北美洲的采樣數量是非洲、大洋洲、南美洲的2倍。由此,在全球范圍內采集了約450萬組遙感影像,結合公開預訓練數據集如TOV_RS等,最終構建了約600萬張512×512尺寸影像的大規模遙感自監督預訓練數據集,全球樣本采集分布如圖8所示,部分數據集見https://github.com/SathShen/PerA。 圖8 全球樣本采集 Fig.8 Global sample collection 3.2 自監督模型構建以DINO V2[90]自監督學習網絡為基礎,該網絡使用了教師-學生知識蒸餾框架[91],利用對比學習方法實現遙感圖像中的特征表達。將ViT-Huge作為骨干模型和編碼器對輸入學生模型和教師模型的特征進行編碼,設置batch size為10,使用BFloat16數據類型加速。學習率最大值設置為5×10-4,在初始的10個epoch會從0預熱到最大值,使用Cosine Scheduler逐漸遞減到1×10-6,使用Fused-AdamW優化器在Nvidia A100 GPU上預訓練共200個epoch,自監督模型構建流程如圖9所示。 圖9 自監督模型構建流程 Fig.9 Self-supervised model construction process 3.3 下游任務應用下游任務應用是評價預訓練模型的準確度和泛化性的重要指標,將完成預訓練的教師編碼器模型參數凍結,結合ViT-Adapter提取遙感影像多級空間特征,使用不同的任務頭網絡將預訓練模型遷移到各種下游任務中去,在多個數據集中都達到了與監督學習相當的性能,表現出了良好的泛化能力。 場景分類下游遷移任務,使用線性探測(linear probe)頭,即單獨的線性層,將預訓練模型遷移到場景分類任務中,實現不同場景目標的精準分類。僅使用原始影像經過編碼器輸出的class token輸入線性探測頭,與通過所有補丁全局池化得到的特征向量相比,這種方法通常可以在使用更少的計算資源的同時,得到更高的分類準確率。試驗分別在AID和SIRI-WHU兩個數據集上進行,共訓練1000個epoch,評價結果如表4所示,模型在AID數據集上到達了89.2%的Top-1準確率和98.8%的Top-5準確率,在SIRI-WHU數據集上達到了94.7%的Top-1準確率和99.9%的Top-5準確率,達到了較高的場景分類準確度。 表4 場景分類評價結果 Tab.4
地物提取下游遷移任務,將UPerNet作為頭部網絡對遙感影像進行語義分割,實現云、水體、建筑物等多種地物的提取。原始影像通過編碼器輸出多尺度特征,再通過頭部網絡UPerNet從GF1_WHU_CLOUD、Potsdam、GID 3個數據集中提取云、建筑及水體,3種數據集均被裁剪到512×512像素以適應ViT的輸入,每個任務均使用AdamW優化器訓練200 epoch。試驗結果如圖10和表5所示,在單類地物要素提取任務上,模型表現出良好的泛化性和精度,但在復雜場景和細小變化中仍有漏提、錯提現象。 圖10 地物提取結果 Fig.10 Results of feature extraction 表5 地物提取評價結果 Tab.5
變化檢測下游遷移任務,同樣將UPerNet作為頭部網絡對雙時相遙感影像進行變化檢測,在LEVIR-CD建筑物變化檢測數據集上微調以檢驗在變化檢測任務中預訓練模型的性能。數據集被裁剪為512×512像素,使用16的batch size和AdamW優化器訓練200 epoch。前時影像和后時影像將分別通過預訓練完成的編碼器進行特征提取,取兩組特征的差值作為輸入,通過UPerNet得到變化結果。LEVIR-CD數據集試驗結果如表6和圖11所示,在驗證集上取得了77.3%的mIoU,模型在多個場景中正確地預測了影像中的小型建筑,但在預測結果中道路易與建筑物混淆,仍有待改進。 表6 變化檢測評價結果 Tab.6
圖11 變化檢測結果 Fig.11 Results of change detection 4 結論與展望遙感大模型是當前的研究熱點與發展方向,本文從數據、模型、下游任務3個方面闡述了其研究進展,探討了多模態、可解釋、人類反饋強化學習3個發展方向,開展的場景分類、地物提取、變化檢測應用試驗展現了遙感大模型的高泛化通用性、高精度的應用價值。 以遙感智能認知為方向,以應用任務為導向,將遙感大模型的理論方法、工程技術、應用迭代進行結合[92],構建大規模高質量的預訓練數據,設計高效計算的大模型網絡結構,突破模型壓縮與推理加速、下游任務高效適配等技術,實現遙感大模型的低成本訓練、高效快速推理、輕量化部署及工程化應用,是未來的發展目標。 遙感大模型作為重要的新型基礎設施,將帶動上游軟硬件計算平臺的革新,促進高性能軟硬件與大模型協同發展,將打造下游良好的應用生態,促進遙感智能化升級與高質量發展。
|
|