少妇极品熟妇人妻,欧美人牲交a欧美精区日韩,久久人妻精品国产

本文內容來源于《測繪學報》2024年第10期（審圖號GS京(2024)2165號）

多模態遙感基礎大模型：研究現狀與未來展望

張永軍1, 李彥勝1, 黨博1, 武康1, 郭昕2, 王劍2, 陳景東2, 楊銘2
1.武漢大學遙感信息工程學院，湖北武漢 430079
2.螞蟻集團，浙江杭州 310013
摘要：遙感對地觀測能力的穩步提升為遙感基礎大模型的涌現和發展奠定了數據基礎。針對不同數據及任務類型，設計不同的深度網絡骨架及優化方法必將浪費大量人力物力。為了解決上述問題，國內外研究學者轉入遙感基礎大模型研究，并提出了大量優秀統一模型。為提高遙感基礎大模型的泛化性和可解釋性，引入泛在的地學知識被認為是一項關鍵技術。目前，已有相關工作在遙感基礎大模型的結構設計或預訓練方法中挖掘或整合了地學知識，但尚無文獻系統性闡述和總結地學知識引導的遙感基礎大模型的研究現狀。因此，本文首先對大規模遙感基礎模型預訓練數據集進行了歸納和總結，并分類回顧了遙感基礎大模型的研究進展；然后，介紹了地學知識引導的遙感影像智能解譯算法以及面向遙感基礎大模型的地學知識挖掘與利用進展；最后，針對該領域仍然面臨的挑戰提出了幾點未來研究展望，旨在為遙感基礎大模型的未來研究提供探索方向參考。
關鍵詞：預訓練數據集; 遙感智能解譯; 遙感基礎大模型; 地學知識
基金項目
國家自然科學基金(42030102；42371321)
作者簡介
張永軍（1975—），男，博士，教授，研究方向為航空航天攝影測量與遙感影像智能解譯。E-mail：zhangyj@whu.edu.cn
通信作者: 李彥勝 E-mail：yansheng.li@whu.edu.cn
本文引用格式
張永軍, 李彥勝, 黨博, 武康, 郭昕, 王劍, 陳景東, 楊銘. 多模態遙感基礎大模型：研究現狀與未來展望[J]. 測繪學報, 2024, 53(10): 1942-1954 doi:10.11947/j.AGCS.2024.20240019.
ZHANG Yongjun, LI Yansheng, DANG Bo, WU Kang, GUO Xin, WANG Jian, CHEN Jingdong, YANG Ming. Multi-modal remote sensing large foundation models: current research status and future prospect[J]. Acta Geodaetica et Cartographica Sinica, 2024, 53(10): 1942-1954 doi:10.11947/j.AGCS.2024.20240019.
全文閱讀
http://xb./article/2024/1001-1595/1001-1595-2024-10-1942.shtml
在遙感大數據時代，爆炸式增長的遙感影像數據為地球觀測信息提取及知識發現帶來了新的挑戰和機遇[1]。目前，深度學習等先進人工智能技術能夠從海量的多模態、多尺度、多時相遙感數據中自動學習特征表達與判別模型，進而提高遙感解譯任務的效率和準確性。雖然眾多任務特定的智能遙感解譯算法已經被提出并在特定應用場景上取得了一定的進展[2-5]，但是任務之間的差異和任務特定解譯模型的有限泛化能力使得每項任務都需要投入大量資源構建任務特定，甚至是場景特定的解譯模型，導致算法解譯效率低下和泛化應用困難。
近期，隨著各類自然語言大模型、視覺基礎大模型、多模態基礎大模型的涌現和發展[6-8]，基礎大模型在各個領域的探索成為研究熱點。鑒于任務特定遙感解譯模型的適用局限，許多學者開始探索針對地球觀測任務的遙感基礎大模型構建與應用。遙感基礎大模型旨在利用大量未標注的遙感數據進行預訓練，創建一個任務通用模型，即從大規模遙感數據中學習通用特征表達模型。進一步，通過遷移學習提高多種下游遙感解譯任務的性能和效率[9-11]。然而，在遙感對地觀測這個具有高度復雜性的領域中，僅依賴深度網絡非線性映射模型難以全面理解地球的復雜特征，地學知識的挖掘與運用顯得愈加關鍵。地學知識不僅包括豐富的時空信息、地形地貌等測繪地理信息數據，還涵蓋了場景先驗知識(如開放街道地圖等)及領域專家知識(如領域常識等)。
目前，已經有一些遙感基礎大模型開始嘗試引入地學知識。具體來說，早期工作嘗試利用時空信息(如成像時間和地理坐標)進行預訓練算法建模[12-14]。后來，研究學者將地學產品嵌入基礎模型預訓練過程，利用公開獲取的土地覆蓋分類產品提供的地學知識優化基礎模型[15-16]。結合地學參量約束模型參數更新也被驗證是有效的[17]。最近，筆者所在團隊提出的SkySense[18]通過對地理位置特定的大規模多模態時序遙感影像進行無監督學習，可以隱式挖掘時空敏感的地學知識，輔助提升解譯精度。總體來說，上述方法涵蓋了多樣化地學知識整合方式，為提高模型性能和可解釋性提供了有效途徑。隨著地學知識引導的強化，遙感基礎大模型有望能夠更好地適應不同地域、不同地貌、不同尺度、不同模態的智能遙感解譯需求。
本文首先系統總結了當前用于遙感基礎大模型預訓練的大規模數據集情況；其次，回顧了遙感視覺基礎大模型、遙感視覺-語言基礎大模型、遙感視覺-地理位置基礎大模型等4個方向的研究進展；然后，分析了當前面向遙感基礎大模型的地學知識挖掘與利用的研究現狀；最后，給出了遙感基礎大模型發展面臨的挑戰與未來研究的幾點展望。

1 大規模預訓練數據集

大規模預訓練數據是基礎大模型的數據引擎。研究表明，在廣泛而多樣化的數據上進行預訓練對于模型學習判別性通用特征表示具有顯著促進作用[19-21]，有助于加速預訓練模型在各種下游任務的微調收斂過程，減少對有標簽數據的依賴，進而提升任務性能。這種任務通用的特征表示為模型在理解和處理不同場景數據時提供了堅實的基礎，使其具備強大的泛化能力。在遙感領域，已有一系列相關研究致力于構建大規模預訓練遙感數據集。根據數據模態的不同，接下來對大規模預訓練數據集進行了歸納和總結。

1.1 遙感視覺預訓練數據集

如表1所示，目前已經涌現出大量各具特色的遙感視覺預訓練數據集。在這些數據集中，MillionAID[22]和SatlasPretrain[23]包含了超高分辨率衛星影像，但僅涵蓋可見光波段。通過這些數據集訓練的遙感基礎模型可能在依賴豐富光譜信息的任務(如農作物識別)等方面存在一定的缺陷。然而，超高分辨率影像所包含的細節紋理信息使得預訓練模型在基于高分影像的實例分割、目標檢測等下游任務上具有一定優勢。相比之下，fMoW[24]、SeCo[12]等數據集利用哨兵2號獲得的中分辨率多光譜影像作為數據源。眾所周知，遙感觀測數據包括多種模態影像類型，這些數據具有獨特的優勢和相互補充的特性。如，光學圖像提供了豐富的光譜信息和紋理細節，但容易受到天氣及云層的影響。合成孔徑雷達傳感器能夠在惡劣的天氣條件下成像。為了滿足更多需要依賴多種模態信息的下游任務，BigEarthNet-MM[25]和SSL4EO-S12[26]數據集致力于構建成對的合成孔徑雷達-多光譜影像數據集。這類數據集旨在提供更全面、多樣化的信息，以支持多模態遙感基礎大模型的訓練和性能提升，有望促進多模態遙感技術的進步，使其在實際應用中更為靈活和有效。
表1 大規模遙感視覺預訓練數據集
Tab.1 Large-scale remote sensing vision pre-training datasets
數據集圖像數量圖像大小/像素空間分辨率/m 圖像類型圖像數據源覆蓋地理位置
fMoW[24] 1 047 691 — — 多光譜(4/8波段) Digital Globe 全球
SEN12MS[27] 180 662 256 10 合成孔徑雷達-多光譜哨兵1號、哨兵2號全球
BigEarthNet-MM[25] 1 180 652 20~120 10~60 合成孔徑雷達-多光譜哨兵1號、哨兵2號歐洲
MillionAID[22] 1 000 848 110~31 672 0.5~153 可見光 Google Earth —
SeCo[12] 1 000 000 — 10 多光譜哨兵2號全球
fMoW-Sentinel[28] 882 779 45~60 10 多光譜(13波段) 哨兵2號全球
TOV-RS-Balanced[20] 500 000 600 1~20 可見光 Google Earth -
SSL4EO-S12[26] 3 012 948 20~120 10~60 合成孔徑雷達-多光譜哨兵1號、哨兵2號全球
SSL4EO-L[29] 5 000 000 264 30 多光譜 Landsat4-5，7-9 全球
SatlasPretrain[23] 856 000 512 0.5~2，10 可見光&多光譜 NAIP、哨兵2號全球
新窗口打開| 下載CSV

1.2 遙感視覺-語言預訓練數據集

目前，能夠用于訓練遙感視覺-語言基礎大模型的數據集較少，其數據規模相對有限。如表2所示，多數預訓練數據集集中于提供圖像-文本描述。
表2 大規模遙感視覺-語言預訓練數據集
Tab.2 Large-scale remote sensing vision-language pre-training datasets
數據集數量屬性
RSICD[30] 24 333個文本描述、10 921張遙感影像圖像-文本描述
RSITMD[31] 23 715個文本描述、4743張遙感影像圖像-文本描述
RSVGD[32] 38 320個語言表達、17 402張遙感影像視覺定位
RS5M[33] 500萬個圖像文本對圖像-文本描述
RSICap[34] 2585個圖像文本對圖像-文本描述
文獻[35] 828 725個圖像文本對圖像-文本描述
文獻[36] 318 000個圖像指令提示對圖像-文本描述、定位描述、區域描述、復雜對話
新窗口打開| 下載CSV
具體來說，早期的遙感圖像-文本描述數據集多為特定任務構建[30-32]，其中的文本描述較為簡短，包含的有限語義信息不足以訓練泛化性強的基礎模型。RSICap[34]致力于創建高質量圖像-文本描述信息，其中，每幅遙感影像帶有場景、目標形狀、目標絕對位置、相對位置、顏色和數量等細節信息的描述。文獻[35]設計了“掩碼轉定位框”“定位框轉文本描述”的轉換流程，將遙感領域常用的3個圖像檢索數據集、10個目標檢測數據集、4個語義分割數據集轉換為圖像-文本描述數據對，有效提升了遙感視覺-語言基礎大模型的預訓練數據多樣性。相似地，文獻[36]整合了一些遙感視覺問答、目標檢測數據集，將其重構成圖像-文本描述、定位描述和復雜對話等形式，以滿足多功能對話智能體訓練的需求。

2 遙感基礎大模型

本文將遙感基礎大模型歸納分為4類：遙感視覺基礎大模型、遙感視覺-語言基礎大模型、遙感視覺-地理位置基礎大模型、遙感生成式基礎大模型。圖1展示了每種類型的遙感基礎大模型所適應的典型下游任務。后續，本節將逐個類別回顧相關研究的前沿進展。

圖1

圖1 遙感基礎大模型分類及典型適用的下游任務
Fig.1 Classification of remote sensing foundation models and typical downstream tasks

2.1 遙感視覺基礎大模型

在計算機視覺領域，視覺基礎模型的研究重點已經從早期的利用大量標記數據的監督學習[37-38](如在ImageNet數據集上進行預訓練)發展到最近的對比學習范式[39-41](在大規模未標記圖像上開展無監督預訓練)。隨著自然語言處理領域中大語言模型的巨大成功[42]，掩碼圖像建模方法(如MAE[43]、BEiT[44]等)受到廣泛關注。研究指出[45]，基于對比學習的模型關注全局結構和形狀等低頻空間信息，而基于掩碼圖像建模的模型則更加側重于挖掘高頻空間信息(如局部結構和精細的紋理)。ibot、DINOv2[46-47]成功地結合了上述兩種范式的優勢，取得了先進的性能表現。
相較于自然圖像，遙感影像往往附帶時空地理元信息，并呈現出不同的空間尺度。遙感領域專家學者利用遙感數據的時空基準信息改造基礎模型，將其擴展應對遙感數據分析。如，GASSL[48]利用地理位置預測作為MoCo-v2框架中的額外代理任務。SeCo[12]和CACo[13]通過使用時間序列的時空結構來感知影像中地物的短期和長期變化。文獻[20]使用自然圖像和遙感圖像作為初步和后續的預訓練數據，構建正、負樣本對進行對比學習，試驗結果表明預訓練數據的類別平衡性對于預訓練模型學習有效通用表征是十分關鍵的。MATTER[49]對照明和視角不變性進行建模，以確保紋理在不變區域上的一致表示。DINO-MC[50]則利用不同大小的多個視圖在DINO框架[51]內進行自監督學習。
此外，許多研究致力于改進基于掩碼圖像建模的框架，或者探索模型規模擴展[52]以及模型輕量化部署[53]。在可見光遙感影像為預訓練數據的背景下，文獻[54]提出了旋轉可變大小窗口注意力方法處理遙感圖像中大尺寸和任意方向的地物，并利用MillionAID設計了遙感億級參數量的視覺大模型。RingMo[55]對MAE進行修改，更好地應對遙感影像密集目標檢測任務。Scale-MAE[56]構建了一個帶有尺度感知位置編碼和拉普拉斯金字塔解碼器的框架，實現了多尺度解碼低頻和高頻特征。對于擁有更加豐富光譜信息的多光譜遙感影像數據，SpectralGPT[57]將多光譜圖像作為3D張量數據進行掩碼圖像建模，提出多目標重建損失，有效捕捉空間光譜耦合特征和光譜順序信息。考慮到衛星傳感器能夠以非規則和一定頻率獲取某一地點的時序多光譜影像，Prithiv[58]將常規的2D位置編碼適應性改造為3D版本，由于其具有處理遙感時序數據的能力，該模型被成功應用于洪水檢測、多時相農作物分割等場景。相似地，SatMAE[28]則利用時序多光譜數據來提高和驗證基礎模型處理時間序列的表現。為解決多光譜影像引起顯存占用大的問題，現有遙感基礎模型無法應對任意波段數據輸入的缺陷，USat[59]首先對光學遙感影像的每個波段獨立編碼，然后使用光譜組池化操作聚合不同光譜波段的信息，同時保留不同空間分辨率的圖像地理位置對齊位置編碼。文獻[17]借鑒掩碼圖像建模思想，提出特征引導的掩碼自編碼器，分別利用多光譜和合成孔徑雷達影像重建人工特征描述符(如歸一化指數、方向梯度直方圖)，結果表明相較于直接重建圖像通過重建抽象特征可以獲得更好的特征學習能力。
近期，CMID[21]、GFM[60]、Cross-Scale MAE[61]等研究將對比學習范式與掩碼圖像重建范式相結合，在場景分類、目標檢測、語義分割、變化檢測等眾多圖像級、對象級、像素級的典型遙感解譯任務中展現出明顯性能優勢。類似地，CtxMIM[62]則在重建掩碼圖像損失的基礎上增加上下文一致性約束，以提供額外的上下文信息。與大多數基礎模型采用自監督預訓練方法不同，SatLas[23]依托自建的具有豐富標注類型的大規模數據集SatlasPretrain進行有監督預訓練，并將模型應用于熱帶雨林砍伐檢測、可再生能源基礎設施檢測等任務。文獻[63]面向遙感時空預測任務設計了包含空間、時間、時空建模3個分支的基礎模型，并在雷達回波外推、衛星視頻多目標跟蹤和遙感視頻預測等下游任務中取得了具有競爭力的結果。
除了僅依靠單模態圖像預訓練的工作外，CROMA[64]和De-CUR[65]研究了使用靜態影像進行單模態和多模態圖像源的多模態預訓練。Presto[66]同時利用時間和地理位置信息，聯合多光譜、合成孔徑雷達、高程等多模態信息訓練了輕量級基礎模型。遺憾的是，Presto的預訓練數據未包含高分辨率衛星圖像，且缺乏在基于高分辨率影像的下游任務上廣泛的測試以驗證模型的泛化性。文獻[67]則關注到跨模態協同解譯中異構模態特征的空間相關性問題，采用不同的度量空間(即歐氏空間、復數空間和雙曲空間)提取不同模態圖像的特征，然后采用統一的編碼器進行多模態特征融合。筆者所在團隊則發展了目前參數量規模最大的多模態時序遙感基礎大模型——SkySense[18](20億參數量)，通過時空解耦、時間感知嵌入等機制聯合高分光學遙感影像、時序光學遙感影像、時序合成孔徑雷達影像等多模態數據進行多粒度對比學習。值得說明的是，靈活可插拔性和通用特征的強大泛化性使得SkySense在涵蓋單模態圖像級分類、目標級檢測、像素級分割以及多模態農作物時序分類等8項任務(共計16個數據集)中均取得了最先進的水平。

2.2 遙感視覺-語言基礎大模型

在自然語言處理領域，大型語言基礎模型在自然語言理解、文本生成、智能問答等任務中取得了顯著的成效[68]。特別是ChatGPT取得的巨大成功進一步推動了相關研究的發展。視覺-語言基礎模型則集成了圖像的視覺感知信息和語言的語義信息，旨在從視覺與語言的相互關系中學習通用特征，以更好地完成復雜場景的理解任務[11]。
在遙感領域，已有學者開始視覺-語言基礎大模型相關研究工作。文獻[69]專注于探索前沿的基礎大模型(如GPT-4V等)在地理空間領域相關任務上的表現，為后續的研究提供基準參考。文獻[34]利用構建的RSICap數據集微調了InstructionBLIP模型得到RSGPT模型，并在圖像描述生成、視覺問答任務中顯示出具有潛力的效果。RemoteCLIP[35]則采用對比語言-圖像預訓練(CLIP)方法在創建的視覺-語言數據集上進行了訓練，獲得的預訓練模型在跨模態檢索、零/少樣本圖像分類、目標計數等下游任務中進行了評估。GeoChat[36]致力于構建一個允許用戶對給定的遙感影像視覺內容進行對話的多功能視覺-語言基礎模型，能夠完成圖像級、區域級(指定圖像中的特定區域)、定位式的對話任務。遺憾的是，目前GeoChat僅支持高分辨率的可見光影像，局限了其在眾多下游場景的普適性。由于基于衛星影像的圖像文本標注過程需要專家知識的干預，成本消耗巨大，目前已有的圖像-文本描述數據相較于計算機視覺領域規模小很多。最近，GRAFT[70]考慮利用大規模帶有地理位置信息的互聯網數據作為數據中介，通過訓練對齊相同地理位置的衛星影像和互聯網圖像的視覺特征，從衛星影像中抽取的視覺特征、互聯網圖像對應的視覺特征與已經訓練好的文本語義特征共享至同一特征空間，從而在不需要文本標注的條件下實現影像編碼與文本編碼的關聯。這大大降低了遙感視覺-語言模型訓練的數據標注成本，為該方向提供了一個思路。此外，筆者所在團隊創建了一個大規模遙感場景圖數據集STAR[71]，并在此基礎上延伸拓展出細粒度視覺-語言指令微調數據集FIT-RS及相應的視覺-語言基礎模型SkySenseGPT[72]。SkySenseGPT具有對實例間關系的細粒度感知能力，能夠基于用戶指令完成復雜的圖文交互任務。

2.3 遙感視覺-地理位置基礎大模型

區別于遙感視覺基礎大模型以遙感影像為中心，遙感視覺-地理位置基礎模型則以地理位置為核心，旨在從衛星影像中學習出對應于特定地理位置相關的通用特征表示。考慮到大量遙感數據包含了對應的地理位置信息，預訓練后的位置編碼器能夠廣泛應用于自然環境和社會經濟等任務，如生物群落分類、人口密度回歸等與地理位置相關的任務。
在計算機視覺領域中，一些學者采用了配對的自然圖像和GPS數據訓練位置編碼器，以解決全球圖像地理定位的挑戰。如，GeoCLIP[73]設計了位置編碼器，將GPS坐標映射為高維特征嵌入，并使用經過預訓練的CLIP模型[6]作為圖像編碼器提取圖像特征。隨后，該研究將位置特征與圖像特征映射到共享嵌入空間進行對比學習。不同地理位置的遙感影像的視覺特征受到與地理位置相關的氣候、人口密度等自然環境和社會因素的密切影響。在這一背景下，CSP[74]采用多種方式構造正負樣本對，并通過遙感數據集預訓練后的圖像編碼器與提出的位置編碼器進行對比學習。SatCLIP[14]則致力于捕捉全球不同地區的哨兵2號衛星影像的空間異質性，通過對比預訓練的方式學習位置編碼特征表示。相關試驗證明，SatCLIP模型的位置編碼器成功學習到了與特定區域的社會經濟與環境等因素高度相關的特征表示。上述技術為進一步深入分析地理位置與遙感影像之間的關聯提供了有力支持。

2.4 遙感生成式基礎大模型

遙感影像超分辨率重建、云去除等生成式解譯方法能夠幫助人類更完整、更細致地觀察地表自然環境和人類活動的變化，吸引了眾多學者的關注[4，75]。然而，先前的研究主要集中在為特定生成任務設計專用模型上，導致在實際應用中靈活性和通用性相對不足。穩定擴散模型(stable diffusion)在圖像重建、視頻生成等任務上取得顯著進展，這使得諸多學者將其應用于多種遙感圖像生成式任務，并取得了一定的進展。文獻[76]采用文本描述、遙感影像以及附帶的地理元信息(包括地理坐標、成像時間、空間分辨率等)訓練了遙感生成式基礎模型DiffusionSat。該模型在單個遙感圖像生成、多光譜圖像超分辨率重建、時序圖像生成和圖像修復等多個下游任務上取得了先進的性能表現。文獻[77]則采用預訓練擴散模型學習公開地圖數據，可以生成視覺效果逼真、地物類別可控的合成衛星圖像。該技術可以為數據缺失任務場景補充額外樣本數據。盡管目前遙感生成式基礎大模型仍處于初步發展階段，研究成果相對較少，但其應用潛力巨大，預計將吸引更多學者深入研究。未來，我們可以期待這一領域的快速發展，為遙感生成式解譯提供更為靈活、通用且性能卓越的模型。

3 地學知識引導的遙感基礎大模型

地學知識主要包括地表人類活動與自然演變呈現的規律性時空先驗信息和領域專家知識[78]。基于深度學習的智能遙感解譯模型往往以數據驅動為主，解譯模型的泛化性較低，同時缺乏足夠的可解釋性。為了彌補這一不足，引入地學知識成為提升解譯模型性能的有效手段。本節首先回顧了地學知識引導的智能遙感解譯技術，然后著重探討了地學知識在提高智能遙感解譯模型性能和可解釋性等方面的潛在作用，最后對目前遙感基礎大模型挖掘和利用地學知識的方法進行了分類闡述，旨在為未來相關研究提供參考和啟示。

3.1 地學知識引導的遙感智能解譯方法

近年來，面向遙感影像智能解譯的地學知識引導技術受到國內外研究學者的廣泛關注。在這一方向，筆者所在團隊取得了若干研究進展[79-85]。
（1）利用自然語言嵌入模型或知識圖譜表征模型引導的零樣本遙感影像場景分類。如，文獻[79]創建了遙感知識圖譜SR-RSKG并開展知識圖譜語義表征學習，進一步提出一種深度對齊網絡在隱式空間中穩健地匹配視覺特征和語義特征，從而實現零樣本遙感圖像場景分類。SR-RSKG包含豐富的顯式關系信息(即“實體-關系-實體”或“實體-屬性-屬性值”)，有助于更準確地描述復雜遙感場景。
（2）耦合知識圖譜和深度網絡的光學遙感影像語義分割。鑒于數據驅動的深度學習技術在可解釋性方面存在不足，文獻[82]借助遙感知識圖譜的豐富語義關系建模與強大推理能力，引入高層次專家知識修正深度網絡輸出結果，并將知識推理輸出用于進一步輔助深度學習模型的訓練。此外，地物空間共生知識[85]也被用于提升遙感影像語義分割精度。
（3）經驗知識引導的多模態遙感影像土地覆蓋分類。通過融合光學、合成孔徑雷達和高程等多模態信息，文獻[81]提出了遙感指數等領域知識引導的深度協作融合網絡(DKDFN)。該網絡通過多頭編碼器協作融合多模態數據，利用多分支解碼器創建多任務學習策略重建地學知識，顯著提高了在土地覆蓋分類任務上的精度和穩健性。
（4）多模態知識圖譜推理驅動的合成孔徑雷達影像溢油監測。文獻[83]通過整合遙感影像、矢量、文本信息和大氣-海洋模型信息等構建了海洋溢油監測知識圖譜，結合規則推理和圖神經網絡方法可以在數據類別極不平衡的條件下得到優異的海洋溢油監測結果。通過構建多模態知識圖譜，可以將與溢油監測相關的先驗知識有效地組織在一起，從而克服傳統方法存在的信息孤島問題。在知識推理后，所有推理結果可以集成到知識圖譜中，使知識圖譜能夠不斷迭代演進，進而實現高精度溢油檢測。
從上述的代表性地學知識引導的遙感影像解譯算法可以看出，耦合地學知識的方式是多種多樣的。由于結構化知識圖譜具備可計算、可推理、可進化等優勢，耦合地學知識圖譜和深度學習有望成為新一代遙感智能解譯范式[84]，為地學知識引導的遙感基礎大模型研究提供有益的參考。

3.2 面向遙感基礎大模型的地學知識挖掘與利用

目前，一些遙感基礎大模型的預訓練或推理已經開始探索地學知識的挖掘與利用。總體來說，遙感基礎大模型的地學知識挖掘與利用方法可以大致分為以下4種類型(圖2)。

圖2

圖2 面向遙感基礎大模型的地學知識挖掘與利用的4種方式
Fig.2 Four ways of mining and utilizing geoscience knowledge for remote sensing foundation model
（1）時空結構信息挖掘與利用。遙感影像附帶成像時間、經緯度坐標等元信息，這些地學時空信息能夠有效改善遙感基礎模型預訓練性能。如，拍攝自同一地點但不同成像時間的遙感影像可用于對比預訓練[12-13]；地理坐標編碼可作為預訓練的代理任務[48]；地理坐標、成像時間等時空信息可用作預訓練約束條件[76]；結合視覺信息學習的地理位置編碼器[14]可進行特定區域的變量回歸等任務。
（2）土地覆蓋分類產品嵌入學習。土地覆蓋分類產品(如GlobeLand30[86]、FROM_GLC10[87]等)蘊含著豐富的地學先驗知識。這些地學先驗信息的嵌入建模正成為遙感基礎大模型研究熱點。GeoKR[15]通過對齊視覺特征與公開地學產品提取出的知識特征促進骨干網絡學習，以緩解遙感影像和地理知識之間的時間與空間分辨率差異的影響。GeCo[16]根據地學產品中“時序變化小”“空間聚合性高”的先驗信息定義可學習的糾正矩陣，以學習地學產品中的類別分布特點。此外，利用地學先驗信息干預參與預訓練的遙感數據的類別平衡，能夠在一定程度上改善基礎模型學習到的通用特征的有效性[20]。結合地學先驗知識和生成式基礎模型，文獻[77]將開放街道圖(OSM)提供的道路、建筑物等地物目標信息作為輸入條件，基于ControlNet[88]生成內容可控的遙感合成影像，有望應用于眾多下游任務的有監督數據擴展。
（3）地學參量約束。定量遙感旨在將多源遙感觀測數據定量反演或推算為地學目標參量，形成時空遙感數據產品[89]。相關地學參量(如歸一化指數等)通過物理機理、成像光譜信息反映地表的屬性信息，FG-MAE[17]結合經典的掩碼圖像建模算法重建相關地學參量，從而約束大模型參數更新。
（4）隱式地學知識挖掘與融合。地理景觀的形成是氣候、地質、水文、生物多樣性和人類活動等多種因素的錯綜復雜相互作用[90]。這些因素共同促使地理區域呈現出特定的地理特征，即不同地區的遙感影像往往呈現出明顯的地理異質性。筆者所在團隊提出的SkySense[18]發展了地理空間敏感的上下文學習范式，旨在從遙感大數據中隱式挖掘與融合地學知識。具體而言，將全球劃分為眾多子區域，通過對地理位置特定的大規模多模態時序遙感影像進行無監督學習，以隱式挖掘時空敏感的聚類特征，這些聚類特征一定程度上可以較好地反映不同區域的語義先驗。在推理階段，可以通過注意力機制融合視覺特征和語義先驗來改善遙感影像的解譯性能。

4 面臨挑戰與未來展望

如前文所述，目前各個方向的遙感基礎大模型均取得了一定的進展和突破，但仍然面臨著諸多挑戰。本節從預訓練數據集、評估基準、基礎模型架構、地學知識的嵌入和挖掘及大規模應用等方面對遙感基礎大模型面臨的挑戰進行梳理，并提出了幾點展望。

4.1 面臨挑戰

（1）多模態預訓練數據稀缺與評估基準不足。在自然語言處理和計算機視覺等領域，大量卓越基礎模型的成功案例均揭示預訓練數據集的規模和質量是影響模型泛化性的重要因素[47]。盡管遙感領域逐漸涌現出規模較大的預訓練數據集(詳見第1節)，但仍然缺乏不同衛星源、不同波段組合、不同空間分辨率、不同成像模式的多模態預訓練數據集，無法支撐多模態遙感基礎大模型的充分訓練。此外，全面、統一、可靠的評估基準能夠幫助全面衡量遙感基礎模型的能力。早期遙感基礎模型評估所選用的數據集、下游任務、評估方式各不相同，未形成系統全面的評估數據集及指標體系。筆者所在團隊提出的SkySense[18]在單模態圖像級分類、目標級識別、像素級分割、多模態時序分類等眾多數據集上建立了統一的評估基準結果，以方便后續方法進行對比。未來還應該不斷補充更多任務類型。此外，在弱監督下游任務的條件下評估預訓練模型的泛化性更加符合實際應用場景的需求，如評估在少樣本、含大量噪聲標簽等下游數據條件下遙感基礎大模型的穩健性。
（2）缺少靈活支持多模態、多時序輸入的統一預訓練框架。在遙感領域，遙感影像數據往往呈現出不同分辨率、光譜信息、成像模式、時間序列長度等特性。每種模態數據的成像機理和物理性質各不相同，時序影像包含的時序信息有助于改善時間敏感的下游任務性能。多模態時序數據聯合解譯有利于獲得更加全面、準確的特征表達。盡管目前一些遙感基礎模型開始探索多模態、多時序數據聯合的預訓練，但仍然缺少能夠靈活支持波段任意的影像、文本甚至是音頻的統一預訓練框架。
（3）缺乏地學知識挖掘與嵌入。在提升遙感基礎模型的可解釋性和穩定性方面，引入地學知識被認為是一項關鍵的改進手段。盡管已有一些遙感基礎模型試圖從多個角度隱式或顯式地整合地學知識，但對地學知識的應用和挖掘有待進一步加強。

4.2 未來展望

（1）多模態預訓練數據的豐富與評估標準的完善。為了增強遙感基礎大模型在不同數據源和任務上的泛化性能，未來的研究需要創建大規模、多樣化的多模態遙感預訓練數據集。此外，在現有評估基準的基礎上增加更多遙感定量反演、時序預測與生成任務(如定量遙感分析、地物要素矢量生成、遙感影像時間序列修復等)的評估對比。
（2）模態任意、波段任意、時序任意的遙感基礎模型框架設計。考慮到遙感影像數據的多源、多模態等特性，亟須發展一種支持多樣性輸入的可插拔模型框架，以此實現靈活支持任意模態、任意光譜波段/極化方式、任意時序長度輸入，滿足不同遙感任務的需求。通過這一可擴展的框架設計，模型能夠更好地適應不同應用場景下的遙感數據特性，提高模型的通用性和適用性。
（3）高效低成本下游微調算法研究。在大模型和海量遙感數據的背景下，下游任務全參數微調需要消耗大量的時間和計算成本，因此，亟須發展參數量可控的高效下游微調方法，以達到甚至超過全參數量微調的效果。此外，遙感影像標注成本較高，下游具體應用場景中可獲取的有標簽樣本有限，因此需要開發低標注樣本量的下游任務微調算法，更好地服務于實際應用場景。
（4）地學知識圖譜構建與引導。在具體的遙感智能解譯任務中引入地學知識以提升深度網絡的性能和可解釋性已經受到許多學者關注。地學知識圖譜的構建和利用也被認為是未來遙感解譯的發展趨勢之一[84，91]。通過將源自文本語料庫、時空信息、地形地貌、場景先驗與專家知識等的地學知識整合，以知識圖譜的統一形式進行重構并融入遙感基礎模型的訓練和推理過程是提升基礎模型的性能和可解釋性的重要方向之一。地學知識圖譜的構建與融入不僅可以提升遙感基礎大模型的實際性能表現，還有望為遙感下游應用提供更為全面和深度的結果溯源解釋。
（5）全球尺度大規模復雜場景應用。目前許多遙感基礎模型已經在大量的下游任務數據集上評估了效果，但基礎模型在大規模復雜場景應用上的適應性還需更多探索研究。遙感基礎模型的通用表征能力使其在全球尺度大規模復雜場景制圖應用等方面表現出較大潛力。由于地表呈現出不同景觀格局，需要驗證和優化基礎大模型在應對復雜場景的高效性和穩定性。因此，對遙感基礎模型在大規模復雜場景應用中的適用性和性能進行深入研究，將有助于填補當前研究的空白，有助于解決人道主義救援、農業監測和糧食安全評估、可持續發展評估等全球性問題。

5 結語

遙感基礎大模型為遙感影像智能解譯帶來了新的機遇。通過充分整合地學知識，可以有效輔助遙感基礎大模型感知地表的復雜時空特征與語義信息。本文首先回顧了大規模遙感預訓練數據集；其次，討論了遙感視覺基礎大模型、遙感視覺-語言基礎大模型、遙感視覺-地理位置基礎大模型和遙感生成式基礎大模型；然后，總結了地學知識引導的遙感基礎大模型的研究現狀；最后，分析了目前研究面臨的挑戰，并圍繞數據、算法、知識建模與引導等方面作出了幾點未來的研究展望供學者們參考。

初審：陳品馨

復審：宋啟凡

終審：金君

武漢大學遙感信息工程學院張永軍教授：多模態遙感基礎大模型：研究現狀與未來展望|《測繪學報》2024年第10期

1 大規模預訓練數據集

1.1 遙感視覺預訓練數據集

1.2 遙感視覺-語言預訓練數據集

2 遙感基礎大模型

圖1

圖1 遙感基礎大模型分類及典型適用的下游任務Fig.1 Classification of remote sensing foundation models and typical downstream tasks

2.1 遙感視覺基礎大模型

2.2 遙感視覺-語言基礎大模型

2.3 遙感視覺-地理位置基礎大模型

2.4 遙感生成式基礎大模型

3 地學知識引導的遙感基礎大模型

3.1 地學知識引導的遙感智能解譯方法

3.2 面向遙感基礎大模型的地學知識挖掘與利用

目前，一些遙感基礎大模型的預訓練或推理已經開始探索地學知識的挖掘與利用。總體來說，遙感基礎大模型的地學知識挖掘與利用方法可以大致分為以下4種類型(圖2)。

圖2

4 面臨挑戰與未來展望

4.1 面臨挑戰

4.2 未來展望

5 結語

圖1 遙感基礎大模型分類及典型適用的下游任務
Fig.1 Classification of remote sensing foundation models and typical downstream tasks