摘要:光場成像拓展了經典光學成像的信息維度,為成像技術的提升和突破提供了更多的可能性,是計算成像領域的重要研究內容。光場攜帶了目標和場景的三維信息,通過對光場數據進行合理的建模和處理可以實現三維成像。光場三維成像技術可概括為光場深度估計和光場三維重建兩大類。對于光場深度估計,根據深度計算的不同機理分為基于多視點立體的方法與基于極平面圖的方法;對于光場三維重建,根據是否采用結構光照明分為主動和被動光場三維重建。簡要介紹了光場的基本理論并回顧了常見的光場采集系統,分類介紹了光場三維成像的關鍵技術和典型工作并進行了技術展望。 關鍵詞:計算成像;光場成像;三維成像;光場相機;全光函數;極平面圖 光是物質世界主要的信息載體,對光信息的觀測、記錄和分析是人類認知物質世界的主要手段。將光強分布通過平面介質記錄下來,是光學成像最基本的表現形式。經典成像系統模擬了人眼的工作原理,其所成的像與人類視覺直接感知到的信息基本一致,屬于“所見即所得”的基本成像。而隨著光學成像應用的多樣化和復雜化,伴隨著光電技術和信息處理技術的發展,現代光學成像的基本范式發生了巨大的變化。針對某個特定需求,需要記錄特定的信息并經過特定的數據處理方可得到滿意的圖像。成像系統直接記錄的數據不一定是目標的二維投影,甚至不一定是視覺上可以識別的內容,有意義的圖像必須通過對數據進行計算來產生[1]。這種成像范式稱為計算成像,是當代光學成像技術的發展方向之一,也是光學界和計算機學界研究交匯的熱點[2-8]。 受限于系統工作機理,經典成像系統僅記錄了光的強度信息。眾所周知,光是一種電磁波,其與電磁場相關的物理量,包括相位、偏振等,均攜帶了豐富的信息。在波動光學范疇內,光信息主要以波動光場的形式存在于空間中。如果將光信息的討論范疇限定為幾何光學,則通常只需要關注光線在三維空間中的強度分布情況,也就是目標的幾何光場[9]。本文后續的所有討論均針對幾何光場,在不引起歧義的情況下,我們將幾何光場簡稱為光場。對光場信息的記錄和處理主要通過光場成像和光場重建來實現。隨著相關研究的深入和發展,光場成像已為計算成像的重要分支[1,10-12]。 自然界中的目標和場景均為三維實體,而經典成像系統記錄的是其二維圖像,從幾何的角度看相當于空間三維信息在像面上的二維投影,目標和場景的深度信息在投影過程中丟失。如果希望更真實地還原目標,或者對目標的幾何形貌、位置、內部結構等進行定量分析,則需要從二維圖像中還原丟失掉的深度信息和三維結構,其相關技術統稱為三維成像技術。在生物成像[13]、工業檢測[14]、虛擬現實[15]等領域,三維成像已經成為不可或缺的支撐性技術。三維成像的技術路線多種多樣,光場成像是其中比較典型的技術之一[16]。 關于光場成像,已經有許多優秀的綜述[1,9-12,17-19]較全面地回顧了其相關的各個方面,包括全光函數和相空間理論、光場采集裝置、光場信息處理、光場成像的典型應用等。上述綜述在內容組織上大部分具有大而全的特點,例如,僅對光場信息處理的闡述就包含了光場渲染/視角合成、數字重聚焦、合成孔徑成像、超分辨重建、深度估計等多個方面。而本文主要集中于對光場三維成像相關理論、系統和方法的闡述,對其他光場信息處理技術不展開論述。介紹光場的基本理論,重點闡述四維光場的雙平面模型和相空間模型,引出四維光場與三維成像的內在聯系。介紹光場采集系統,將常見系統概括為序列成像、相機陣列、光場相機三種類別,簡要分析其適用場景和局限性。光場三維成像技術可概括為光場深度估計和光場三維重建兩大類。集中闡述光場深度估計的研究進展,根據深度計算的不同機理,分為基于多視點立體的方法與基于極平面圖的方法。集中闡述光場三維重建的研究進展,根據是否采用結構光照明,分為主動和被動光場三維重建。總結光場三維成像待解決的關鍵問題以及未來的發展趨勢。本文內容的組織由淺入深,涵蓋了光場三維成像的基本原理與最新進展,以期對三維成像領域的初學者和研究者均有所啟發。 本節主要介紹光場的基本概念與常用模型。 2.1全光函數 “光場”這一術語于1936年被首次提出,定義為在均勻介質中沿直線傳播的光線所攜帶的輻射能的分布[20]。進一步地,三維空間中包含顏色信息的動態光場可由七維全光函數L(x,y,z,θ,φ,λ,t)來完備表示,其中(x,y,z)表示空間位置,(θ,φ)表示空間角度,λ表示波長,t表示時間[21-22]。基于全光函數可以在有效的空間-時間-光譜區間內,重建任一位置、任一波長、任一時刻下的可能視圖。由于高維數據的記錄和處理較為困難,實際處理光場成像問題時,通常引入一些限定條件來降低光場函數的維度。動態過程可以表示為一系列不同時刻下的靜止狀態,因此對于靜態光場或者某一時刻的動態光場,時間變量t可以去除。大部分的光場成像并不關心光譜信息,而彩色信息可以根據三原色合成原理由紅、綠、藍三種顏色信息合成,也即彩色光場可以分解為紅、綠、藍三個單色光場。而對于單色光場,波長變量λ可以去除。此時七維全光函數可以簡化為五維光場函數L(x,y,z,θ,φ),其變量均與光線的空間位置和姿態相關。如果進一步假設有限區域內同一光線上的光強恒定,不隨傳播距離的變化而改變[23],則該區域內光場函數具有與空間光線相同的自由度,直觀上可以去掉表示距離的變量z,從而得到四維光場函數L(x,y,θ,φ)。 2.2四維光場模型 四維光場函數的參數組合并不是唯一的,不同參數組合其對應的光場模型也各不相同。以光場計算成像為出發點,在對四維光場進行參數化時需考慮三個關鍵問題:計算效率、光線集的控制以及參數空間的均勻采樣。基于上述考慮,最常用的四維光場模型是雙平面模型,可通過光線與兩個平面的交點來參數化光線[23]。如圖1所示,假設光線從左到右傳播并穿過兩個平面,某光線與第一個平面相交于(u,v),繼而與第二個平面相交于(x,y),由此得到對應雙平面模型的四維光場函數L(u,v,x,y)。在這種情況下,正交方向變量(u,v)取代了空間角度變量(θ,φ)。應當注意雙平面模型并不能完備地表示三維空間中的所有光線。例如,如果兩個平面彼此平行,則雙平面模型函數無法描述平行于兩個平面的光線。它的優點是可以靈活地選擇平面的位置和尺度,從而與實際成像系統建立密切的對應關系。對于一般的成像系統,uv平面對應于孔徑平面,(u,v)的變化對應成像孔徑/視點的改變;xy平面對應于像平面,不同的(x,y)對應目標上不同物點形成的像點。 ![]() 在雙平面模型中,光場數據是一組四維數據,但光場數據的采集通常是借助于二維圖像傳感器完成的,其數據會對應存儲為一組二維數據,因此需要以二維圖像集合的方式來對四維光場數據進行表述和可視化。根據光場數據采集、存儲的不同邏輯,光場數據有兩種不同的可視化形式。如果光場采集設備通過改變視點或分割孔徑成像,則每個視點/孔徑點對應uv平面上的一個點,光場數據呈現為xy圖像的uv陣列,如圖2(a)所示。其中的每個xy圖像均為通過某個視點/孔徑點所成的像,稱為子孔徑圖像。而如果光場采集設備為一代光場相機(光場相機的結構參見3.3節),則每個xy平面上的點均通過微透鏡對整個uv平面(孔徑平面)成像,光場數據呈現為uv圖像的xy陣列,如圖2(b)所示。其中的每個uv圖像均為孔徑平面(通過微透鏡)在某個xy平面點處所成的像,稱為孔徑基元圖像,有些文獻中也稱為微透鏡圖像或宏像素。 ![]() 2.3四維光場的相空間表示 由雙平面模型可知,一組位置坐標(x,y)結合一組方向坐標(u,v)即可唯一確定一條光線,因此(u,v,x,y)可以視為光線的參數/狀態空間,狀態空間中的一個點對應真實世界光場中的一條光線,從而可以用相空間(在計算機視覺領域也稱為光線空間)表示光場[1-2,24-25]。為了方便理解,只討論四維光場的二維切片,即對雙平面模型的每個平面僅保留一維變量,則圖1所示的雙平面模型可簡化為圖3(a)所示的模型,對應的模型函數為L(u,x)。圖3的左列顯示了簡化雙平面模型空間中光線的分布情況,右列展示了相空間中對應的點分布情況。圖3(a)展示了充滿整個光場的規則分布的光線,即從u平面上的等距點出發到達x平面上的等距點。每條光線的參數為(u,x),對應相空間中的一個點。規則分布的光線對應相空間中等間距分布的點。圖3(b)展示了從u平面上的等距點出發會聚到x平面上的同一點所對應的光線,對應相空間中的一組垂直的等距點。圖3(c)展示了第二個平面x'更靠近第一個平面的情況,此時光線在x'平面上尚未完全會聚,在相空間(u,x')中,光線對應一組傾斜的等距點。與圖3(b)中的相空間分布相比,圖3(c)中的相空間分布沿x軸進行了剪切。圖3(d)展示了第二個平面x″更遠離第一個平面的情況,此時光線在x″平面上已經變得發散,在相空間(u,x″)中,光線對應一組沿相反方向傾斜的等距點。與圖3(b)中的相空間分布相比,相空間分布同樣沿x軸進行了剪切,但剪切的方向相反。由此可見,相空間提供了一種簡潔直觀的光線簇表示方式。另外,相空間的剪切量反映了x平面的遠近變化。這一性質的理論基礎正是基于極平面圖的光場深度估計算法。 ![]() 在成像光路中,孔徑和光線的傳播方向存在天然的聯系。如果采用平面-方向模型對四維光場進行參數化,即將雙平面模型的uv平面視為孔徑平面,但將xy平面視為方向平面,并將雙平面之間的距離設定為1,在傍軸近似條件下,光線與xy平面的交點坐標(x,y)恰好等于光線的方向角,如圖4所示。由此可以在光場的相空間模型與ABCD矩陣分析之間建立聯系[2,26],這為分析光場成像系統乃至更廣泛的計算成像系統提供了新思路。 2.4 四維光場與三維成像 經典相機成像是二維成像,從空間幾何的角度看相當于空間三維信息在像面上的二維投影,目標的三維信息在投影過程中丟失。經典相機成像可近似為小孔成像,圖5(a)所示,其中O1為相機鏡頭的光學中心,像面為相機的圖像傳感器關于O1的中心對稱平面。相機成像時,空間中三個不同的三維物點P、P'、P″在像面中均對應同一個二維像點x1。如果我們只有單視點圖像,僅使用x1無法準確得到點P的位置。如果將相機平移至另外的視點O2并拍攝一幅新圖像,此時由于視差的存在,P、P'、P″三個點在視圖2中對應不同的二維像點x2、x'2、x″2,如圖5(b)所示。利用視點O1、O2,結合對應像點x1、x2,即可由三角幾何關系計算出點P在三維空間中的位置信息[27]。如果只計算了點P的Z坐標,則只能得到點P至像平面的距離(深度),對于整幅二維圖像而言,重構計算得到的是每個像素的深度值,這一過程稱為深度估計。如果同時計算了點P的(X,Y,Z)坐標,對于整幅二維圖像而言,重構計算得到的是每個像素對應的三維點,這一過程稱為三維重建。深度估計與三維重建是計算機視覺領域的經典研究內容,隨著結構光照明的引入和三維成像機制的拓展,相關研究在光學工程領域也日益受到關注。 圖(5b)展示了兩視點(雙目)立體視覺的一些基本要素。視點O1、O2的連線稱為基線,由于三維成像的基本幾何關系依賴于三角形PO1O2,基線長度對三維成像的精度有較大影響。對點P進行三維重建的前提是從不同視圖中得到正確的對應點x1、x2,在視圖1中給定圖像點x1,在視圖2中尋找對應圖像點x2的過程稱為立體匹配或對應點匹配。在被動三維成像中,立體匹配主要依賴物體表面的顏色和紋理信息;對于紋理不明顯或者顏色一致的表面,則考慮通過結構光照明引入額外信息以輔助立體匹配,這也是主動三維成像的出發點。一般情況下,立體匹配需要在視圖2的整幅圖像中尋找對應點,因此無約束的立體匹配是一個二維搜索問題。考慮對極幾何約束[27],可以將候選對應點限定在極線上,將立體匹配退化為一維搜索問題其計算效率和魯棒性將大大提高。極線是極平面與圖像的交線,而極平面是物點與基線所確定的平面。對于如圖5(b)所示的兩個平行視點,其基線O1O2與像面的x軸平行,因此其極線(三角形PO1O2所在的極平面與圖像的交線)總是沿圖像的行方向。另外,立體匹配的隱含條件是同一物點在不同的視圖中具有近似相同的亮度,也即物體表面應為比較理想的漫反射表面。理想漫反射表面由于其漫反射光強分布遵循朗伯(Lambert)定律,又稱為朗伯表面。 ![]() 由四維光場的雙平面模型可知,光場在uv平面上的每個采樣點均代表一個成像視點,四維光場可以分解為一組平行視點的圖像,即圖2(a)所示的子孔徑圖像陣列。因此,光場三維成像可以借鑒多視點立體視覺的思路和方法。但在很多光場數據中,相鄰視點之間的基線很短,其對應的視差非常小,導致傳統的立體匹配方法很難精確地估計視差,因此需要根據光場自身的特性引入約束條件來改善立體匹配的性能。從另一個角度看,相鄰視點之間的基線很短,意味著視點是準連續變化的,由此可以將視差空間擴展為連續空間,從而為非朗伯表面的深度估計提供了可能性,這在處理場景遮擋或半透明表面時則更具優勢。 對極幾何約束在光場三維成像中同樣發揮作用。以四維光場分解得到的水平方向的一行子孔徑圖像為例,這些子孔徑圖像在孔徑平面上具有相同的v值,因此其基線沿著孔徑平面的u軸方向,也即與像面的x軸平行。與圖5(b)所示情況類似,此時所有子孔徑圖像的極線均為各自圖像中的同一行像素,也即所有極線具有相同的y 值。將所有極線(x 方向的行像素)緊密排成一列(按照u 值從小到大排列),即可得到極平面圖,圖中的像素對應x 和u 兩個維度。與圖3所示的相空間的二維切片對比可知,極平面圖與相空間二維切片具有相同的維度和一致的含義,前者是后者的離散采樣。相空間的剪切量對應極平面圖中線的斜率,與目標點的深度存在對應關系,因此極平面圖分析是光場深度估計的有效手段。 ![]() 序列成像光場采集的優點是可以獲得空間、角度分辨率都很高的光場數據,缺點也顯而易見,即由于采集過程耗時較長,不適用于動態目標的快速光場采集。 3.2相機陣列 為了提高光場采集的效率,可以令多個相機從不同的姿態同時成像,即可在很短的時間內完成光場數據記錄。為了保證多個相機之間有效協作,通常將多個相機組合為相機陣列,如圖7所示。圖7(a)為最常見的規則相機陣列,可以實時進行光場采集[31-32]。圖7(b)為專門針對人體光場采集開發的體光場采集系統,通過高分辨相機和可編程光源的協作,采集的人體光場數據,可用于影視級視圖渲染[33]。圖7(c)展示了基于相機陣列的光場顯微鏡,通過專有的光路組合和設計可實現顯微視場下的光場采集[34]。圖7(d)將微相機陣列集成為一個單獨的模組,每個微相機具有不同的顏色濾波器,以此實現彩色光場成像[35]。 基于相機陣列的光場采集系統解決了光場采集的時間效率問題。但大部分的相機陣列體積較為龐大,硬件成本較高,電路控制和數據傳輸較復雜,這在一定程度上阻礙了其應用的推廣。 3.3光場相機 從硬件成本而言,單相機光場采集系統更有優勢,但以序列成像的模式工作時,光場采集的時間效率是個硬傷。為了在系統成本和時間效率之間取得折中,研究者開發了一系列配合單相機使用的光場采集光路,基于單相機的單次成像實現了光場采集。圖8展示了幾種典型的折/反射光場相機,利用各種反射鏡陣列對單相機的孔徑進行分割,實現了光場采集[36-38]。 ![]() ![]() 對相機孔徑的分割也可以由微透鏡陣列(MLA)實現,微透鏡陣列限定了系統的總孔徑,并將總孔徑分割為若干子孔徑,陣列中的每個微透鏡對應一個子孔徑。這種基于微透鏡陣列的成像方式被稱為集成成像[15],其基本成像原理如圖9(a)所示。一個實用的集成成像鏡頭,其中的每個微透鏡可能需要與棱鏡進行組合來實現視場的有效耦合[39]。 ![]() 更具顛覆性的光場相機結構是將微透鏡陣列置于傳統相機的主鏡頭和圖像傳感器之間,由微透鏡對主鏡頭孔徑成像來實現孔徑分割。此類相機統稱為全光相機,在不引起歧義的情況下也被直接稱為光場相機。根據微透鏡陣列軸向位置和自身結構的不同,全光相機的光場成像機制和性能有所區別,如圖10所示[40]。一代全光相機(PlenopticCamera1.0)將微透鏡陣列放置在主鏡頭的像平面上,而將圖像傳感器后移,放置在微透鏡陣列的焦平面上[41]。微透鏡將主鏡頭會聚的光重新發散,然后記錄在圖像傳感器上,因此一代全光相機也被稱為散焦型光場相機。此時相機記錄的圖像結構與圖2(b)中的結構吻合,每個微透鏡發散形成的宏像素記錄了會聚于該微透鏡點的不同方向的光線。基于該設計,先后推出了兩款商業化消費級全光相機Lytro和LytroIllum。由于缺乏明確的日常需求,Lytro全光相機在商業上并不是一款成功的產品,但卻成功引爆了學術界的科研熱情。二代全光相機(PlenopticCamera2.0)將微透鏡陣列從主鏡頭像平面上前移或后移,微透鏡陣列對主鏡頭所成的像進行二次成像并記錄在圖像傳感器上,因此二代全光相機也被稱為聚焦型全光相機[42]。此時相機記錄的圖像是通過子孔徑所成的局部視場圖像陣列。二代全光相機的優點是具有更高的空間分辨率,且可以通過改變微透鏡陣列的焦距實現空間-角度分辨率的調整。如果允許微透鏡陣列中的微透鏡具有不同的焦距,則可以進一步拓展全光相機的重聚焦范圍[43]。Raytrix公司的全光相機即采用了二代全光相機結構。 ![]() 光場相機具有便攜、低成本的優點,但無論采用何種結構,光場相機的角度分辨率是通過犧牲其空間分辨率獲得的。因此在使用光場相機時,應根據具體的需求對空間-角度分辨率進行合理權衡。必要的時候可以考慮進行角度超分辨或者空間超分辨的光場重建[19]。 上述三類光場采集系統的特點對比如表1所示,在進行光場成像的研究時,可以根據具體的應用場景靈活選擇不同的系統。不限制采集時間的前提下,序列成像系統具有最高的空間和角度分辨率,適用于對靜態目標和場景進行高質量光場采集的應用,例如文物的真三維建模、影視場景的三維重建等。相機陣列具有高的空間分辨率和采集效率,但角度分辨率受限于相機單元個數,且需要比較復雜的多相機同步和數據傳輸系統,硬件成本高,因此主要適用于需要精細觀測動態目標且對成本不敏感的應用,例如動態人物精細建模、微小目標的動態觀測與跟蹤等。光場相機可以在一定程度上調整空間、角度分辨率,采集效率高,系統便攜且成本較低,因此適用于需要系統本身靈活運動的應用,例如機器人視覺定位、便攜式三維掃描等。 ![]() 經典成像僅記錄光線在二維平面上的輻射強度分布,而光場成像額外記錄了光線的方向信息,從而可以突破經典二維成像的限制,引入新的成像特性[9,19]。例如,通過對光場的重建和渲染,可以實現數字重聚焦[41,44-46]、視角合成[41,47-49]、孔徑合成[37,44]等功能。四維光場信息攜帶了目標和場景的三維信息,通過對光場數據進行合理的建模和分析,可以挖掘其蘊藏信息來實現深度估計。光場深度估計主要是獲取目標和場景的深度信息。從三維數據的角度看,對于每一個目標點(X,Y,Z),深度估計就是獲取目標點的Z坐標。應當注意的是,部分未進行公制標定的光場深度估計算法僅能夠計算無量綱的深度值,其輸出的Z坐標不具有絕對尺度,僅反映了相對深度。此類深度信息可以滿足三維顯示、目標分割等應用需求。 四維光場本質上包含了場景的多個視圖,從而可以進行深度重建。與傳統的基于立體視覺的方法相比,光場深度估計不需要進行相機標定,因此更便于在實際應用中進行數據采集。典型的光場深度估計流程是首先以特定算法估計初始深度圖,然后使用全局優化或局部平滑算法來細化深度圖[19,50]。光場初始深度估計根據模型的不同主要分為兩大類:基于多視點立體(MVS)的方法與基于極平面圖(EPI)的方法。 4.1基于多視點立體(MVS)的方法 如前所述,光場數據以子孔徑圖像陣列的方式表示時,每個子孔徑圖像相當于一個特定視角的視圖。在朗伯表面假設下,不同視圖中對應三維空間中同一個目標點的圖像點具有相同的灰度/顏色,這些圖像點即為各視圖中的對應點。不同視圖中對應點之間的像素坐標差值稱為視差,根據立體視覺理論可以由視差恢復深度[51-52],如圖11所示。但在很多光場系統尤其是光場相機采集的光場數據中,相鄰視圖之間的基線很窄,其對應視差甚至不超過1pixel[53],導致傳統的立體匹配方法很難精確地估計視差。因此需要根據光場自身的特性引入約束條件以改善立體匹配的性能表現。 ![]() 光線空間中三維直線的幾何結構可用于改善光場的三角剖分和立體匹配。研究表明光場空間在很大程度上是雙線性的,首先將雙線性子空間映射為直線約束,然后進行約束Delaunay三角剖分,最后借助直線輔助的圖分割算法將三維直線約束有效地編碼為光場立體匹配[53]。光場數據中各視圖之間存在部分重疊,將每個視圖作為矩陣行將會構造一個低秩矩陣,因此可以通過求解低秩最小化問題來進行圖像匹配[54]。構造高精度的代價函數有助于提高對應點的匹配精度。首先利用頻域相移進行子孔徑圖像的亞像素平移,然后計算圖像塊的絕對差之和以及梯度差之和來構造代價函數,并以子孔徑圖像之間的對應特征作為附加約束進行多標簽優化,進而實現亞像素精度的視差估計[55]。此外也可以定義多種代價度量函數,并采用基于學習的構架選擇最優的代價度量函數來生成最優深度估計[56]。 利用各種不同的線索作為約束也可以實現光場深度估計。基于光場的重聚焦特性,散焦線索成為最具代表性的深度估計約束。而基于聚焦/散焦的深度估計本質上和多視點立體是等價的[57],因此本文將這一類光場深度估計方法歸類于基于多視點立體的方法。在光場成像中,通過數字重聚焦操作可以實現對目標點的準確對焦,此時從目標點發出的不同方向的光線會聚到同一空間位置,對應的孔徑基元圖像即為該點在不同角度的輻亮度分布。對于朗伯表面,同一目標點在不同方向上(一定角度范圍內)具有(近似)相同的輻亮度,因此其重聚焦后的孔徑基元圖像具有角度相干性,各像素的灰度值(基本)相等。進一步分析可知,角度相干性表現為光強一致性、深度一致性以及陰影一致性[58],如圖12所示。 ![]() 從角度相干性出發,即可利用散焦線索實現光場深度估計。與基于視差和陰影的深度估計融合,可以得到細節更豐富的深度像[58-60]。以聚焦面為中心,非遮擋像素的光場焦棧隨焦深的變換呈現出對稱性,并以此為約束結合數據一致性度量可以實現對噪聲和欠采樣具有較高魯棒性的深度估計[61]。基于朗伯假設和梯度約束將前景和背景分離并生成對應的二值圖,通過對光場重新參數化不斷累加二值圖從而生成視差圖[62]。在密集散射介質中進行光場成像時,考慮介質的背向散射和吸收效應,需要在匹配和散焦線索的基礎上引入基于傳輸的深度線索以改善深度估計的性能[63]。如果采用結構光照明,利用結構光調制蘊含的角度相干性可實現較高精度的深度估計[64-66]。 與經典的多視點立體成像相比,光場成像提供了大量的具有準連續視角變換的子孔徑圖像,從而為處理三維場景的遮擋、反光等傳統難題提供了更多的解決途徑。從光場數據出發,可以在視場范圍內任意空間點處生成該點的孔徑基元圖像,這一思想最早應用于光場渲染,合成孔徑基元圖像的過程被定義為位于該點的表面相機成像的過程。在表面相機模型中引入顏色和距離的雙邊一致性度量(類似圖像處理中雙邊濾波器的定義),可以區分物體表面和自由空間、紋理和非紋理區域、朗伯表面和鏡面,改善遮擋邊緣處的立體匹配[67]。由于遮擋效應,物體的邊緣點不再滿足朗伯表面假設。經過分析,光強一致性在角度塊的局部區域仍然存在,因此仍然可以作為深度估計的約束條件。此外,在角度域中局部光強一致性的分割線與空間域中的邊緣具有相同的方向,將這一性質用于遮擋預測,可以避免在正則化過程中對邊緣的過平滑處理[68]。通過分析空間和角度之間的遮擋一致性,可以為每個候選遮擋點選擇未遮擋的視圖,從而構造抗遮擋能量函數來對深度圖進行正則化[69]。通過引入約束的角度熵來度量角度塊中像素顏色的隨機性,在遮擋區域引入約束的自適應散焦響應,可以同時提高對遮擋和噪聲的魯棒性[70]。 反光表面嚴重背離了朗伯表面光強一致性的假設,諸多經典的深度估計算法在處理反光面時通常難以獲得滿意的結果。通過建立新的線一致性度量模型能夠更準確地描述視點變化對鏡面反射的影響,從而為包含反光表面的場景提供更具魯棒性的深度估計[71]。雖然經典的雙向反射分布函數(BRDF)不再適用于反光表面,對于僅依賴半角的單瓣BRDF,仍然可以建立空間變化的BRDF不變方程來描述深度和法線的關系,進而用于反光表面的深度估計[72]。 4.2基于極平面圖(EPI)的方法 雙目立體視覺中常采用對極幾何來對立體匹配和視差估計提供額外約束。在光場成像中,同樣可以通過對極平面圖的分析來輔助實現深度估計。極平面圖的生成如圖13所示,將四維光場數據整理為如圖2(a)所示的子孔徑陣列圖像的形式,然后將子孔徑圖像沿孔徑的其中一個維度疊加形成三維光場體數據,并對三維光場體數據沿維度疊加的方向進行二維切片,即可獲得對應方向的極平面圖[73]。極平面圖能直接反映場景幾何和反射性質,在一些特定的光場成像應用中別具優勢[74-75]。將極平面圖的定義與圖3所示的光場相空間二維切片的定義進行對比可以發現,極平面圖本質上就是相空間二維切片的離散采樣,相空間的剪切在極平面圖中表現為線的傾斜。而相空間的剪切量與第二個平面的深度密切相關,因此極平面圖中線的斜率與目標點的深度存在對應關系,基于極平面圖的光場深度估計本質上依賴于極平面圖中直線斜率的計算。 ![]() 基于光場數據的特殊結構,可以將立體匹配問題表述為極平面圖上的約束標記問題。同時考慮全局可見性約束,無須進行立體匹配即可為所有視圖生成一致的深度圖估計[76-78]。基于極平面圖的深度估計允許對單個光線進行計算,允許采用從細到粗的處理策略,因此能夠更精細地保留對象輪廓,同時在缺乏細節的區域中進行平滑重建[79]。考慮到光場相機采集的數據存在大量噪聲和混疊,研究者提出一種旋轉平行四邊形算子,對極平面圖進行區域劃分,通過最大化區域的分布距離可以定位極平面圖中的直線,從而減少遮擋和噪聲對深度估計的影響[80]。如果在光場成像時結合條紋投影照明,由于條紋攜帶的相位信息是連續的,基于相位能夠更精確地計算極平面圖中的斜率[81-82]。 機器學習已廣泛應用于各種光場成像技術,光場深度估計也不例外。相關工作主要是基于卷積神經網絡(CNN)實現從極平面圖到深度圖的映射[83-87],具體包括采用端到端映射[83]、基于三維光場子集的編碼-解碼[84]、細節修復網絡[85]、多角度輸入和融合[86-87]等不同的網絡結構。壓縮感知原理也被應用于光場深度估計。通過學習中心視圖的結構并基于極平面圖構建光場字典,確保字典中的每個原子對應唯一的視差。然后使用該詞典對光場進行稀疏編碼,由編碼系數及其對應的原子視差可以得出準確而可靠的深度估計[88]。 完整的光場深度估計算法不僅包含初始視差估計,還包含優化、后處理等環節,對最終結果而言,很難確定其中哪個環節影響最大。介于三維場景的復雜性,對光場深度估計算法的性能評估存在各種不同的數據庫、評價標準和評估參數。各個文獻中對不同算法的比較大多局限于幾種相關算法在某些數據庫、某些評價標準下的比較,不同的數據庫和評價標準可能會導致算法性能出現較大的波動,沒有哪一種算法在每個評價標準下都有出色表現[50]。換句話說,面向具體的光場深度估計應用,算法的選擇缺乏統一的標準,需要結合目標和場景的自身特點以及應用需求靈活選擇。總體而言,光場深度估計算法的研究傾向于挑戰一些開放性問題,包括:對遮擋的建模處理,對不連續表面的深度估計,對非朗伯表面的深度估計,根據場景選擇深度估計算法,提高算法的時間效率等。 從三維數據的角度看,對于每一個目標點(X,Y,Z),深度估計僅獲得了目標點的Z坐標。但在三維定位、三維點云生成等偏重測量的應用中,則需要采用光場三維重建技術獲得(X,Y,Z)真三維坐標,進而對三維數據進行定量分析和利用。光場三維重建與經典的雙目、多視點三維重建具有共同的理論基礎,本質上均基于三角化原理[89],由三維空間中不同方向直線的交會計算其交點的三維坐標。根據光場成像過程中是否采用結構光照明,又可以分為被動光場三維重建和主動光場三維重建兩大類。 5.1被動光場三維重建 利用自然光或均勻光照明下采集的光場圖像進行三維重建,稱為被動光場三維重建。典型技術為基于光場相機的運動恢復結構(SFM)技術。根據場景幾何與光場結構之間的關系,以及基于Plücker光線坐標(空間直線可以由Plücker坐標直接表示,無須使用方程,簡化了對直線相交、投影等幾何約束的數學描述)的光場投影分析,可以得出描述光場相機之間的光線空間對應關系的線性約束。這些約束可以用于推斷光場相機的相對姿勢,從而實現場景的點云重構[90]。點-光線、光線-直線、光線-平面三類光線流形的光線幾何變換與光場姿態變化之間的關系,能夠揭示光線如何通過兩個光場之間的公共三維點。以此為基礎從光線變換中提取光場相機外參,結合邊緣保留立體匹配技術和光場光束平差技術,獲得聯合優化的光場相機姿態和場景幾何形狀[91-92]。圖14展示了基于光場相機的SFM中包含的基本要素[91]。光場相機特有的多視點幾何模型可以在完整的傳感器分辨率下直接對微圖像進行跟蹤和映射,基于這種多視點幾何模型發展的光場相機標定方法定義了從物體空間直接到傳感器上微圖像的投影,從而更魯棒地估計相機內參。在此基礎上可以實現基于光場相機的同時定位與地圖構建(SLAM)[93]。 在粒子圖像測速[94-96]、機器人視覺伺服[97]、火焰場測量[98]等光場三維成像應用中,為了實現精確的三維重建和姿態估計,建立適用的相機模型并進行精確標定尤為重要。面向光場成像的測量需求,陸續發展了一系列光場相機模型和標定技術,包括四維本征矩陣模型[99-101]、等效相機陣列模型[102-103]、薄棱鏡結合多針孔相機模型[104-105]、多項式映射模型[106]等。一般情況下,光場相機主鏡頭的畸變不能忽略,大部分的相機標定方法中采用了與經典單鏡頭相機模型類似的徑向畸變[99-101,104-105]模型,并進行了非線性優化。 ![]() 5.2主動光場三維重建 被動光場三維重建技術對環境無特殊要求,系統也較為簡單,但對于弱紋理表面的重建結構不夠理想。如果采用結構光照明技術向物體和場景的表面投射結構光,則可以無視表面自身的紋理而產生主動編碼,從而改善三維重建的性能。主動光場三維重建最為典型的發展方向是與條紋投影技術結合[81,107-111],利用條紋中蘊含的相位對光場進行編碼,以充分利用相位編碼所特有的魯棒、連續、高數據密度等優點[112]。 相位編碼結構光場三維重建的基本系統結構如圖15(a)所示,通常由一個光場相機和一個用于進行條紋投影的數字投影儀構成[109]。該系統的本質工作原理同樣是三角化,但與被動光場三維重建不同,這里的三角化主要表現為光場相機與投影儀之間的光線交會。由于在三維重建時僅需要考慮單個光場相機和單個投影儀的交會,故可以靈活采用多種方式進行系統建模。例如,可以直接建立光場相機光線與三維信息的對應關系[107,109],或對光場相機進行結構化建模[111],甚至進行非結構化建模[110]。 ![]() 綜上所述,無論是被動還是主動光場重建,本質上都是由光場中直線的交會來實現三維重建。區別在于,被動光場三維重建中的姿態估計和立體匹配均依賴于表面紋理,可靠性相對較差,因此通常需要采集較多組光場數據,利用數據冗余來提高三維重建的可靠性。其對應的三維重建算法大多借鑒經典的運動恢復結構技術,通過多條光場光線的交會來計算一個三維點,通過光場姿態與幾何結構的聯合優化來提高三維重建的精度;特色在于挖掘光場信息與空間幾何結構之間的聯系,為姿態估計和三維重建提供更多的約束。主動光場三維重建通常將光場相機和數字投影儀視為一個固定結構,二者之間的姿態關系能夠可靠地標定,可為結構光照明提供可靠的立體匹配特征,因此無須采集多組光場數據,直接利用單個光場的光線與投影儀光線的相交即可實現較高精度的三維重建。相較而言,結構光編碼為主動光場三維重建提供了獨立于表面紋理的可靠信息,使三維重建算法得到了簡化。 光場成像拓展了經典光學成像的信息維度,為成像技術的提升和突破提供了更多的可能性,在計算成像領域內受到了越來越多的關注。得益于光學技術、微納技術的發展,僅在最近幾年(2019—2021)就涌現出了基于消色差超透鏡陣列的全彩色光場成像[113-114]、基于光纖束的超細光場成像探頭[115]、基于散射編碼的無透鏡光場成像[116]、基于透明石墨烯光電探測器堆棧的光場成像[117]、基于3D打印堆垛結構的集成成像[118]、基于雙DMD色散補償的編碼孔徑光場成像[119]等一系列關于光場成像系統與機理研究的新進展。這些工作中提出的光場成像技術有望在生物顯微、臨床內窺、波前傳感、虛擬/增強現實、無人駕駛等前沿領域得到應用。而由于采用了新技術和新器件,上述系統獲得的光場數據,其數據質量、數據結構等必然有別于經典光場成像系統的數據,故也為光場信息處理帶來了新的挑戰。基于新穎光場成像系統的深度估計和三維重建是一個值得關注的問題。 光場深度估計嚴重依賴光場數據提供的連續視差空間,本質上源于光場成像的密集視點采樣和高的角分辨率。直觀地來講,高光場角分辨率有利于深度估計。但是,從光場采集設備的角度看,更高的角度分辨率意味著更長的采集時間(對于序列采集)、更大規模的相機陣列或更低的空間分辨率(對于光場相機)。因此從硬件角度提高光場的角分辨代價較高,對光場進行角度超分辨重建是一個更為可行的思路。相應地,高質量的深度圖有助于產生更好的角度超分辨結果。因此可以考慮在共同框架中對深度估計和角度超分辨進行聯合建模,通過聯合優化同時獲得高質量的深度圖和超分辨的光場[19]。 隨著應用領域的擴大化和應用場景的復雜化,光場三維重建作為光場成像應用的底層支撐技術,其重要性日益凸顯。其中基于光場相機的三維重建技術,由于空間分辨率相對較低,在視點合成和三維顯示等面向人眼展示的應用中并不具有優勢。然而在諸如視覺伺服、SLAM、質量控制等基于測量的應用中,更注重的是三維點云或姿態定位的幾何精度,光場相機低空間分辨率的影響相對較小。發展基于光場相機的三維重建技術,必要時輔以結構光照明,提高光場三維重建的精度和速度,必將更好地推動光場相機的普及應用。 文獻來源:中國激光 |
|
來自: taotao_2016 > 《光學》