在技術變革和資本力量的雙重推動下,虛擬現實(Virtual Reality)技術在近幾年發展迅速,初步達到了可商業化的程度。虛擬現實和 3D 電影院都是通過雙目視差實現三維成像,但虛擬現實提供了 3D 電影院所不具備的移動視差并提供了強烈的沉浸感。 現階段虛擬現實技術仍面臨著一系列技術難題,其中眩暈和人眼疲勞尤其明顯,是虛擬現實的技術瓶頸。本文從介紹三維視覺感知開始,分析了虛擬現實造成眩暈和人眼疲勞的根本原因。同時給出了解決這一技術瓶頸的答案——動態光場,并從光場采集和顯示兩方面分析了多種光場技術的優缺點。 本文最后列舉了增強現實(Augmented Reality)技術的三種實現形式,并從人與人交互和通信的角度對比了虛擬現實與增強現實在未來的發展趨勢。 1、虛擬現實一直存在近幾年,虛擬現實(Virtual Reality,VR)技術發展迅猛,商業化、市場化和產品化的趨勢日益明顯。然而,早在 50 多年前,科學家們就已經提出了虛擬現實的技術構想。美國計算機圖形學之父 Ivan Sutherland 在 1968 年開發了第一個圖形可視化的 “虛擬現實” 設備,但在當時還不叫 “虛擬現實”,而是被稱為“頭戴顯示” 或“頭盔顯示”(Head-Mounted Display,HMD)。就技術層面而言,現階段的虛擬現實眼鏡或者虛擬現實頭盔仍可劃分為 HMD 的范疇。 2013 年谷歌眼鏡(Google Glass)面市,“虛擬現實” 這個術語開始進入公眾視野。但當時的谷歌眼鏡沒有雙目立體視覺,所以稱為 Google Glass 而不是 Google Glasses。盡管谷歌眼鏡的整體顯示效果低于同一時期的手機和電腦,但其新穎的成像方式引起了人們的極大關注。這背后揭示了人們對于已經沿用了二十多年的傳統平面顯示方式的審美疲勞和對新穎顯示方式的強烈期待。 總體來說,現階段虛擬現實有三大顯著特點(簡稱為 3I):
視覺是人類最敏感,捕獲信息量最大的 “傳感器”。VR 眼鏡隔絕了人眼接收外部視覺信息的通道,取而代之的是虛擬的視覺內容。當人眼受到來自 VR 眼鏡的視覺刺激時,大腦會自動 “繪制” 出虛擬的環境,從而使人沉浸在了一個全新的環境中。 相比于傳統的顯示方式,交互性并不是 VR 所特有的。電視可以借助遙控器交互,電腦可以借助鼠標鍵盤來輸入。目前虛擬現實還沒有統一的輸入設備,交互方式可以根據虛擬場景來設置,更具靈活性和多樣性。例如在士兵培訓中,VR 交互方式可以是一把槍;在模擬外科手術中,交互方式可以是手術刀。 人們借助 VR 可以以第一人稱視角去探索未知的環境,包括一些人類難以到達的環境,例如深海、外太空;甚至包括一些人類無法到達的或抽象的環境,例如細胞、黑洞、一個數學模型。VR 技術給了我們一個可以去徜徉在任何環境中的機會。在這樣一個從未到達的環境中,人類的視野和想象力得到了極大的延展。 既然虛擬現實早就存在,但為什么直到現在才爆發呢?一方面是因為虛擬現實作為一種全新的顯示方式,正好滿足了人們對于信息可視化變革的期待。另一方面也是因為技術變革和資本力量的共同驅動。 2、VR 背后的支撐在此之前,大規模普及虛擬現實還只是一個美麗的夢,因為受到計算性能、工業集成化、可視化技術發展的限制。而近 10 年來,相關的技術得到了迅猛的發展,為 VR 的商業化和產品化奠定了技術基礎。除此之外,有一股不可忽視的力量在推動 VR 加速發展,那就是大資本。 (1)VR 背后的技術變革 顯示技術的發展可以劃分為 4 個階段:平面 2D> 曲面 2.5D> 頭戴顯示 3D> 裸眼全息。 人類生存的世界是三維的,但自從相機和顯示器誕生以來,一直以二維平面的方式來記錄和顯示這個三維世界,這是一種降維后的表現方式。從早期的陰極射線管顯示器(CRT)到輕薄的液晶顯示器(LCD),從黑白顯示到彩色顯示,每一次技術變革都沒有突破顯示維度的限制。全世界的科學家們都在努力嘗試打破這一困境,試圖還原一個真實的 3D 世界。 在虛擬現實技術出現在公眾視野之前,有另外兩種突破二維顯示的技術出現在了消費市場,包括曲面 2.5D 顯示和裸眼 3D 顯示,但這兩種技術都未能獲得消費者的 “芳心”。
因此,上述兩種超二維顯示技術都未能調和技術可行性和市場期待之間的矛盾。在這樣的局面下,虛擬現實應運而生,它是技術可行性和市場期待的折中產物。 (2)VR 背后的資本力量 除了相關技術的變革和發展,資本力量的推動也是 VR 蓬勃發展的另一重要因素。如果說 2013 年谷歌眼鏡的推出是行業大鱷窺視頭戴顯示巨大寶藏的一隅,那么 2014 年 Facebook 斥資 20 億美金收購 Oculus 就是巨大資本撬開虛擬現實潘多拉魔盒的開始(注:Oculus 是一家專注于虛擬現實技術的公司)。 隨著資本的進入,更多的科研力量、工程技術以及 3D 內容開發都紛紛進入了該領域。2016 年被稱為虛擬現實元年,HTC、Facebook、Sony 等國際巨頭,以及國內的部分虛擬現實公司都將自己的 VR 產品正式推向了市場。在這樣的國際格局下,國內的部分資金也開始瘋狂投向虛擬現實領域。 3、為什么能感知到三維我們生活的世界是一個四維空間,包括水平維度、垂直維度、縱深維度和時間維度。例如在圖書館尋找一本書需要知道書籍處于第幾排、第幾列的書架,以及處于書架的第幾層。并且還需要知道這本書是否已經借出,什么時候會出現在該書架。 通過視覺觀察物理世界時具有即時性,一般假設光線從環境中發出到人眼接收的時間為零,因此不用考慮時間維度,用前三個維度來描述所觀察的世界。例如伸手拿杯子時,視覺系統會幫助我們判斷杯子處于手的左邊還是右邊,上邊還是下邊,前面還是后面。 在一個平面上可以很容易地感知到水平維度和垂直維度,但如何感知到第三維度——視覺深度呢? 眾所周知,雙目視差是提供視覺深度的重要途徑,但視覺深度不僅僅由雙目差來體現,單眼也能感知到深度。深度信息(depth cues)有很多種 [1],主要包括以下信息。 1)雙目視差(binocular parallax),也稱為左右視差或雙目匯聚。所觀察的物體越近,視差越大(圖 1),雙眼匯聚角度越大(圖 2);所觀察的物體越遠,視差越小,雙眼匯聚角度越小。必須依靠雙目協同工作才能感知到雙目視差。 (圖 1 雙目視差) (圖 2 雙目匯聚) 2)移動視差(motion parallax),當觀察視點改變后,遠近不同的物體在人眼中產生的位移會不同,如圖 3 所示。經過相同的視點改變,遠處的物體在人眼中產生的位移更小,近處的物體在人眼中產生的位移更大。雙目和單目都可以感知到移動視差。 (圖 3 移動視差) 3)聚焦模糊(focus-blur),人眼的工作原理可以簡化為一個照相機。當改變相機鏡頭的焦距時,相機可以聚焦在遠近不同的平面上,從而使聚焦平面上的物體清晰成像,非聚焦平面的物體成像模糊。人眼的睫狀肌就扮演著 “相機鏡頭” 的角色。 如圖 4 所示,當睫狀肌緊繃時,人眼聚焦在近處平面;當睫狀肌舒張時,人眼聚焦在遠處平面。根據睫狀肌的屈張程度,視覺系統可以判斷出物體的相對遠近。單目即可明顯感知到聚焦模糊。 (圖 4 聚焦模糊) 除了上述 3 種主要的深度信息,大腦會根據一些視覺經驗來判斷物體遠近,例如遮擋關系、近大遠小關系;同時也會根據一些先驗知識作為輔助判斷,例如看到一個杯子,先驗知識會告訴大腦杯子不會太遠;若看到一座高山,先驗知識會告訴大腦高山在很遠的地方。 4、VR 的基本原理虛擬現實的三維成像原理并不復雜,其基本原理和 3D 電影院一致,如圖 5 所示,都是給左右眼分別呈現不同的圖像,從而產生雙目視差。當大腦在合成左右眼的圖像時,會根據視差大小判斷出物體的遠近 [1]。 虛擬現實眼鏡不僅提供了雙目視差,還提供了 3D 電影院所不具備的移動視差信息。當坐在 3D 電影院的第一排最左邊和最右邊的位置時,所看到的 3D 內容是一樣的。但正確的 3D 成像方式應該是:坐在最左排的觀看者看見物體的左側面,坐在最右排的觀看者看見物體的右側面。例如觀看桌面上的茶杯時,左右移動頭部會看見茶杯的不同側面。 如圖 6 所示,虛擬現實眼鏡同時提供了雙目視差和移動視差,不僅左右眼圖像不同,而且當旋轉或平移頭部時看見的 3D 內容也不同。 (圖 5 3D 電影院成像原理) 圖 6 虛擬現實頭戴顯示設備 Oculus Rift(圖片來源于 Oculus 官方網站) 當前 VR 產品形態主要分為 3 種:基于手機的 VR、VR 一體機、基于 PC 機的 VR,主要特點如表 1 所示。由于技術和成本的限制,當前的 VR 產品都在價格、性能、舒適度三者之間平衡,上述 3 種形態的 VR 產品只是在不同的方面有所側重。 目前消費市場中尚未出現低價格、高性能的輕薄 VR 眼鏡。同時從表 1 中也可以看出,從低廉的到昂貴的 VR 產品都會引起眩暈和人眼疲勞。高性能的 VR 產品在眩暈的耐受時間上稍微有所延長,但仍然無法達到像智能手機一樣長時間使用。 虛擬現實根據使用場景大致可以分為座椅式、站立式,場地式。 顧名思義,座椅式 VR 限制用戶位在座椅上,只能檢測到視點的姿態旋轉變換(Pitch,Yaw,Roll),而忽略視點平移變化。如圖 7 所示,Pitch 圍繞 x 軸旋轉,也叫做俯仰角,Yaw 是圍繞 y 軸旋轉,也叫偏航角,Roll 是圍繞 z 軸旋轉,也叫翻滾角。 而站立式 VR 和場地式 VR 都能同時檢測到視點的姿態旋轉變化和平移變化。 站立式 VR 允許用戶在獨立的房間內(一般為 10 mx10 m 以內)自由走動,活動范圍較狹窄,不適用于模擬大范圍的場景。場地式 VR 理論上允許用戶可以在無限范圍內自由走動,是真正意義上的虛擬世界。但鑒于場地有限,傳感器的工作范圍有限。實際(運用)中場地式 VR 需要萬向跑步機的支撐,將跑步機履帶的平移數據轉化為人體的移動數據。 表 2 中所列舉的交互方式是對應場景下的主要交互方式而非唯一交互方式。 目前虛擬現實還沒有標準的輸入設備。在傳統手柄的基礎上,出現了一些新穎的 VR 輸入方式。頭控是指通過頭部的運動改變指針位置,通過懸停表示確認。線控是指通過現有的連接線(例如耳機線)來實現簡單的按鍵操作。觸摸板一般位于 VR 頭盔的側面,與筆記本電腦的觸摸板實現相同的功能。根據 VR 場景,交互方式也可以是彷手型手柄,例如槍械、手術刀等。 圖 7 頭部姿態變化的三個自由度(圖片來源:Oculus Rift SDK 文檔插圖) 5、VR 的技術瓶頸虛擬現實技術經過近幾年的快速發展,各方面性能逐步完善,但仍然面臨著一些關鍵技術有待改進和突破。主要可以概括為下列 3 個方面。 1)大范圍多目標精確實時定位。目前在已經面向市場的 VR 產品中,當屬 HTC Vive Pre 的定位精度最高,時延最低。HTC Vive Pre 的定位主要依靠 Light House 來完成。Light House 包括紅外發射裝置和紅外接收裝置。紅外發射裝置沿著水平和垂直兩個方向高速掃描特定空間,在頭盔和手柄上均布有不少于 3 個紅外接收器,且頭盔(手柄)上所有的紅外接收器之間的相對位置保持不變。當紅外激光掃過頭盔或手柄上的紅外接收器時,接收器會立即響應。根據多個紅外接收器之間的響應時間差,不僅可以計算出頭盔(手柄)的空間位置信息還能得出姿態角度信息。 目前 HTC Vive Pre 只能工作于一個獨立的空曠房間中。障礙物會阻擋紅外光的傳播。而大范圍、復雜場景中的定位技術仍需突破。多目標定位對于多人同時參與的應用場景至關重要。當前的虛擬現實系統主要為個人提供沉浸式體驗,例如單個士兵作戰訓練。當多個士兵同時參與時,彼此希望看見隊友,從而到達一種更真實的群體作戰訓練,這不僅需要對多個目標進行定位,還需要實現多個目標的數據共享。 2)感知的延伸。視覺是人體最重要、最復雜、信息量最大的傳感器。人類大部分行為的執行都需要依賴視覺,例如日常的避障、捉取、識圖等。但視覺并不是人類的唯一的感知通道。虛擬現實所創造的模擬環境不應僅僅局限于視覺刺激,還應包括其他的感知,例如觸覺、嗅覺等。 3)減輕眩暈和人眼疲勞。目前所有在售的 VR 產品都存在導致佩戴者眩暈和人眼疲勞的問題。其耐受時間與 VR 畫面內容有關,且因人而異,一般耐受時間為 5~20 min;對于畫面過度平緩的 VR 內容,部分人群可以耐受數小時。 上述的技術瓶頸中,大范圍多目標精確實時定位已經取得了一定的突破,在成本允許的情況下,通過大面積的部署傳感器是可以解決這一問題的。感知的延伸還存在較大的技術難度,尤其是觸覺;但當前的 VR 應用對感知的延伸并沒有迫切的需求。相比之下,眩暈和人眼疲勞卻是一個到目前為止還沒有解決但又迫切需要解決的問題,是現階段虛擬現實的技術禁地。 為什么會眩暈? 如第 4 節所述,虛擬現實比 3D 電影提供了更豐富的三維感知信息,更逼近于人眼觀看三維物理世界的方式。但為什么 VR 眼鏡在佩戴一段時間后會導致眩暈和人眼疲勞呢?其原因是多樣的,主要包括如下三方面。
上述兩種眩暈都是由視覺信息與肢體運動信息之間的沖突造成的,統稱為暈動癥。產生暈動癥的技術原因是多方面的。 (1)空間位置定位和姿態角度定位的精度和速度。 慣性測量裝置(inertial measurement unit,IMU)是一種微機電(MEMS)模塊,也是當前 VR 眼鏡測量角度姿態的主要技術手段。但 IMU 只能測量姿態角度,不能測量空間位移。多個 IMU 組合可以實現空間位移測量,但積累誤差大且難以消除,暫不適用于 VR 眼鏡。 另一種定位技術是基于傳統攝像頭的 SLAM(simultaneous localization and mapping)算法 [2],可以同時實現空間位置定位和姿態角度定位且適用于復雜場景,但目前 SLAM 算法在精度、速度和穩定性上都有待提高?;陔p目相機或深度相機的 SLAM 是一個有價值的潛在研究方向。 目前最實用的定位技術是 HTC Vive Pre 中應用的紅外激光定位技術,硬件成本低且同時具備高精度低時延的空間位置定位和姿態角度定位,但其應用局限于小范圍的空曠場景中。 (2)顯示器件的刷新頻率。 目前頭戴顯示(HMD)的像源主要包括微投影儀和顯示屏兩種。其中微投影儀主要應用在增強現實(AR,Argumented Reality)中,例如 Google Glass,Hololens,Meta,Lumus,Magic Leap 等。虛擬現實主要采用小尺寸顯示屏(6 寸以下)作為像源,其中顯示屏又分為液晶顯示屏(LCD,Liquid Crystal Display)和有機自發光顯示屏(OLED,organic light-emitting diode)。 目前 LCD 和 OLED 屏幕的刷新率普遍能達到 60 Hz 以上,部分型號甚至能達到 90 Hz 以上。OLED 采用自發光成像,因此余暉比 LCD 更小,上一幀圖像的殘影更小。 (3)圖像渲染時延。 虛擬現實所創建的模擬環境是經計算機圖形圖像學渲染生成得到。渲染的速度直接由計算機性能決定,尤其依賴于計算機中的顯卡(graphic processing unit,GPU)性能。目前高性能的 GPU 渲染一個復雜場景已能達到全高清(Full HD)90fps 以上。 VR 眼鏡的圖像刷新速度取決于上述 3 個技術指標的最低值。也即,上述 3 個環節中,任何 1 個環節速度慢都會導致圖像刷新率降低,從而出現暈動癥。在前幾年,VR 設備廠商將 VR 眼鏡的眩暈歸因于 “圖像刷新太慢”。但目前最新的 VR 眼鏡在空間位置定位和姿態角度定位的速度、顯示器件的刷新頻率,圖像渲染速率 3 個指標均能達到 90 Hz,遠高于人眼時間暫留的刷新閾值(24 Hz)。 為什么還是會眩暈呢?有人懷疑是活動范圍有限導致身體移動的幅度與畫面變化幅度不一致。萬向跑步機無限延伸了活動范圍,但眩暈的問題依然存在。由此可見,上述兩個方面是造成了眩暈的表象原因,并不是根本原因。
“聚焦模糊” 真的就這么重要嗎?眾所周知,雙眼能感知物體遠近,但其實單眼也可以。當伸出手指,只用一只眼注視手指時,前方的景物模糊了;而當注視前方景物時,手指變的模糊,這是由眼睛的睫狀肌屈張調節來實現的。眼鏡聚焦在近處時,睫狀肌收縮,近處的物體清晰而遠處的場景模糊;眼鏡聚焦在遠處時,睫狀肌舒張,遠處的場景清晰而近處的物體模糊。通過睫狀肌的屈張程度能粗略感知到物體的遠近,因此單眼也能感知到立體三維信息。 如圖 8 所示,現階段的虛擬現實頭顯設備只提供單一景深的圖片,且圖片的景深固定。這導致人眼始終聚焦在固定距離的平面上。當通過 “聚焦模糊” 感知到的深度信息與通過 “雙目視差” 感知到的深度信息不一致時,就會在大腦中產生嚴重的沖突,稱為“聚焦與視差沖突”(accommodation-convergence conflict,ACC)[3~6]。而且當大腦檢測到 ACC 時,會強迫睫狀肌調節到新的屈張水平使之與雙目視差所提供的深度信息相匹配。當睫狀肌被強迫調節后,因為聚焦錯亂,圖像會變的模糊;此時大腦會重新命令睫狀肌調節到之前的屈張水平。如此周而復始,大腦就 “燒” 了。 圖 8 現階段的虛擬現實頭顯設備只提供單一景深畫面(圖片來源:Yule) 回到之前 3D 電影眩暈的問題,當觀看者坐在第一排中間位置時,雙眼到大熒幕距離為 10 m 且保持不變。當 3D 內容為遠處的高山時,雙目視差較小,會引導人眼注視于前方幾百米處。而人眼接收的光線都來自 10 m 處的大熒幕,左眼和右眼會自主地聚焦在 10 m 處的平面上以便能清晰地看見圖像。此時雙目的匯聚和睫狀肌的屈張水平不一致,從而導致了人眼不適。同理,當 3D 內容為眼前 1 m 處的一條蛇時,人眼仍然聚焦在 10 m 處的平面,從而產生類似的聚焦與視差沖突。 聚焦與視差之間的沖突比視覺信息與肢體運動信息之間的沖突更嚴重。舉個例子,反恐精英(Counter-Strike,CS)是一款風靡世界的射擊類游戲,玩家以第一人稱視點在虛擬環境中奔跑,跳躍和射擊。當畫面變化時,玩家仍然靜坐在電腦前,并沒有實際的跑動和跳躍。此時玩家并沒有產生眩暈的感覺,甚至能長時間沉浸其中。 其原因在于玩家經過一段時間的訓練以后,在大腦中建立了肢體運動與鼠標鍵盤操作之間的映射關系,比如前后左右跑動與鍵盤 W、S、A、D 按鍵對應,跳躍與空格按鍵對應。因此,通過運動關系的映射,視覺信息與肢體運動信息之間的沖突(暈動癥)得以大大減輕,但睫狀肌的屈張是一種自發行為。睫狀肌會自主地屈張到正確的水平,以保證人眼聚焦在所關注物體的表面。并且人眼總是趨向于得到最清晰的視覺成像,這也會促使睫狀肌處于與之匹配的屈張水平。因此強迫睫狀肌處于非正確的屈張水平或被錯誤地引導到不匹配的屈張水平都會導致上述的沖突,從而導致眩暈和人眼疲勞。 通過訓練來建立類似于 “反恐精英” 中的大腦映射是無法解決此類沖突的,只能通過頭戴顯示設備產生不同深度的圖片去引導人眼自然地聚焦在遠近不同的平面上才能從根本上解決這一沖突,從而解決眩暈和人眼疲勞。 VR 眼鏡的嚴重眩暈問題引發了對另一個問題的思考,為什么 3D 電影在數小時后才出現眩暈或人眼疲勞,而 VR 眼鏡的耐受時間一般只有 5~20 min?
上述 3 個原因導致了虛擬現實的耐受時間相比于 3D 電影縮短了很多。 眩暈是目前虛擬現實最大的技術瓶頸,大大限制了虛擬現實產業的長足發展,并且會對人眼造成傷害。在 VR 眼鏡佩戴的全過程中都會強迫人眼處于錯誤的聚焦平面,睫狀肌得不到連續自然的舒張和收縮。 長此以往,睫狀肌彈性下降,失去了自主調節的能力,從而導致近視。尤其對于 12 歲以下兒童,人眼器官正處于生長發育階段,VR 眼鏡會大大增加患近視的可能性。即使是成人,長期佩戴也會導致視力下降。因此虛擬現實應用于幼教領域需嚴格控制佩戴時間。幼兒應盡可能減少甚至不佩戴 VR 眼鏡,直到突破這一技術瓶頸。 光場顯示技術 在討論如何解決虛擬現實的眩暈問題之前,先思考人眼是如何觀看三維物理世界的? 環境表面的每一個點都會在半球范圍內發出光線(自發光或反射光)。空間中的點可以通過三維坐標 (x,y,z) 來唯一表示;每個點在半球范圍內發出的光線通過水平夾角ф和垂直夾角φ來描述;光線的顏色通過波長λ表示(光線還包括亮度信息,這里用λ統一表示);環境光線隨著時間是變化的,不同時刻 t 下的光線也不一樣。因此,環境光線可以通過 7 個維度的變量來描述 [7],稱為全光函數 P=(x,y,z,ф,φ,λ,t)。假設環境光線在一定時間內穩定不變,則每條光線的波長可以用 5D 函數表示為λ=F(x,y,z,ф,φ)。 (圖 9 全光函數模型) 如果顯示器能產生上述 5D 函數中所有的光線,則觀看者通過該顯示器能在視覺上感知到與真實世界中一樣的三維環境。但遺憾的是,目前全世界都沒有這樣的顯示器。當前的電視、電腦、手機等平面顯示屏只實現了上述 5D 函數中的 2 個維度,也即λ=F(x,y)。 近幾年出現的曲面顯示屏增加了維度 Z 上的像素點,但在維度 Z 上并不完備。因此,曲面顯示屏不是 3D 顯示器,只能算作 2.5D 顯示器??茖W家們曾嘗試了多種方法從傳統的 2 個維度顯示提升到更高維度顯示,但目前仍停留在實驗室階段,尚無可商業化的產品。例如:
如果能將傳統的 2D 平面顯示提升到 5D 顯示,人眼將不借助任何頭戴設備而獲得類似全息顯示的效果。但根據顯示領域目前的技術發展,在未來較長一段時間內難以實現輕便低廉的 5D 全光顯示器。 如圖 10 所示,上述的 5D 全光函數是從 “環境表面發出了什么光線?” 這一角度來建立數學模型。但從另一個角度來建模將會簡化問題——“觀看環境時,人眼接收了什么光線?”。如果頭戴顯示器能重現出人眼應該接收的全部光線,人眼將從頭戴顯示器中看到真實的三維場景。 (圖 10 環境表面發出的光線和人眼接收到的光線) 5D 全光函數描述了環境表面發出的所有光線,但并不是所有的光線都進入了人眼,只有部分光線最終被人眼接收。因此進入人眼的光線是 5D 全光函數的一個子集。且隨著人眼位置和注視方向的不同,人眼接收到不同子集的光線。 將人眼的瞳孔分為 Nx×Ny 個子區,用(x,y)表示橫向第 x 個,縱向第 y 個瞳孔子區,圖 11 中左圖展示了一個 4×4 瞳孔分區的視覺成像模型。 如果瞳孔的分區 Nx=1,Ny=1;也即整個瞳孔作為一個區,這與傳統的小孔成像模型是等效的。每個子區都會接收到很多從不同角度入射的光線,入射角度用 (α,β) 表示。因此,進入人眼的光線可以通過一個 4D 函數來描述,可以稱之為全視函數λ=F(x,y,α,β)。光線進入人眼的位置 (x,y) 和進入的角度 (α,β) 共同決定了光線會落在視網膜上的什么位置。如果不考慮與眼睛注視方向垂直的光線,5D 全光函數可以降維到 4D 光線集合,一般用兩個平面 (u,v) 和 (s,t) 來表示,稱為 “光場”[11]。 本文中采用一個平面 (x,y) 和一對角度 (α,β) 表示人眼接收光線的集合,是一種更適合于頭戴顯示的光場定義。 頭戴顯示設備如何投射出 4D 光場呢?假設光線在傳播過程中被看作一條射線,且沿著射線的方向上亮度和顏色不改變。例如圖 11 左圖中藍點發出的第二條光線(藍色粗線)與其射線方向上投影儀發出的光線是等效的,這樣的假設對于日常環境中的光線傳播完全合理。 基于上述合理假設,采用投影儀陣列可以模擬重現出 4D 光場,如圖 11 中右圖所示。當投影儀足夠多、足夠密集時,就可以在一定視野范圍內無限逼近地投射出人眼應該接收到的全部光線。但投影儀體積較大,無法密集排列,且硬件成本高。值得一提的是,美國 Magic Leap 公司在 2015 年展示了一種基于光纖微型投影儀陣列的動態光場成像技術,大大減小了投影儀陣列的體積,提高了投影儀排列密度,但硬件成本仍然高昂。 (圖 11 全視函數模型) 投影陣列通過增加顯示器件來提高成像維度,這是一種最直接的將傳統 2D 顯示提升到 4D 光場顯示的方法。但是通過不斷增加硬件設備來增加像源的自由度并不是一種高效的解決方案。首先硬件成本會急劇增加,例如實現圖 11 右圖中 4×4 投影陣列的光場,需要 16 倍的硬件成本;且數據的存儲和傳輸也會增加到 16 倍。 光場顯示為什么能解決頭戴顯示的眩暈問題呢? 如上所述,光場顯示提供了真實環境中發出的并由人眼接收的全部光線。人眼在觀看真實環境時不眩暈,那么通過光場頭顯設備也就不會眩暈。如圖 4 中,遠近不同的點進入人眼的角度不同,這在 4D 光場λ=F(x,y,α,β) 中通過角度參數 (α,β) 來體現。因此,通過光場顯示,人眼能自然的聚焦在遠近不同的發光點上。從而睫狀肌的屈張水平始終與雙目視差保持一致,避免在大腦中產生 ACC 沖突。 如圖 12 所示,當同時呈現遠近不同的圖像層時,人眼能夠自主地選擇聚焦平面。真實環境中,圖像層數達到無窮多層,由近及遠連續分布。這意味著需要無窮多臺投影儀才能重現連續分布的圖像層,這顯然是不切實際的。因此,在實際的光場顯示中采用離散的圖像層去近似逼近連續的圖像層。當圖像層數達到 8 層及以上時,人眼就能獲得近似的聚焦感知。當然,圖像層數越多,聚焦越連續,視覺效果越自然,眩暈改善越顯著。當前所有在售的頭戴顯示設備都只提供了 1 層圖像,還遠遠不能達到近似連續聚焦的成像效果。 (圖 12 支持多層聚焦成像的光場顯示) 除了投影陣列,還有多種技術可以實現光場顯示。例如,時分復用的投影技術采用一臺高速投影儀從空間中不同位置投射圖像,通過復用一臺高速投影儀去 “頂替” 投影儀陣列 [12]。但目前實現微型化的高精度機械控制比較困難,因此該技術不適用于頭戴顯示。 斷層成像 [13,14] 技術實現了數字化的空間光調制,只需要 2~3 倍的硬件成本就能實現 5×5 的光場成像,但計算量大、算法復雜度高,當前的個人計算機還無法實現在線高分辨的光場計算。該技術適用于離線應用(如光場電影)或者可在云端計算完成的應用(如光場虛擬現實直播)。 綜上所述,光場是最接近人眼觀看自然環境的成像方式,彌補了當前頭戴顯示都不具備的 “聚焦模糊”,將人眼睫狀肌從固定的屈張水平中解放出來,消除了眩暈,減輕了人眼疲勞。實現光場成像已有多種技術手段,但都有各自的缺陷。受成本、計算量、設備體積的限制,當前的光場成像技術還只能在部分行業應用。 目前在售的 VR 眼鏡普遍都比較厚重,輕薄化是虛擬現實設備未來的必然趨勢??梢酝ㄟ^優化光學設計,減小透鏡的焦距來縮短光程,從而減小 VR 眼鏡的厚度,但短焦距的透鏡會帶來色差和畸變等其他光學問題,且透鏡重量會隨著焦距的縮短而增加。 光場成像不僅解決了眩暈問題,還能使頭顯設備變得更輕更薄?;谏鲜龉饩€在射線傳播方向上具有不變性的假設,投影陣列可以移動到更靠近眼睛的位置,在不改變透鏡焦距的前提下可以縮短光程,只需要根據投影陣列與透鏡的相對位置對光線進行反向追跡渲染即可獲得等效的光場成像。 最近出現了一些基于眼球追蹤的光場顯示技術,其根據人眼的注視方向,選擇性的模糊掉人眼并不關注的像素塊,從而造成一種人眼可以主動選擇聚焦的假象。這一類技術可以歸為偽光場成像。究其本質,偽光場成像技術仍然只提供了λ=F(x,y) 兩個維度上的光線。換言之,偽光場成像技術只提供了 1 層圖像,人眼仍然無法主動選擇性聚焦,眩暈的問題依然沒有得到解決。 計算攝像 光場成像技術顯示了 4 個維度的光線,但如何采集 4D 光線呢?在計算機中可以對三維模型直接渲染得到 4D 光場,但是如何拍攝真實場景中的 4D 光場呢? 可以明確的是,傳統的攝像技術是無法采集 4D 光場的。攝像技術最早可以追溯到小孔成像,現今使用的相機仍然沿用著小孔成像模型。如圖 12 中所示,光場成像技術在不同深度上呈現多幅圖片。而傳統的相機只在一個聚焦平面上采集圖像。傳統相機拍攝的平面 2D 圖片只是 4D 光場的一個子集。因此大量的光線信息在拍攝過程中丟失了。要顯示光場,首先要解決如何采集光場的問題,否則 “巧婦難為無米之炊”。 光場采集依賴于一門稱為計算攝像(computational photography)的學科。最早的計算攝像是基于大量的相機從不同的角度分別拍攝來采集光場,也稱之為相機陣列 [15,16]。當然也可以采用單個相機移動拍攝,但只能采集靜態場景的光場。相機陣列是早期形態的光場相機,占地面積大,操作復雜,成本昂貴。 目前市面上已經出現了消費級的光場相機(如 Lytro [17])可以在單次拍攝中采集光場。Lytro 光場相機采用微透鏡陣列(microlens array)采集不同角度入射的光線。相比于相機陣列,Lytro 光場相機體積大大減小,硬件成本降低,但分辨率也大大降低。 基于上述兩種光場相機的優缺點,科學家們提出了一種基于壓縮感知的光場相機 [18,19]。該光場相機通過 “學習” 已采集的光場,訓練得到光場字典。利用訓練得到的光場字典去恢復出待采集的光場?;趬嚎s感知的光場相機同時具有小體積和分辨率不損失的優點,但需要改造相機(在 CCD 表面插入一塊編碼過濾片),且其算法復雜度高、運算量大,目前還難以推向消費市場。 6、VR 與 AR/MR虛擬現實提供了強烈的沉浸感。佩戴者借助 VR 頭顯 “穿越” 到了一個完全由虛擬元素構成的世界中,但同時也把佩戴者與現實世界隔離開。 在 Virtual Reality 的基礎上,Augmented Reality(AR)應運而生。按照實現的技術方式,AR 分為三類,包括 Video-based AR,Optical-based AR 和 Projection-based AR。這三類 AR 都能實現真實場景和虛擬信息同時被人眼看見的視覺效果,但技術手段不同。 圖 13 基于 Video-based AR 的手表試戴(圖片來源于 Cyingcg ) Video-based AR 是對圖片(或圖片序列構成的視頻)進行處理,在圖片中添加虛擬信息,以幫助觀看者進行分析和獲得更多的信息。如圖 13 所示,在手腕上添加不同款式的虛擬手表來幫助消費者挑選合適的手表。再如時下熱門的 Faceu 手機 app,能在手機拍攝的圖中添加諸如兔耳朵等可愛的虛擬元素。Video-based AR 不需要佩戴特殊的眼鏡,與觀看傳統平面圖片方式一致,且允許非實時離線完成。 Optical-based AR 通過類似半透半反的介質使人眼同時接收來自真實場景和像源的光線,從而使得人眼同時看見真實場景和虛擬信息。Optical-based AR 給人一種虛擬物體仿佛就位于真實場景中的視覺體驗,但真實的場景中并不存在所看見的虛擬物體。且只有佩戴特殊頭顯設備(如 Hololens,Meta)的人才能看見虛擬物體,沒有佩戴頭顯設備的人不能看見虛擬物體。 如圖 14 所示,火箭模型并非真正存在于桌面上,且未帶頭顯設備的人不能看見火箭。Optical-based AR 相比于 Video-based AR 技術難度更大,需要三維環境感知。且從環境感知到增強顯示都需要實時完成。 在虛擬現實行業出現了一個 “新” 的概念——MR(Mixed Reality),但這其實就是上述的 Optical-based AR。圖 15 是本文作者在實驗室通過 MR 眼鏡拍攝的照片,通過 MR 眼鏡能同時看見真實的場景和虛擬的汽車。 圖 14 Optical-based AR 概念圖(圖片來源于微軟 Hololens 宣傳視頻) 圖 15 混合虛擬現實—懸浮的小車(戴上眼鏡后觀看效果) Projection-based AR 將虛擬信息直接投影到真實場景中物體的表面或等效的光路上。相比于 Optical-based AR,Projection-based AR 不需要佩戴頭顯設備卻能獲得與之類似的增強現實效果,且允許多人在一定角度范圍內同時觀看。 如圖 16 所示,是本人拍攝的基于投影增強現實的車載導航儀。路基線、車速、天氣、來電等信息被投影在司機觀看路面的等效光路上,司機不需要佩戴頭顯設備即可看見上述輔助信息。 圖 16 基于 Projection-based AR 的車載導航(不佩戴眼鏡觀看效果) 虛擬現實帶來了強烈的沉浸感但也隔斷了人與人之間的聯系。雖然人與人可以在虛擬世界中產生交互,但其交互手段有限,且交互的真實性和自然性都大打折扣。縱觀歷史上任何技術得以大面積普及的關鍵都在于密切的聯系(Dense Communication)。 從早期的互聯網到智能手機以及當前的移動互聯網,得以迅猛發展都離不開大量人群之間的通信。如果失去了人與人之間的通信也就失去成為大平臺的基礎。虛擬現實的隔斷性注定了 VR 不會成為下一個智能手機。而 MR 彌補了 VR 的這一重大缺陷,能同時具備視覺信息增強和人人通信這兩大特點。MR 比 VR 有更高的幾率成為智能手機在未來的新形態。 參考文獻(References)
(本文來源于@科技導報專欄作者曹煊授權轉載 |
|