全景拍攝是VR內(nèi)容采集的基礎(chǔ)
與費時耗力的三維圖形制作相比,全景拍攝是獲得VR視頻內(nèi)容的主要手段,具有快速便捷的優(yōu)勢。全景攝像機(jī)是VR全景視頻的采集設(shè)備,目前用到的全景攝像機(jī)有很多種。一種是業(yè)余便攜設(shè)備,例如:使用2個魚眼鏡頭的完美幻境Eyesir、insta等。另一種是用4-10個運動攝像頭組裝成的360度2D全景拍攝機(jī),例如:泰科易、強(qiáng)氧科技、極圖、Ladybug、360 Heros等,比魚眼鏡頭更大的CMOS組合具有更清晰、更小畸變的畫質(zhì),但也帶來多畫面的拼接融合和穿越多鏡頭時重影的挑戰(zhàn)。最近,為了獲得立體的觀感,人們又推出了360度3D全景攝像機(jī),如谷歌的Jump、Nokia的OZO和face book Surround360等。為了獲得電影級的高質(zhì)量畫質(zhì),Next VR使用2-4個Red dragon電影攝像機(jī)組裝成非常專業(yè)的全景攝像機(jī)。為了記錄真實環(huán)境的音效,一些相機(jī)上還裝有4耳的全景聲采集設(shè)備。
目前,在使用全景攝像機(jī)過程中依然存在一些挑戰(zhàn)問題。首先是相機(jī)分辨率問題。由于用戶觀看的傳統(tǒng)2D畫面(120度×60度視角)約是全景圖(360度×180度視角)面積的1/9,全景攝像機(jī)分辨率通常要求4K以上分辨率才能達(dá)到人眼觀看比較滿意的清晰效果。由于全景相機(jī)是固定焦距,固定機(jī)位拍攝遠(yuǎn)距離舞臺時不具有長焦鏡頭那樣的放大畫面功能,因此需要8K,甚至12K的超高分辨率才能達(dá)到看清演員面孔的效果,而目前的壓縮、存儲、傳輸、解碼、顯示屏等技術(shù)都還很難完全滿足該要求。其次是I/O問題。全景相機(jī)需要同步控制多個鏡頭的快門、曝光、焦距,存儲記錄等參數(shù),保證畫面融合一致。比如Jump有16個相機(jī)就有16張存儲卡記錄視頻,把1小時的視頻內(nèi)容拷貝出來通常需要幾個小時的時間,這嚴(yán)重降低了全景視頻生產(chǎn)和發(fā)布的速度?;ヂ?lián)網(wǎng)視頻網(wǎng)站對內(nèi)容發(fā)布的實時性要求非常高,所以特別需要快速、便捷的IO接口,例如把多個相機(jī)的數(shù)據(jù)存儲到一個SSD硬盤中,通過光纖、HDMI、SDI或者USB3.0、rtmp等高速接口傳輸?shù)揭曨l切換臺、編碼器或計算機(jī)等設(shè)備進(jìn)行直播推流或錄播處理。另外,全景攝像機(jī)通常體積龐大,拼接壓縮等后處理耗時費力。用戶非常需要把拼接和編碼大計算量模塊集成到便攜小巧的全景相機(jī)內(nèi),從而直接輸出全景視頻,像普通視頻一樣進(jìn)行快捷的后續(xù)處理。最后,使用全景攝像機(jī)進(jìn)行VR直播時,要保證整個拍攝過程的穩(wěn)定性。需要達(dá)到25幀/秒的幀速,6-12小時以上的連續(xù)穩(wěn)定工作時長,功耗低,發(fā)熱小。以上這些都對全景攝像機(jī)的硬件和數(shù)據(jù)傳輸、處理能力提出了更高的挑戰(zhàn)。
拼接編輯是VR視頻質(zhì)量的關(guān)鍵
使用全景攝像機(jī)拍攝多角度視頻后,需要進(jìn)行拼接校正,把若干個攝像頭的視頻合成一路視頻,形成一個完整的全景視頻提供給用戶。拼接技術(shù)需要處理好多鏡頭畫面的接縫、光照融合等一致性問題,直接決定了最終提供給用戶的視頻內(nèi)容質(zhì)量。全景視頻拼接之后還需要后期制作,包括修復(fù)拼縫、補(bǔ)洞、調(diào)色、植入LOGO、字幕、動畫圖元等特效編輯。比如:愛奇藝全景自制綜藝《撕人訂制》,需要把對白字幕和動畫特效加入到全景視頻中,把攝像機(jī)留下的黑洞用logo覆蓋補(bǔ)全或替換擦除?!吨芯W(wǎng)網(wǎng)球賽》全景直播,則把比分牌實時疊加到全景直播系統(tǒng)中。
業(yè)界有很多比較成熟的全景拼接軟件,比如autoPano、vahana、Nuke等,其中Nuke具有非常強(qiáng)大的相機(jī)位置估計、三維點云生成、拼接修復(fù)、漏洞抹除等功能。另外還有一些用于全景拼接、渲染的開源SDK(軟件開發(fā)工具包),例如:谷歌的Cardboard VR SDK、Oculus VR SDK,facebook的surround360相機(jī)SDK等都提供了開發(fā)支持庫,可以參考。谷歌的Jump全景相機(jī)能拍出立體的全景,在拍攝的時候使用16個攝像頭,其中8個代表左眼,另外8個代表右眼,可以通過Nuke軟件生成左、右眼對應(yīng)的全景圖(對于天空和地面區(qū)域需要特殊處理,去掉視差),從而得到的視頻不僅全景,還具有立體感,讓用戶有三維虛擬現(xiàn)實的體驗。全景拼接編輯通過圖像處理和藝術(shù)加工獲得高質(zhì)量的視頻內(nèi)容,這都需要強(qiáng)大、便捷、易用的軟件算法提供支持。
傳輸編碼是VR視頻流暢性的挑戰(zhàn)
VR視頻在內(nèi)容制作完成后,需要通過媒體平臺的網(wǎng)絡(luò)分發(fā)給用戶,壓縮碼率和網(wǎng)絡(luò)傳輸依然是最大的挑戰(zhàn)。目前,互聯(lián)網(wǎng)的1080P全高清視頻能夠流暢播放,壓縮碼率大概是3.5M左右,這是一個基礎(chǔ)上限。2K/4K的全景視頻需要4M以上的碼率,在互聯(lián)網(wǎng)上在線觀看時會發(fā)生卡頓,影響流暢性的體驗。在視頻壓縮編碼方面,全景圖像通常默認(rèn)為rectangular球面全景圖格式,橫軸為theta角[0-360度],縱軸為phi角[-90,90度],圖像長寬比為2:1。對于3D 360度全景,通常采用左右眼全景圖的上下拼接方式,長寬比為1:1;3D 180度全景采用左右眼全景圖的左右拼接方式,長寬比為2:1。球面全景圖在南北極區(qū)域存在大量的冗余像素,2015年底facebook推出了立方體Cube(將球面全景紋理投影到內(nèi)切立方體的6個面上)、棱錐Pyramid(將球面全景紋理投影到內(nèi)切金字塔的4個面上)等全景格式來降低像素數(shù)目,但在實測中發(fā)現(xiàn)雖然分辨率可以有效減少20%到70%,但H.264壓縮碼率卻沒有明顯降低。facebook建議使用多個全景棱錐模型,把用戶不太關(guān)注的后向畫面用低分辨率表示。但是,當(dāng)用戶快速轉(zhuǎn)頭觀看的時候,如何把該低分辨率視角的數(shù)據(jù)流實時切換到高分辨率視角的數(shù)據(jù)流顯示是一個難點。國內(nèi)外很多公司也在研究和使用H.265壓縮技術(shù),H.265能夠有效降低超高清視頻25%-30%左右的碼率,但是H.265軟件編解碼非常耗時,在客戶端編解碼硬件上還需普及。另一方面,網(wǎng)絡(luò)傳輸通過光纖到戶,5G無線、HCDN(CDN+P2P的Hybird Content Delivery Network)網(wǎng)絡(luò)等先進(jìn)技術(shù),有望進(jìn)一步提高網(wǎng)絡(luò)傳輸全景視頻數(shù)據(jù)的速度和流暢性。
顯示技術(shù)影響用戶的沉浸體驗
全景視頻需要逼真、舒適的顯示技術(shù)呈現(xiàn)給用戶,包括頭盔顯示器、3D立體眼鏡、真三維顯示、全息和環(huán)幕、球幕等顯示方式。頭盔顯示器(head mounted display,HMD)是VR中最典型的顯示設(shè)備。
HMD顯示技術(shù)主要解決沉浸感和無眩暈的問題,這和視場角、分辨率、畫面刷新率、聲音等因素緊密相關(guān)。例如:2015年暴風(fēng)魔鏡的第一代產(chǎn)品,視場角只有60度,用戶觀看起來就像戴了一個望遠(yuǎn)鏡,看到的畫面位于一個有限區(qū)域內(nèi),周邊都是黑的,這樣就破壞了沉浸感。人眼的視場角大概是120度,2016年市場上的大多數(shù)頭盔都做到了110度視場角,戴上可基本覆蓋人眼的視野。很多人戴上VR顯示設(shè)備有眩暈感,這主要是由于光學(xué)系統(tǒng)適配和渲染硬件刷新率等因素引起的。
(1)戴上HMD頭顯后需要適配用戶個體,如同我們戴了一副新眼鏡一樣,要調(diào)節(jié)鏡片的
瞳距、像距和畸變、散光、色散等參數(shù)。
(2)刷新率。人在轉(zhuǎn)頭的時候,轉(zhuǎn)動的速度是非??斓?,因此設(shè)備渲染的刷新速度必須達(dá)到90Hz以上,才會讓姿態(tài)變化后的刷新畫面跟上快速轉(zhuǎn)到的視角。早期的一些性能差些的頭盔,只要轉(zhuǎn)頭快些,就會有遲滯感。而目前先進(jìn)的
Sony PSVR頭盔,渲染速度甚至超過了110Hz,轉(zhuǎn)頭觀看時會感覺虛擬背景是靜止的空間,逼真地融入到虛擬世界里。
(3)全景聲。例如:杜比的Dolby atmos全景聲技術(shù)記錄全景聲音。HMD全景聲音主要解決耳機(jī)的問題,使用HRTF(head rotation transformation function)技術(shù)消除聲音的方向與用戶頭部的相對運動,讓用戶看到虛擬景物并聽到保持一致方向的聲音。
目前HMD顯示設(shè)備已經(jīng)日趨成熟。Oculus rift、Gear VR頭顯已經(jīng)發(fā)展到了第三代,達(dá)到100度視角、90HZ刷新速度、2K分辨率。HTC Vive頭顯在達(dá)到100度視角、90Hz刷新速度的同時,通過light house光塔技術(shù)(類似GPS定位原理),通過物理方式可以非常穩(wěn)定地計算出頭部和手柄在空間的位置和姿態(tài),從而實現(xiàn)VR視頻和游戲的自然交互。索尼PSVR頭顯實時性非常好,可以很好地消除眩暈感。國內(nèi)的Pico、3Glass、暴風(fēng)、大鵬等頭顯緊跟國際先進(jìn)技術(shù),并具有自身的技術(shù)特色。
Oculus、HTC vive 和Meta2 等頭顯輕便、移動,但需要連接固定的PC機(jī),來獲得強(qiáng)勁的視頻、游戲處理速度,但是在使用中由于頭盔與電纜相連,帶了一個長長的電纜尾巴不夠便捷。HTC等公司正在研發(fā)無線方式連接主機(jī)的頭顯和PC,將是一種很好的折中方式。Gear VR使用三星S7edge等高端手機(jī)作為顯示和處理設(shè)備,解決了成本和便攜移動問題,但在頭顯適配手機(jī)的型號以及減輕重量上存在限制。未來HMD向一體機(jī)發(fā)展是個必然趨勢,將在專用芯片最佳匹配參數(shù)設(shè)計和移動性等方面占有優(yōu)勢,但是目前受限于芯片速度、功耗、價格等問題,需要等待整個VR芯片行業(yè)的成熟和普及。
自然交互讓VR更加有趣
人機(jī)交互是人與計算機(jī)之間信息交流的簡稱。傳統(tǒng)的人機(jī)交互主要通過鍵盤、鼠標(biāo)、手柄和圖形顯示器、音響等設(shè)備實現(xiàn)信息的輸入、輸出。在虛擬現(xiàn)實系統(tǒng)中,則需要采用視覺、聽覺、觸覺、姿態(tài)、表情、手勢等多通道感知交互技術(shù)。VR交互可以利用數(shù)字頭顯自帶的攝像頭進(jìn)行視覺識別、通過麥克風(fēng)識別語音,語音合成技術(shù)進(jìn)行說話溝通,陀螺儀、數(shù)字手套、動捕等復(fù)雜的傳感器估計姿態(tài),操控虛擬物體并感受到反作用力。這些全方位、多通道的自然交互方式讓用戶不再是旁觀者,而是融入到虛擬世界中感受身在其中的互動樂趣。
VR交互感知中,頭部、眼睛、手勢、四肢動作等的姿態(tài)定位是最基本的功能,可以用來選擇操作界面,觀看不同方位和視角的場景,甚至驅(qū)動虛擬人物的動作與虛擬景物交互。姿態(tài)定位分為Outside-in和Inside-out兩類方式。Outside-in定位方法通過實際環(huán)境中的外部設(shè)備來定位頭顯姿位。例如:HTCvive的頭盔和手柄上有很多小的紅外線接收器,可以接收到來自房間中固定位置部署的lighthouse光塔發(fā)出的信號,通過類似GPS的定位原理來精確定位,該定位方法性能穩(wěn)定,達(dá)到毫米級的精度,而且特別適合多人在同一虛擬環(huán)境中的互動需要。Oculus則假想用戶坐在PC附近,通過在面前放一個攝像頭或類似光塔的設(shè)備進(jìn)行定位。Inside-out定位方法則是通過頭盔自帶的傳感器向外部環(huán)境觀看,利用視覺跟蹤
SLAM技術(shù)來定位并以陀螺儀和加速度記傳感器為輔助來定位,該方法的精度目前存在漂移還不夠穩(wěn)定的問題,但無需光塔等外設(shè),更加適合單人使用,操作便捷。為了與虛擬現(xiàn)實中的景物互動,除了姿位估計,還需要手勢跟蹤和動作捕捉來交互。暴風(fēng)魔鏡五代集成了leap motion的紅外線手勢識別設(shè)備,intel real sense設(shè)備利用深度攝像頭和可見光識別手勢,它們都允許用戶通過手指來自由觸控界面。諾亦騰研發(fā)了基于陀螺儀的傳感器來做捕捉動作,該設(shè)備穿戴在人體關(guān)節(jié)上,比傳統(tǒng)光學(xué)跟蹤具有更好的性價比。在電影《阿凡達(dá)》和《人猿星球》中,演員的面前放置一個攝像頭跟蹤面部表情的熒光點來驅(qū)動虛擬的avatar模型。表情跟蹤在虛擬社交、虛擬會議中具有重要的用途。
內(nèi)容制作是VR發(fā)展的血肉
再好的VR設(shè)備,也要依托精彩的內(nèi)容為用戶提供豐富的VR體驗和服務(wù)。除了3DVR游戲,VR全景視頻內(nèi)容制作是VR內(nèi)容的重要組成部分。影視特效創(chuàng)作者、電影學(xué)院和很多互聯(lián)網(wǎng)視頻公司已經(jīng)開始探索,并取得了很多寶貴的經(jīng)驗。
傳統(tǒng)視頻都是有邊框的,通過攝像機(jī)的推拉搖移進(jìn)行拍攝,采用后期剪輯的蒙太奇方式來進(jìn)行敘事和藝術(shù)加工,觀眾必須跟隨導(dǎo)播的切換來觀看指定機(jī)位的畫面。而VR視頻是沒有邊框的,眼眶代替了畫框。VR影視更像是戲劇,觀眾可以搖頭走動、自由觀看想要的視角內(nèi)容,這也為VR影視拍攝提出了嶄新挑戰(zhàn)。例如:如何遮擋一覽無余的雜亂背景,如何在多機(jī)位和多鏡頭間切換,如何交互改變敘事的情節(jié)?VR視頻通常固定機(jī)位拍攝360度全方位的景物。為了剔除不要的背景,可以采用傳統(tǒng)綠幕的拍攝方式,后期再將綠幕替換為實拍或虛擬的場景。最近,北京電影學(xué)院李金輝提出了跟隨拍攝,one scene-one set-one shot的拍攝手法,比較適合VR影視內(nèi)容的拍攝。在一個場景中,將VR攝像機(jī)掛到鋼絲威亞(飛貓)上,模擬人的第一視角跟隨演員的運動進(jìn)行拍攝,從而形成一氣呵成的長鏡頭,達(dá)到流暢的VR觀賞和情節(jié)互動發(fā)展的要求。愛奇藝、優(yōu)酷、騰訊、樂視、暴風(fēng)、強(qiáng)氧科技、互動視界、蘭亭數(shù)字等互聯(lián)網(wǎng)視頻公司在VR互聯(lián)網(wǎng)直播和錄播方面做了很多有益的嘗試。在遠(yuǎn)距離如何拍攝出舞臺演員的清晰畫面是最具挑戰(zhàn)的一個問題。比如一場演唱會,不可能把攝像機(jī)放到距演員兩三米的位置進(jìn)行拍攝,否則會擋住后方觀眾的視線。VR攝像機(jī)通常放在距舞臺
10-20米的位置,所以特別需要8k以上的超高清攝像機(jī)看清細(xì)節(jié),并模擬生成靠近演員的4K全景圖。傳統(tǒng)攝像機(jī)通過多機(jī)位切換,實現(xiàn)多姿位的觀看。VR全景視頻拍攝同樣需要多機(jī)位切換(或光場相機(jī)記錄全息數(shù)據(jù),支持任意位置的觀賞),從而提高不同位置、不同視角觀賞內(nèi)容的自主性和藝術(shù)感。類似傳統(tǒng)影視,VR視頻仍需要后期的精心制作,國外VR影視也有很多相關(guān)嘗試。例如:美國Oculus、國家地理以及VR工作室Felix &Paul制作的《穿越歲月》短片,使用360度3DVR攝像機(jī)拍攝了美國總統(tǒng)奧巴馬一家在優(yōu)山美地國家森林公園游覽的故事。由于它是立體拍攝,景深效果十分出眾這讓你感覺自己好像站立在山頂或者在森林中最高的大樹底下,畫面十分清晰、優(yōu)美。另外,Oculus Story Studio制作的VR動畫片《Henry》獲得美國最高影視獎艾美獎。在《Henry》全景動畫片中,觀眾可以加入這只孤獨小刺猬的生日Party,并跟著它在屋子周圍忙前忙后,準(zhǔn)備蛋糕和派對,也許還能找到一些朋友。一部分主流媒體和從業(yè)人士認(rèn)為,這個獎項的頒發(fā)是VR技術(shù)逐漸被大眾所認(rèn)同的表現(xiàn)。
VR技術(shù)日益成熟,但是依然還有很大的發(fā)展空間。首先需要更加輕便、快速的顯示設(shè)備,保證用戶體驗舒適。需要更快的網(wǎng)絡(luò)來傳送高碼率的VR視頻,使用戶能夠流暢無卡頓地觀賞。除了手勢交互外,還需要更全面的感知系統(tǒng),例如視覺、聽覺、身體姿態(tài)、觸覺、力學(xué)反饋等。不僅僅局限在游戲和視頻,VR內(nèi)容也需要更加豐富更加優(yōu)質(zhì)的內(nèi)容制作,包括新聞、電商、旅行、教育、醫(yī)療等領(lǐng)域。對VR視頻來說,需要更廣闊的視角,允許用戶在虛擬世界中不但可以轉(zhuǎn)頭觀看還可以行走漫游。另外,VR發(fā)展還需要盡快制定硬件、軟件及視頻內(nèi)容的標(biāo)準(zhǔn),讓軟、硬件集成和內(nèi)容播放能夠彼此兼容,更加專業(yè)化。
Gartner發(fā)布的2016年新興技術(shù)成熟度的曲線上,預(yù)測VR已經(jīng)進(jìn)入到工業(yè)產(chǎn)品化的起跑線位置。VR已經(jīng)從技術(shù)研究熱點的沉寂期逐漸過渡到各行各業(yè)的產(chǎn)品開發(fā)期,對VR拍攝、拼接編輯、傳輸編碼、顯示等技術(shù)都提出了更高的挑戰(zhàn)。如何制作出優(yōu)質(zhì)的VR內(nèi)容,清晰流暢地呈現(xiàn)給用戶,讓用戶在虛擬世界中體驗到接近真實世界甚至超越真實世界的奇觀感受,是所有VR同仁們共同的努力目標(biāo)。
轉(zhuǎn)載自中國藝術(shù)報/2017 年/3 月/22 日/第S03 版 前沿·動態(tài)
全景案例欣賞 藍(lán)色維度-全景拍攝返回搜狐,查看更多