概述
360 度視頻的推流手段逐漸從視角獨立型方案變成基于 tile 的視角依賴型方案。
相比于常規(guī)視頻,360 度視頻被編碼成全向的場景。
自適應 360 度視頻推流利用 DASH 框架來實現(xiàn)比特率的自適應。
分類
Viewport-Independent Streaming
服務端的任務使用如 ERP、CMP 等視角獨立型的投影方式,360 度視頻被投影到一個球體上??蛻舳说娜蝿胀队爸蟮囊曨l直接被傳送到客戶端,并不需要來自傳感器的方向信息??蛻舳诵枰С謱耐队案袷健?蛻舳讼裉幚韨鹘y(tǒng)視頻一樣完成比特率自適應?;诰W(wǎng)絡特征向?qū)⒁絹淼?segment 請求相同投影格式的表示DASH 插件需要支持相同質(zhì)量視頻的推流。
應用視角獨立型推流主要用于體育、教育和旅游視頻內(nèi)容。
優(yōu)點簡單缺點相比于視角依賴型方案視頻編碼效率低了 30%。為不可見的區(qū)域要求大量帶寬和解碼資源。Viewport-Dependent Streaming
終端設備的任務只接受特定的視頻幀內(nèi)容,包括等于或大于視角角度的可見信息。監(jiān)測相關的視角作為用戶頭部移動的回應,并且向服務端發(fā)送信號來精確播放器信息。為服務端準備和用戶方向相關的幾個自適應集??蛻舳说娜蝿崭鶕?jù)網(wǎng)絡情況和估計的視角位置決定獲取哪個自適應集。難點可視區(qū)域的確定與用戶頭部移動的同步質(zhì)量調(diào)整提供平滑的播放體驗現(xiàn)有的工作各種投影方式在實際推流中表現(xiàn)如何?相比于金字塔格式,為視角依賴型投影方案提出的多分辨率變體有最好的研究和開發(fā)(RD)性能。偏移 CMP 獲得了 5.6%到 16.4%的平均可見質(zhì)量。提出的框架可以基于已知的網(wǎng)絡資源和未來的視角位置適應視角的尺寸和質(zhì)量。相比于理想的下載過程,這種二維自適應策略可以花費 20%的額外網(wǎng)絡帶寬下載超過 57%的額外視頻塊。如何在網(wǎng)絡資源受限的情況下提供高質(zhì)量的推流?為視角依賴型推流產(chǎn)生不同質(zhì)量的 segment。當流中只有有限的 representation 時,利用 Quality Emphasized Regions 策略來縮放特定區(qū)域的分辨率。在擁塞網(wǎng)絡條件下,執(zhí)行了基于網(wǎng)絡回應的視角大小和比特率的聯(lián)合適應,結(jié)果顯示,相比于傳送全部的 360 度場景,動態(tài)的視角覆蓋率提供了更好的畫面質(zhì)量。這種基于網(wǎng)絡回應的自適應也確?;谡w擁塞變化做調(diào)整時能改善視頻質(zhì)量。為立體視頻的背景和前景視圖采用不對稱質(zhì)量。可以分別為背景塊和前景塊分別節(jié)省 15%和 41%的比特率。DASH 需要做什么?manifest 中需要包含視角位置信息和投影元數(shù)據(jù)。優(yōu)化獲取 random access point 的周期來優(yōu)化視角分辨率自適應體驗??紤]低延遲和活躍的視角切換。Tile-based Streaming
傳統(tǒng)視頻被分成多個塊,360 度視頻在塊的基礎上還被分成多個大小相等或者不等的 tile,以此更加精確地調(diào)整畫面的細節(jié)質(zhì)量。
分塊策略基本完全交付
高級完全交付
部分交付
分塊模式1x1,3x2,5x3,6x4,8x5
其中 6x4 的模式實現(xiàn)了較好的帶寬消耗和編碼效率的折中。
在不同的帶寬條件下,基本完全交付策略獲得了大約 65%的帶寬節(jié)約。
具體方案ClusTile基于分簇的方式,推送滿足最小帶寬需求的 tile 來克服編碼效率和計算開銷。
相比于傳統(tǒng)和高級的基于 tile 的推流方案,分別實現(xiàn)了 72%和 52%的帶寬節(jié)約。當實際看到的和下載的 tile 有差異時,基于分簇的 tile 選取可能會導致選擇不當。Ghosh’s work提議以最低可獲得的質(zhì)量下載周圍和遠處的 tile。
相比于其他算法,視角及其周邊區(qū)域的可變質(zhì)量提高了 20%的 QoE 水平。Ozcinar’s work介紹了一種自適應 360° 視頻流框架。
利用視覺注意力度量來計算每個幀的最佳平鋪模式。
使用選中的模式,為不同區(qū)域的 tile 分配非統(tǒng)一的比特率。
比特率的選取取決于估計的視角和網(wǎng)絡狀況。
因為很大部分的帶寬被用于傳輸非視角內(nèi)的 tile,框架難以優(yōu)化視角內(nèi)的質(zhì)量。
Xie’s work提出了一套優(yōu)化框架,以此來最小化預取 tile 的錯誤,改善與不同比特率相關聯(lián)的 tile 邊界的平滑程度。
定義了兩個 QoE 函數(shù),目標是最小化:
預期質(zhì)量失真$Phi(X)$
當考慮 tile 看到概率時視角的空間質(zhì)量方差$Psi(X)$:
Φ(X)=∑i=1N∑j=1MDi,j?xi,j?pi,j∑i=1N∑j=1Mxi,j?si
Ψ(X)=∑i=1N∑j=1Mxi,j?pi?(Di,j?si?Φ(X))2∑i=1N∑j=1Mxi,j?si
基于目標緩沖區(qū)的自適應方法用于在需要短期視口預測的小緩沖區(qū)下進行平滑播放
在自適應的第 k 步,當?shù)?k 個 segment 集合下載完成時,緩沖區(qū)占用率$b_k$由下面的式子給出:
bk=bk?1?Rk?TCk+T
為了避免用盡所有塊,緩沖區(qū)的占用率被通過設定一個目標緩沖區(qū)水平$B_{target}$所控制,即$b_k = B_{target}$。
平均空間質(zhì)量方差是 0.97,比其他基于 tile 的策略小。
所提出的概率自適應框架在感知質(zhì)量上實現(xiàn)了約 39% 的增益,平均降低了 46% 的空間質(zhì)量方差。
Vander Hooft’s work將 360 度幀劃分成視角內(nèi)區(qū)域和視角外區(qū)域。
首先為所有區(qū)域都選擇最低質(zhì)量,然后提高視角內(nèi) tile 的質(zhì)量。如果帶寬依然可用,接著提高剩下的 tile 的質(zhì)量。啟發(fā)式的方式在帶寬可用的基礎上積極提高視角內(nèi) tile 的質(zhì)量。沒有考慮視角比特率調(diào)整時視角預測的錯誤。Nguyen’s work提出了一種新的自適應機制,它在每個 segment 中同時考慮頭部移動和視角的預測錯誤,動態(tài)地決定視角內(nèi)的比特率。
聯(lián)合適應擴展塊的覆蓋范圍和比特率。在不同記錄的用戶頭部運動下的實驗評估表明,在不獲取非視角內(nèi)區(qū)域過多帶寬利用率的情況下,視角內(nèi)容質(zhì)量有所提高。DASH SRD 擴展DASH 的 SRD 擴展提供了多種版本的 tile 的關聯(lián)來節(jié)省更多的比特率。
Le Feuvre and Concolato’s work他們應用了這個 SRD 特性,引入了同時為獨立的和運動受限的 HEVC tile 的不同優(yōu)先級設定,以此來高效地實現(xiàn)基于 tile 的方案。
使用開源的 GPAC 多媒體框架開發(fā)了一個 DASH 客戶端,以此來執(zhí)行帶有可配置參數(shù)的基于 tile 的推流。D’Acunto’s work提出了一種 MPEG-DASH SRD 方法來促進可縮放和可平移視頻的平滑推流。
總是下載低分辨率的 tile 來避免用戶移動視角時的重新緩沖。當前視野區(qū)域被上采樣并展示給用戶,以此來支持高質(zhì)量的縮放功能。用JavaScript實現(xiàn)了 SRD 視頻播放器。Hosseini’s work基于 SRD 實現(xiàn)了視角內(nèi)容、相鄰 tile 和剩余 tile 的優(yōu)先級推流。
用 6 個 3D 網(wǎng)格構建了一套 3D 座標系來在 3D 空間中平滑地表示 tile。相比于基礎的方式,這種區(qū)分質(zhì)量的推流方案節(jié)省了 72%的帶寬。Kim and Yang’s work使用改進的 MPEG-DASH SRD 來在質(zhì)量可變的 tile 層中作選擇。
基于他們之前的工作設計并實現(xiàn)了一個支持多層渲染的 360° VR 播放器,以支持高度不可預測的頭部運動數(shù)據(jù)的高分辨率和低延遲流。Motion-Constrained TileSet在 HEVC 中,運動約束貼圖集(MCTS)是將整個幀表示為子視頻的相鄰分割,并為自由選擇的貼圖集提供解碼支持。
Zare’s work將 MCTS 的概念應用到了全景視頻推流中。
將兩個質(zhì)量版本的視頻分割成 tile,以原始的分辨率推流視角內(nèi)的 tile,以低分辨率推流剩余的 tile。它已經(jīng)表明,選定圖塊的可變比特率會降低 30% 到 40% 的比特率。Skupin’s work陳述了一種使用 HEVC 編碼器的基于 tile 的可變分辨率的推流系統(tǒng)。
使用立方貼圖投影的 360 度視頻被分割成 24 個網(wǎng)格,每個代表了一個獨立的比特流。兩種不同質(zhì)量的版本被推流到客戶端,例如 8 個 tile 以高質(zhì)量推送,16 個 tile 以低質(zhì)量推送。Son’s work在基于視角的移動 VR 推流中,為獨立的 tile 提取和傳輸實現(xiàn)了基于 MCTS 的 HEVC 和可縮放的 HEVC 編解碼器。
節(jié)省了超過 47%的帶寬。相比于原始的 HM 和 SHM 編碼器表現(xiàn)不佳,因為 MCTS 限制了時間運動信息。Lee’s work用 MCTS 編碼 360 度視頻 tile,并使用顯著性檢測網(wǎng)絡將混合質(zhì)量的視頻 tile 推流給終端用戶。
通過顯著性模型改進 MCTS 的使用,可以在不增加任何復雜性的情況下靈活地對感興趣的 tile 區(qū)域進行解碼支持。Scalable Video Code可伸縮視頻編碼 SVC 是實現(xiàn) viewport 自適應的一種替代策略。
基礎層總被需要并且能從客戶端預取來避免重新緩沖事件。
提高層改善 viewport 質(zhì)量并且可以在帶寬充足的時候被請求。
SVC 促進了一種高效的網(wǎng)絡內(nèi)緩存支持來減少多個客戶端請求相同內(nèi)容時的分發(fā)開銷。
Nasrabadi’s work使用了一種可伸縮編碼方案來解決 360 度視頻推流的重新緩沖的問題。
存在質(zhì)量波動的問題,因為沒有使用任何機制來處理 viewport 的預測錯誤。Nguyen’s work建議使用 SVC 協(xié)同 viewport 預測來克服網(wǎng)絡信道和頭部運動的隨機性。
實驗表明,所提出的平鋪層更新和后期平鋪終止特征可使 viewport 質(zhì)量提高 17%。AI 方法的應用背景:傳統(tǒng)視頻推流中使用強化學習來高效調(diào)整視頻比特率和實現(xiàn)長期的 QoE 回報。
和傳統(tǒng)視頻內(nèi)容不同,360 度視頻包含幾個新的方面比如 tile 大小、viewport 預測等。
直接將現(xiàn)有的強化學習自適應策略應用到 360 度視頻上可能會降低推流性能。
Fu’s work為 360 度視頻提出了稱為360SRL的一種序列化強化學習方法,它基于之前決策的 QoE 回報而非估計的帶寬狀況做出自適應決策。
360SRL 使用基于 tile 的推流模擬器來增強訓練階段。跟蹤驅(qū)動的評估表明,360SRL 比基線適應方法取得了 12%的 QoE 改善。Jiang’s work基于歷史帶寬、緩沖區(qū)空間、tile 大小和 viewport 預測錯誤等,利用強化學習來做 viewport 和非 viewport 內(nèi) tile 的比特率選擇。
所提出系統(tǒng)的架構由狀態(tài)緩沖區(qū)、視口預測 (VPP) 和 tile 比特率選擇 (TBS) 代理組成。狀態(tài)緩沖區(qū)向 VPP 和 TBS 代理提供用戶查看模式和網(wǎng)絡狀態(tài)。VPP 代理然后使用 LSTM 模型估計下一個 viewport 位置。TBS 代理由 Asynchronous Advantage Actor-Critic (A3C)算法訓練以執(zhí)行合適的比特率決策。Quan’s work通過卷積神經(jīng)網(wǎng)絡(CNN)提取像素運動來分析用戶 QoE,并使用它對 tile 動態(tài)分組,從而在視頻質(zhì)量和編碼效率之間提供重要的平衡。
使用了基于強化學習的自適應代理,它可以智能地使每個圖塊的質(zhì)量適應動態(tài)環(huán)境。使用真實 LTE 帶寬跟蹤驗證該方案,在感知質(zhì)量方面表現(xiàn)出了卓越的性能,同時也節(jié)省了帶寬資源。背景:深度學習使強化學習能夠使用多方面的狀態(tài)和動作空間進一步優(yōu)化聚合回報。
Kan and Xiao’s work設計了一套深度強化學習的框架,基于對環(huán)境因素的探索和開發(fā),自適應地調(diào)整推流策略。
這兩種方案都采用 DRL 的 A3C 算法來進行比特率決策,因為 A3C 算法能使代理變得越來越智能化。性能評估表明,所提出的系統(tǒng)平衡了各種 QoE 指標,包括平均視覺質(zhì)量、平均質(zhì)量波動和重新緩沖事件等。Zhang’s work提出了一個深度強化學習模型,它考慮 viewport 預測準確度和網(wǎng)絡狀況,使用基于 LSTM 的 ACTOR-CRITIC(AC)網(wǎng)絡動態(tài)地學習適應比特率分配。
方案能夠很好地適應廣泛的動態(tài)特性,并且與傳統(tǒng)方法相比,提供了 20%到 30%的改進 QoE 回報??偨Y(jié)基于 tile 的推流只需要少量的服務端內(nèi)容版本。
與依賴視圖的推流相比,它包含更低的存儲和處理開銷。
提出的大多數(shù)方案為 viewport 及其臨近的 tile 使用不同的分辨率,這會為高效推流減少帶寬開銷。
但是這種區(qū)分分辨率的 tile 為了防止 viewport 預測錯誤會顯著地降低能察覺到的視頻質(zhì)量。
一個 50 個用戶的主觀實驗表明,當混合 1920x1080 和 960x540 分辨率的塊時,絕大多數(shù)用戶能觀察到明顯的質(zhì)量降低。
但是當混合 1920x1080 和 1600x900 分辨率的塊時,用戶只會注意到微小的差別。
對于高運動內(nèi)容,這種混合效應甚至會導致嚴重的質(zhì)量下降。
因此為了動態(tài)執(zhí)行 tile 的選擇和基于 DRL 的比特率適應,需要有一個推流分辨率的恰當選擇,進而在流質(zhì)量、空間質(zhì)量方差、視口預測誤差和帶寬效率之間獲得完美的平衡。