首頁 資訊 自適應360度視頻推流方案

自適應360度視頻推流方案

來源:泰然健康網 時間:2024年12月27日 15:04

概述

360 度視頻的推流手段逐漸從視角獨立型方案變成基于 tile 的視角依賴型方案。

相比于常規(guī)視頻,360 度視頻被編碼成全向的場景。

自適應 360 度視頻推流利用 DASH 框架來實現(xiàn)比特率的自適應。

分類

Viewport-Independent Streaming

服務端的任務使用如 ERP、CMP 等視角獨立型的投影方式,360 度視頻被投影到一個球體上??蛻舳说娜蝿胀队爸蟮囊曨l直接被傳送到客戶端,并不需要來自傳感器的方向信息。客戶端需要支持對應的投影格式??蛻舳讼裉幚韨鹘y(tǒng)視頻一樣完成比特率自適應?;诰W絡特征向將要到來的 segment 請求相同投影格式的表示

DASH 插件需要支持相同質量視頻的推流。

應用

視角獨立型推流主要用于體育、教育和旅游視頻內容。

優(yōu)點簡單缺點相比于視角依賴型方案視頻編碼效率低了 30%。為不可見的區(qū)域要求大量帶寬和解碼資源。

Viewport-Dependent Streaming

終端設備的任務只接受特定的視頻幀內容,包括等于或大于視角角度的可見信息。監(jiān)測相關的視角作為用戶頭部移動的回應,并且向服務端發(fā)送信號來精確播放器信息。為服務端準備和用戶方向相關的幾個自適應集??蛻舳说娜蝿崭鶕?jù)網絡情況和估計的視角位置決定獲取哪個自適應集。難點可視區(qū)域的確定與用戶頭部移動的同步質量調整提供平滑的播放體驗現(xiàn)有的工作各種投影方式在實際推流中表現(xiàn)如何?相比于金字塔格式,為視角依賴型投影方案提出的多分辨率變體有最好的研究和開發(fā)(RD)性能。偏移 CMP 獲得了 5.6%到 16.4%的平均可見質量。提出的框架可以基于已知的網絡資源和未來的視角位置適應視角的尺寸和質量。相比于理想的下載過程,這種二維自適應策略可以花費 20%的額外網絡帶寬下載超過 57%的額外視頻塊。如何在網絡資源受限的情況下提供高質量的推流?為視角依賴型推流產生不同質量的 segment。當流中只有有限的 representation 時,利用 Quality Emphasized Regions 策略來縮放特定區(qū)域的分辨率。在擁塞網絡條件下,執(zhí)行了基于網絡回應的視角大小和比特率的聯(lián)合適應,結果顯示,相比于傳送全部的 360 度場景,動態(tài)的視角覆蓋率提供了更好的畫面質量。這種基于網絡回應的自適應也確?;谡w擁塞變化做調整時能改善視頻質量。為立體視頻的背景和前景視圖采用不對稱質量??梢苑謩e為背景塊和前景塊分別節(jié)省 15%和 41%的比特率。DASH 需要做什么?manifest 中需要包含視角位置信息和投影元數(shù)據(jù)。優(yōu)化獲取 random access point 的周期來優(yōu)化視角分辨率自適應體驗??紤]低延遲和活躍的視角切換。

Tile-based Streaming

傳統(tǒng)視頻被分成多個塊,360 度視頻在塊的基礎上還被分成多個大小相等或者不等的 tile,以此更加精確地調整畫面的細節(jié)質量。

分塊策略

基本完全交付

高級完全交付

部分交付

分塊模式

1x1,3x2,5x3,6x4,8x5

其中 6x4 的模式實現(xiàn)了較好的帶寬消耗和編碼效率的折中。

在不同的帶寬條件下,基本完全交付策略獲得了大約 65%的帶寬節(jié)約。

具體方案ClusTile

基于分簇的方式,推送滿足最小帶寬需求的 tile 來克服編碼效率和計算開銷。

相比于傳統(tǒng)和高級的基于 tile 的推流方案,分別實現(xiàn)了 72%和 52%的帶寬節(jié)約。當實際看到的和下載的 tile 有差異時,基于分簇的 tile 選取可能會導致選擇不當。Ghosh’s work

提議以最低可獲得的質量下載周圍和遠處的 tile。

相比于其他算法,視角及其周邊區(qū)域的可變質量提高了 20%的 QoE 水平。Ozcinar’s work

介紹了一種自適應 360° 視頻流框架。

利用視覺注意力度量來計算每個幀的最佳平鋪模式。

使用選中的模式,為不同區(qū)域的 tile 分配非統(tǒng)一的比特率。

比特率的選取取決于估計的視角和網絡狀況。

因為很大部分的帶寬被用于傳輸非視角內的 tile,框架難以優(yōu)化視角內的質量。

Xie’s work

提出了一套優(yōu)化框架,以此來最小化預取 tile 的錯誤,改善與不同比特率相關聯(lián)的 tile 邊界的平滑程度。

定義了兩個 QoE 函數(shù),目標是最小化:

預期質量失真$Phi(X)$

當考慮 tile 看到概率時視角的空間質量方差$Psi(X)$:

Φ(X)=∑i=1N∑j=1MDi,j?xi,j?pi,j∑i=1N∑j=1Mxi,j?si Phi(X) = frac{sum_{i=1}^{N}sum_{j=1}^{M}D_{i,j} * x_{i,j} * p_{i,j}}{sum_{i=1}^{N}sum_{j=1}^{M}x_{i,j} * s_{i}}

Ψ(X)=∑i=1N∑j=1Mxi,j?pi?(Di,j?si?Φ(X))2∑i=1N∑j=1Mxi,j?si Psi(X) = frac{sum_{i=1}^{N}sum_{j=1}^{M}x_{i,j}*p_i * (D_{i,j} - s_i * Phi(X))^{2}}{sum_{i=1}^{N}sum_{j=1}^{M}x_{i,j}*s_i}

基于目標緩沖區(qū)的自適應方法用于在需要短期視口預測的小緩沖區(qū)下進行平滑播放

在自適應的第 k 步,當?shù)?k 個 segment 集合下載完成時,緩沖區(qū)占用率$b_k$由下面的式子給出:

bk=bk?1?Rk?TCk+T b_k = b_{k-1} - frac{R_k*T}{C_k} + T

為了避免用盡所有塊,緩沖區(qū)的占用率被通過設定一個目標緩沖區(qū)水平$B_{target}$所控制,即$b_k = B_{target}$。

平均空間質量方差是 0.97,比其他基于 tile 的策略小。

所提出的概率自適應框架在感知質量上實現(xiàn)了約 39% 的增益,平均降低了 46% 的空間質量方差。

Vander Hooft’s work

將 360 度幀劃分成視角內區(qū)域和視角外區(qū)域。

首先為所有區(qū)域都選擇最低質量,然后提高視角內 tile 的質量。如果帶寬依然可用,接著提高剩下的 tile 的質量。啟發(fā)式的方式在帶寬可用的基礎上積極提高視角內 tile 的質量。沒有考慮視角比特率調整時視角預測的錯誤。Nguyen’s work

提出了一種新的自適應機制,它在每個 segment 中同時考慮頭部移動和視角的預測錯誤,動態(tài)地決定視角內的比特率。

聯(lián)合適應擴展塊的覆蓋范圍和比特率。在不同記錄的用戶頭部運動下的實驗評估表明,在不獲取非視角內區(qū)域過多帶寬利用率的情況下,視角內容質量有所提高。DASH SRD 擴展

DASH 的 SRD 擴展提供了多種版本的 tile 的關聯(lián)來節(jié)省更多的比特率。

Le Feuvre and Concolato’s work

他們應用了這個 SRD 特性,引入了同時為獨立的和運動受限的 HEVC tile 的不同優(yōu)先級設定,以此來高效地實現(xiàn)基于 tile 的方案。

使用開源的 GPAC 多媒體框架開發(fā)了一個 DASH 客戶端,以此來執(zhí)行帶有可配置參數(shù)的基于 tile 的推流。D’Acunto’s work

提出了一種 MPEG-DASH SRD 方法來促進可縮放和可平移視頻的平滑推流。

總是下載低分辨率的 tile 來避免用戶移動視角時的重新緩沖。當前視野區(qū)域被上采樣并展示給用戶,以此來支持高質量的縮放功能。用JavaScript實現(xiàn)了 SRD 視頻播放器。Hosseini’s work

基于 SRD 實現(xiàn)了視角內容、相鄰 tile 和剩余 tile 的優(yōu)先級推流。

用 6 個 3D 網格構建了一套 3D 座標系來在 3D 空間中平滑地表示 tile。相比于基礎的方式,這種區(qū)分質量的推流方案節(jié)省了 72%的帶寬。Kim and Yang’s work

使用改進的 MPEG-DASH SRD 來在質量可變的 tile 層中作選擇。

基于他們之前的工作設計并實現(xiàn)了一個支持多層渲染的 360° VR 播放器,以支持高度不可預測的頭部運動數(shù)據(jù)的高分辨率和低延遲流。Motion-Constrained TileSet

在 HEVC 中,運動約束貼圖集(MCTS)是將整個幀表示為子視頻的相鄰分割,并為自由選擇的貼圖集提供解碼支持。

Zare’s work

將 MCTS 的概念應用到了全景視頻推流中。

將兩個質量版本的視頻分割成 tile,以原始的分辨率推流視角內的 tile,以低分辨率推流剩余的 tile。它已經表明,選定圖塊的可變比特率會降低 30% 到 40% 的比特率。Skupin’s work

陳述了一種使用 HEVC 編碼器的基于 tile 的可變分辨率的推流系統(tǒng)。

使用立方貼圖投影的 360 度視頻被分割成 24 個網格,每個代表了一個獨立的比特流。兩種不同質量的版本被推流到客戶端,例如 8 個 tile 以高質量推送,16 個 tile 以低質量推送。Son’s work

在基于視角的移動 VR 推流中,為獨立的 tile 提取和傳輸實現(xiàn)了基于 MCTS 的 HEVC 和可縮放的 HEVC 編解碼器。

節(jié)省了超過 47%的帶寬。相比于原始的 HM 和 SHM 編碼器表現(xiàn)不佳,因為 MCTS 限制了時間運動信息。Lee’s work

用 MCTS 編碼 360 度視頻 tile,并使用顯著性檢測網絡將混合質量的視頻 tile 推流給終端用戶。

通過顯著性模型改進 MCTS 的使用,可以在不增加任何復雜性的情況下靈活地對感興趣的 tile 區(qū)域進行解碼支持。Scalable Video Code

可伸縮視頻編碼 SVC 是實現(xiàn) viewport 自適應的一種替代策略。

基礎層總被需要并且能從客戶端預取來避免重新緩沖事件。

提高層改善 viewport 質量并且可以在帶寬充足的時候被請求。

SVC 促進了一種高效的網絡內緩存支持來減少多個客戶端請求相同內容時的分發(fā)開銷。

Nasrabadi’s work

使用了一種可伸縮編碼方案來解決 360 度視頻推流的重新緩沖的問題。

存在質量波動的問題,因為沒有使用任何機制來處理 viewport 的預測錯誤。Nguyen’s work

建議使用 SVC 協(xié)同 viewport 預測來克服網絡信道和頭部運動的隨機性。

實驗表明,所提出的平鋪層更新和后期平鋪終止特征可使 viewport 質量提高 17%。AI 方法的應用

背景:傳統(tǒng)視頻推流中使用強化學習來高效調整視頻比特率和實現(xiàn)長期的 QoE 回報。

和傳統(tǒng)視頻內容不同,360 度視頻包含幾個新的方面比如 tile 大小、viewport 預測等。

直接將現(xiàn)有的強化學習自適應策略應用到 360 度視頻上可能會降低推流性能。

Fu’s work

為 360 度視頻提出了稱為360SRL的一種序列化強化學習方法,它基于之前決策的 QoE 回報而非估計的帶寬狀況做出自適應決策。

360SRL 使用基于 tile 的推流模擬器來增強訓練階段。跟蹤驅動的評估表明,360SRL 比基線適應方法取得了 12%的 QoE 改善。Jiang’s work

基于歷史帶寬、緩沖區(qū)空間、tile 大小和 viewport 預測錯誤等,利用強化學習來做 viewport 和非 viewport 內 tile 的比特率選擇。

所提出系統(tǒng)的架構由狀態(tài)緩沖區(qū)、視口預測 (VPP) 和 tile 比特率選擇 (TBS) 代理組成。狀態(tài)緩沖區(qū)向 VPP 和 TBS 代理提供用戶查看模式和網絡狀態(tài)。VPP 代理然后使用 LSTM 模型估計下一個 viewport 位置。TBS 代理由 Asynchronous Advantage Actor-Critic (A3C)算法訓練以執(zhí)行合適的比特率決策。Quan’s work

通過卷積神經網絡(CNN)提取像素運動來分析用戶 QoE,并使用它對 tile 動態(tài)分組,從而在視頻質量和編碼效率之間提供重要的平衡。

使用了基于強化學習的自適應代理,它可以智能地使每個圖塊的質量適應動態(tài)環(huán)境。使用真實 LTE 帶寬跟蹤驗證該方案,在感知質量方面表現(xiàn)出了卓越的性能,同時也節(jié)省了帶寬資源。

背景:深度學習使強化學習能夠使用多方面的狀態(tài)和動作空間進一步優(yōu)化聚合回報。

Kan and Xiao’s work

設計了一套深度強化學習的框架,基于對環(huán)境因素的探索和開發(fā),自適應地調整推流策略。

這兩種方案都采用 DRL 的 A3C 算法來進行比特率決策,因為 A3C 算法能使代理變得越來越智能化。性能評估表明,所提出的系統(tǒng)平衡了各種 QoE 指標,包括平均視覺質量、平均質量波動和重新緩沖事件等。Zhang’s work

提出了一個深度強化學習模型,它考慮 viewport 預測準確度和網絡狀況,使用基于 LSTM 的 ACTOR-CRITIC(AC)網絡動態(tài)地學習適應比特率分配。

方案能夠很好地適應廣泛的動態(tài)特性,并且與傳統(tǒng)方法相比,提供了 20%到 30%的改進 QoE 回報。總結

基于 tile 的推流只需要少量的服務端內容版本。

與依賴視圖的推流相比,它包含更低的存儲和處理開銷。

提出的大多數(shù)方案為 viewport 及其臨近的 tile 使用不同的分辨率,這會為高效推流減少帶寬開銷。

但是這種區(qū)分分辨率的 tile 為了防止 viewport 預測錯誤會顯著地降低能察覺到的視頻質量。

一個 50 個用戶的主觀實驗表明,當混合 1920x1080 和 960x540 分辨率的塊時,絕大多數(shù)用戶能觀察到明顯的質量降低。

但是當混合 1920x1080 和 1600x900 分辨率的塊時,用戶只會注意到微小的差別。

對于高運動內容,這種混合效應甚至會導致嚴重的質量下降。

因此為了動態(tài)執(zhí)行 tile 的選擇和基于 DRL 的比特率適應,需要有一個推流分辨率的恰當選擇,進而在流質量、空間質量方差、視口預測誤差和帶寬效率之間獲得完美的平衡。

相關知識

央視網體育頻道sports.cctv.com
媒介360營銷傳播獎案例巡展|玩轉大健康營銷
360度健康體驗 家居環(huán)保產品推薦
減肥顧問24小時360度全方位服務
視友科技:大腦360,引領心理健康與認知能力的新革命
信諾環(huán)球推出「信諾尊尚360醫(yī)療?!?以360度全方位健康保障提供最強後盾
康比特減肥左旋肉堿左旋360減肥藥產品膠囊360粒視頻介紹
運動方案自由選:適合您的健身方案推薦
左旋肉堿360的適用人群
減肥瘦身產品網絡推廣實施方案

網址: 自適應360度視頻推流方案 http://www.u1s5d6.cn/newsview852203.html

推薦資訊