首頁 資訊 自適應(yīng)360度視頻推流挑戰(zhàn)

自適應(yīng)360度視頻推流挑戰(zhàn)

來源:泰然健康網(wǎng) 時間:2024年12月27日 15:05

背景

用戶使用頭戴設(shè)備比使用傳統(tǒng)顯示器觀看 360 度視頻內(nèi)容時的滿意度對于擾亂更加敏感。

沉浸式的體驗受到不完美的視角預(yù)測和高度動態(tài)化的網(wǎng)絡(luò)狀況的消極影響。

目前主要面臨的挑戰(zhàn)有以下 4 個:

Viewport 預(yù)測

背景

HMD 的本質(zhì)特征是快速響應(yīng)用戶頭部的移動。當(dāng)用戶改變 viewport 時 HMD 處理交互并檢測相關(guān)的 viewport 來精確播放器的信息,這樣視野就能以正常的可視角度被提供給用戶。Viewport 預(yù)測在優(yōu)化的 360 度視頻推流中非常必要。配備有位置傳感器的可穿戴 HMD 允許客戶端更新其視角方向相應(yīng)的視角場景。

分類

內(nèi)容不可知的方式基于歷史信息對 viewport 進(jìn)行預(yù)測。內(nèi)容感知的方式需要視頻內(nèi)容信息來預(yù)測未來的 viewport。

內(nèi)容不可知方式

分類平均線性回歸 LR航位推算 DR聚類機(jī)器學(xué)習(xí) ML編解碼器體系結(jié)構(gòu)現(xiàn)有成果Qian’s work——LR

使用平均線性回歸和加權(quán)線性回歸模型來做 viewport 預(yù)測,之后對與預(yù)測區(qū)域重疊的 tile 進(jìn)行整體推流。

當(dāng)預(yù)測后 0.5s、1s、2s 加權(quán)線性回歸表現(xiàn)更好Petrangeli’s work——LR

將被劃分成 tile 的等矩形的幀分成 3 個區(qū)域:viewport 區(qū)、相鄰區(qū)、其他區(qū)。

結(jié)合觀察者頭部的移動,將可變比特率分配給可見和不可見區(qū)域。

作者利用最近(100 毫秒)用戶觀看歷史的線性外推來預(yù)測未來的注視點。

Mavlankar and Girod’s work——運(yùn)動向量

使用運(yùn)動向量比如觀察者的平移、傾斜、縮放等方向上的速度和加速度,來執(zhí)行視角區(qū)域預(yù)測。

La Fuente’s work——運(yùn)動向量

考慮了兩種預(yù)測變體:角速度和角加速度,從用戶以前的方向數(shù)據(jù)來估計未來的頭部方向。按照預(yù)測結(jié)果分配不同的量化參數(shù)到每個 tile 上。

當(dāng)進(jìn)行進(jìn)一步的預(yù)測時(超過 2s),這種方式限制了預(yù)測的精度。

如果視頻 tile 被基于錯誤的預(yù)測而被請求,用戶的實際 viewport 可能會被沒有請求因而沒有內(nèi)容的黑色 tile 所覆蓋。

Ban’s work——KNN+LR

使用 KNN 算法利用跨用戶觀看歷史,使用 LR 模型利用戶個體化的行為。

就視角預(yù)測的準(zhǔn)確率而言,分別取得了 20%和 48%的絕對和相對改進(jìn)。

Liu’s work——cluster

提出了使用數(shù)據(jù)融合方法,通過考慮幾個特征來估計未來視角位置。特征例如:用戶的參與度、用戶觀看同一視頻的行為、單個用戶觀看多個視頻的行為、最終用戶設(shè)備、移動性水平。

Petrangeli’s work——cluster

基于車輛軌跡預(yù)測的概念,考慮了類似的軌跡形成一個簇來預(yù)測未來的 viewport。

結(jié)果表明這種方法為更長的視野提高了精確度。

檢查了來自三個歐拉角的不同軌跡,這樣做可能導(dǎo)致性能不足。

Rossi’s work——cluster

提出了一種聚類的方法,基于球形空間中有意義的 viewport 重疊來確認(rèn)用戶的簇。

基于 Bron-Kerbosch(BK)算法的聚類算法能夠識別大量用戶,這些用戶觀看的是相同的 60%的 3s 長球形視頻塊。

與基準(zhǔn)相比,該方法為簇提供了可兼容且重要的幾何 viewport 重疊。

Jiang’s work

背景:

LR 方法對于長期的預(yù)測視野會導(dǎo)致較差的預(yù)測精度。長短時記憶(LSTM)是一種遞歸神經(jīng)網(wǎng)絡(luò)(RNN)架構(gòu),適用于序列建模和模式開發(fā)。

方法:

為了在 FoV 預(yù)測中獲取比 LR 方法更高的精確度,開發(fā)了一種使用帶有 128 個神經(jīng)元的 LSTM 模型的 viewport 預(yù)測方法。

分析了 360 度數(shù)據(jù)集,觀察到用戶在水平方向頭部有快速轉(zhuǎn)向,但是在垂直方向幾乎是穩(wěn)定的。實驗表明,這種方法同時考慮水平和垂直方向的頭部移動時,比 LR 等方法產(chǎn)生了更少的預(yù)測錯誤。Bao’s work

背景:

對 150 個用戶進(jìn)行了 16 個視頻剪輯的主觀實驗,并對其行為進(jìn)行了分析。

使用 3 個方向的歐拉角$theta$, $phi$, $psi$來表示用戶在 3D 空間中頭部的移動,結(jié)果表明不同方向的動作有強(qiáng)自相關(guān)性和消極的互相關(guān)性。因此多個角度的預(yù)測可以分開進(jìn)行。

方法:

開發(fā)兩個獨立的 LSTM 模型來分別預(yù)測$theta$和$phi$,之后將預(yù)測結(jié)果應(yīng)用于目標(biāo)區(qū)域流來有效利用可用網(wǎng)絡(luò)資源。

Hou’s work提出一種基于深度學(xué)習(xí)的視角產(chǎn)生方法來只對提前預(yù)測的 360 度視頻和 3 自由度的 VR 應(yīng)用的 viewport tile 進(jìn)行抽取和推流。(使用了大規(guī)模的數(shù)據(jù)集來訓(xùn)練模型)使用包含多層感知器和 LSTM 模型來預(yù)測 6 自由度的 VR 環(huán)境中頭部乃至身體的移動,預(yù)測的視野被預(yù)渲染來做到低延遲的 VR 體驗。Heyse’s work

背景:

在某些例子中,用戶的移動在視頻的不同部分中非常不穩(wěn)定。這增加了機(jī)器學(xué)習(xí)方式的訓(xùn)練壓力。

方法:

提出了一個基于 RL 模型的上下文代理,這個模型首先檢測用戶的顯著移動,然后預(yù)測移動的方向。這種分層自學(xué)習(xí)執(zhí)行器優(yōu)于球形軌跡外推法(這種方法將用戶運(yùn)動建模為軌跡的一部分,而不是單位球體上的完整軌跡)

Qian’s work

提出了一種叫做 Flare 的算法來最小化實際 viewport 和預(yù)測 viewport 之間的不匹配。

應(yīng)用了一種 ML 方法來執(zhí)行頻繁的 viewport 預(yù)測,包括從 130 名用戶收集的 1300 條頭部運(yùn)動軌跡的 4 個間隔。使用 viewport 軌跡預(yù)測,F(xiàn)lare 可以將錯誤預(yù)測替換成最新預(yù)測。Yu and Liu’s work

背景:

LSTM 網(wǎng)絡(luò)本身具有耗時的線性訓(xùn)練特性。編解碼器的 LSTM 模型把訓(xùn)練過程并行化,相比于 LR 和 LSTM 本身而言,改善了預(yù)測精度。

方法:

使用基于注意力的 LSTM 編解碼器網(wǎng)絡(luò)體系結(jié)構(gòu)來避免昂貴的遞歸并能更好地捕獲 viewport 變化。

提出的體系結(jié)構(gòu)相比于傳統(tǒng)的 RNN,獲得了更高的預(yù)測精度,更低的訓(xùn)練復(fù)雜度和更快的收斂。Jamali’s work

提出使用 LSTM 編解碼器網(wǎng)絡(luò)來做長期的 viewport 預(yù)測(例如 3.5s)。

收集了低延遲異質(zhì)網(wǎng)絡(luò)上跨用戶的方向反饋來調(diào)整高延遲網(wǎng)絡(luò)上目標(biāo)用戶的預(yù)測性能。

內(nèi)容感知方式

背景

內(nèi)容感知方式可以提高預(yù)測效率。

具體方法Aladagli’s work

提出了一個顯著性驅(qū)動的模型來提高預(yù)測精度。

沒有考慮用戶在 360 度視頻中的視角行為。viewport 預(yù)測錯誤可以通過理解用戶對 360 度視頻獨特的可見注意力最小化。Nguyen’s work

背景:

大多數(shù)現(xiàn)存的方法把顯著性圖看作是 360 度顯示中的位置信息來獲得更好的預(yù)測結(jié)果。

通用的顯著性和位置信息體系結(jié)構(gòu)基于固定預(yù)測模型。

方法:

提出了PanoSalNet來捕獲用戶在 360 度幀中獨特的可見注意力來改善顯著性檢測的性能。

同時使用 HMD 特性和顯著性圖的固定預(yù)測模型獲得了可測量的結(jié)果。Xu’s work

提出了兩個 DRL(Deep Reinforcement Learning)模型用于同時考慮運(yùn)動軌跡和可見注意力特性的 viewport 預(yù)測網(wǎng)絡(luò)。

離線模型基于內(nèi)容流行度檢測每個幀里的顯著性。在線模型基于從離線模型獲得的顯著性圖和之前的 viewport 預(yù)測信息預(yù)測 viewport 方向和大小。這個網(wǎng)絡(luò)只能預(yù)測 30ms 的下一個 viewport 位置。Xu’s work

收集了大規(guī)模的被使用帶有眼部軌跡跟蹤的 HMD 的 45 個觀測者觀察的動態(tài) 360 度視頻數(shù)據(jù)集,提出了基于歷史掃描路徑和圖像特征預(yù)測注視位移的方法。

在與當(dāng)前注視點、viewport 和整個圖像相關(guān)的三個空間尺度上執(zhí)行了顯著性計算。可能的圖像特性被通過向 CNN 喂圖像和相應(yīng)的顯著性圖,同時 LSTM 模型捕獲歷史信息來抽取出來。之后將 LSTM 和 CNN 特性耦合起來,用于下一次的用戶注視信息預(yù)測。Fan’s work

用戶更容易被運(yùn)動的物體吸引,因此除了顯著性圖之外,F(xiàn)an 等人也考慮了使用預(yù)訓(xùn)練 的 CNN 來估計用戶未來注視點的內(nèi)容運(yùn)動圖。

由于可能存在多個運(yùn)動,這讓預(yù)測變得不可靠,因此運(yùn)動貼圖的開發(fā)還需要進(jìn)一步的研究。Yang’s work使用 CNN 模型基于歷史觀測角度信息預(yù)測了單 viewport。接著考慮了一種使用內(nèi)容不可知和內(nèi)容感知方法如 RNN 和 CFVT 模型的融合層的 viewport 軌跡預(yù)測策略。融合模型使其同時支持更好地預(yù)測并且提高了大概 40%的精度。Ozcinar’s work

將 viewport 軌跡轉(zhuǎn)換為基于 viewport 的視覺注意圖,然后對不同大小的 tile 進(jìn)行推流以保證更高的編碼效率。

Li’s work

現(xiàn)有的預(yù)測模型對未來的預(yù)測能力有限,Li 等人提出了兩種模型,分別用于 viewport 相關(guān)和基于 tile 的推流系統(tǒng)。

第一個模型應(yīng)用了基于用戶軌跡的 LSTM 編解碼網(wǎng)絡(luò)體系結(jié)構(gòu)。第二個模型應(yīng)用了卷積 LSTM 編解碼體系結(jié)構(gòu),使用序列的熱圖來預(yù)測用戶的未來方向。

總結(jié)

精確的方向預(yù)測使 360 度視頻的客戶端可以以高分辨率下載最相關(guān)的 tile。

當(dāng)前采用顯著性和位置信息的神經(jīng)網(wǎng)絡(luò)模型的性能比直接利用當(dāng)前觀察位置進(jìn)行未來 viewport 位置估計的簡單無運(yùn)動的基線方法表現(xiàn)差。估計的顯著性中的噪音等級限制了這些模型的預(yù)測精度。并且這些模型也引入了額外的計算復(fù)雜度。

對于 360 度視頻注意點的可靠預(yù)測和用戶觀看可能性與顯著性圖之間關(guān)系的理解,顯著性模型必須被改善并通過訓(xùn)練大規(guī)模的數(shù)據(jù)集來適應(yīng),尤其是被配備了不同攝像機(jī)旋轉(zhuǎn)的鏡頭所捕獲的數(shù)據(jù)。

另一方面,卷積 LSTM 編解碼器和基于軌跡的預(yù)測方法適合長期預(yù)測,并能帶來相當(dāng)大的 QoE 改進(jìn),特別是在協(xié)作流媒體環(huán)境中。

QoE 評估

背景

由于全方位視頻非常普遍,因此,通過這種類型的視頻分發(fā)來確定用戶的特定質(zhì)量方面是至關(guān)重要的。QoE 在視頻推流應(yīng)用中扮演著重要角色。在傳統(tǒng)視頻推流中,QoE 很大程度上被網(wǎng)絡(luò)負(fù)載和分發(fā)性能所影響?,F(xiàn)有的次優(yōu)目標(biāo)度量方法并不適用于全向視頻,因為全向視頻受網(wǎng)絡(luò)狀況和用戶視角行為的影響很大。

主觀質(zhì)量評估

主觀質(zhì)量評估是估計 360 度視頻推流質(zhì)量的現(xiàn)實并且可靠的方法。

Upenik’s work

用一臺 MergeVR HMD 執(zhí)行了主觀測試來體驗 360 度圖像。

實驗數(shù)據(jù)包括主觀分?jǐn)?shù)、視角軌跡、在每個圖像上花費(fèi)的時間由軟件上獲得。視角方向信息被用于計算顯著性圖。但是這項研究沒有考慮對 360 度視頻的評估。Zhang’s work

為了彌補(bǔ) 360 度視頻和常規(guī)視頻度量方式之間的性能差距,為全景視頻提出了一種主觀質(zhì)量評估方法,稱為SAMPVIQ。

23 位參與者被允許觀看 4 個受損視頻,整體視頻質(zhì)量體驗的評分在 0~5 分之間。參與者之間存在較大的評分差異。Xu’s work

提出兩種主觀測量方式:總體區(qū)分平均意見分?jǐn)?shù)(O-DMOS)和矢量區(qū)分平均意見分?jǐn)?shù)(V-DMOS)來獲得 360 度視頻的質(zhì)量損失。

類似于傳統(tǒng)食品的 DMOS 度量方式,O-DMOS 度量方式計算主觀測試序列的總計區(qū)分分?jǐn)?shù)。Schatz’s work

研究了使用 HMD 觀看 360 度內(nèi)容時停頓事件的影響。

沉浸式內(nèi)容的主觀質(zhì)量評估并非不重要,可能導(dǎo)致比實際推薦更多的開放性問題。通常來講人們的期望于傳統(tǒng)的 HAS 相似,即如果可能的話,根本沒有停頓??捎玫拈_源工具

AVTrack360,OpenTrack 和 360player 能捕獲用戶觀看 360 度視頻的頭部軌跡。

VRate 是一個在 VR 環(huán)境中提供主觀問卷調(diào)查的基于 Unity 的工具。

安卓應(yīng)用*MIRO360*,支持未來 VR 主觀測試的指南開發(fā)。

Cybersickness

Cybersickness是一種獲得高 QoE 的潛在障礙,它能引起疲勞、惡心、不適和嘔吐。

Singla’s work

使用受限的帶寬和分辨率,在不同的延遲情況下進(jìn)行了兩個主觀實驗。

開發(fā)了主觀測試平臺、測試方法和指標(biāo)來評估 viewport 自適應(yīng) 360 度視頻推流中的視頻感知等級和Cybersickness?;?tile 的推流在帶寬受限的情況下表現(xiàn)很好。47ms 的延遲實際上不影響感知質(zhì)量。Tran’s work

考慮了幾個影響因子例如內(nèi)容的空間復(fù)雜性,數(shù)量參數(shù),分辨率特性和渲染模型來評估 cybersickness,質(zhì)量,可用性和用戶的存在。

VR 環(huán)境中快速移動的內(nèi)容很容易引發(fā) cybersickness。由于高可用性和存在性,用戶的 cybersickness 也可能加劇。Singla’s work

評估了 28 名受試者在 Oculus Rift 和 HTC Vive 頭戴式電腦上觀看 6 個全高清和超高清分辨率 YouTube 視頻時的觀看不適感。

HMD 的類型輕微地影響感知質(zhì)量。分辨率和內(nèi)容類型強(qiáng)烈影響個人體驗。女性用戶感到cybersickness的人數(shù)更多??臻g存在感

空間存在感能增強(qiáng)沉浸感。

Zou’s work

方法:

提出了一個主觀框架來測量 25 名受試者的空間存在感。

提出的框架包括三層,從上到下分別為:空間存在層、感知層、科技影響層。心理上的空間存在感形成了空間存在層。感知層以視頻真實感、音頻真實感和交互元素為特征??萍加绊憣佑蓭讉€模塊組成,這些模塊與感知層相連,以反映傳感器的真實性。Hupont’s work

應(yīng)用通用感知的原則來研究在 Oculus HMD 和傳統(tǒng) 2D 顯示器上玩游戲的用戶的空間存在感。

與 2D 顯示器相比,3D 虛擬現(xiàn)實主義顯示出更高的驚奇、沉浸感、存在感、可用性和興奮感。生理特征度量Salgado’s work

方法:

捕獲多種多樣的生理度量,例如心率 HR,皮膚電活性 EDA、皮膚溫度、心電圖信號 ECG、呼吸速率、血壓 BVP、腦電圖信號 EEG 來評價沉浸式模擬器的質(zhì)量。

Egan’s work

基于 HR 和 EDA 信號評估 VR 和非 VR 渲染模式質(zhì)量分?jǐn)?shù)。

相比于 HR,EDA 對質(zhì)量分?jǐn)?shù)有強(qiáng)烈的影響。技術(shù)因素感知

不同的技術(shù)和感知特征,如失真、清晰度、色彩、對比度、閃爍等,用于評估感知視頻質(zhì)量。

Fremerey’s work

確定了可視質(zhì)量強(qiáng)烈地依賴于應(yīng)用的運(yùn)動插值(MI)算法和視頻特征,例如相機(jī)旋轉(zhuǎn)和物體的運(yùn)動。

在一項主觀實驗中,12 位視頻專家回顧了使用 FFmpeg 混合、FFmpeg MCI(運(yùn)動補(bǔ)償插值)和 butterflow 插值到 90 fps 的四個視頻序列。作者發(fā)現(xiàn),與其他算法相比,MCI 在 QoE 方面提供了極好的改進(jìn)。

總結(jié)

主觀測試與人眼直接相關(guān),并揭示了 360 度視頻質(zhì)量評估的不同方面的影響。

在這些方面中,空間存在感和由佩戴 VR 頭戴設(shè)備觀看 360 度視頻導(dǎo)致的cybersickness極為重要,因為這些效果并不在傳統(tǒng)的 2D 視頻觀看中出現(xiàn)。

主觀評估需要綜合的手工努力并因此昂貴耗時并易于出錯,相對而言,客觀評估更易于管理和可行。

客觀質(zhì)量評估

由于類似的編碼結(jié)構(gòu)和 2D 平面投影格式,對 360 度內(nèi)容應(yīng)用客觀質(zhì)量評估很自然。

計算 PSNR

現(xiàn)有投影方式中的采樣密度在每個像素位置并不均勻。

Yu’s work

為基于球形的 PSNR 計算引入 S-PSNR 和 L-PSNR。

S-PSNR 通過對球面上所有位置的像素點做同等加權(quán)來計算 PSNR。利用插值算法,S-PSNR 可以完成對支持多種投影模式的 360 度視頻的客觀質(zhì)量評估。L-PSNR 通過基于緯度和訪問頻率的像素點加權(quán)測量 PSNR。L-PSNR 可以測量 viewport 的平均 PSNR 而無需特定的頭部運(yùn)動軌跡。Zakharchenko’s work

提出了一種 Craster Parabolic Projection-PSNR (CPP-PSNR) 度量方式來比較多種投影方案,通過不改變空間分辨率和不計算實際像素位置的 PSNR,將像素重新映射成 CPP 投影。

CPP 投影方式可能使視頻分辨率大幅下降。Sun’s work

提出了一種叫做 weighted-to-spherically-uniform PSNR (WS-PSNR)的質(zhì)量度量方式,以此來測量原始和受損內(nèi)容之間的質(zhì)量變化。

根據(jù)像素在球面上的位置考慮權(quán)重。計算 SSIM

SSIM 是另一種質(zhì)量評估指標(biāo),它通過三個因素反映圖像失真,包括亮度、對比度和結(jié)構(gòu)。

Chen’s work

為 2D 和 360 度視頻分析了 SSIM 結(jié)果,引入了球型結(jié)構(gòu)的相似性度量(S-SSIM)來計算原始和受損的 360 度視頻之間的相似性。

在 S-SSIM 中,使用重投影來計算兩個提取的 viewport 之間的相似性。Zhou’s work

考慮相似性的權(quán)重提出了 WS-SSIM 來測量投影區(qū)域中窗口的相似性。

性能評估表明,與其他質(zhì)量評估指標(biāo)相比,WS-SSIM 更接近人類感知。Van der Hooft’s work

提出了ProbGaze度量方式,基于 tile 的空間尺寸和 viewport 中的注視點。

考慮外圍 tile 的權(quán)重來提供合適的質(zhì)量測量。相比于基于中心和基于平均的 PSNR 和 SSIM 度量方式,ProbGaze能估計當(dāng)用戶突然改變 viewport 位置時的視頻質(zhì)量變化。Xu’s work

引入了兩種客觀質(zhì)量評估度量手段:基于內(nèi)容感知的 PSNR 和非內(nèi)容感知的 PSNR,用于編碼 360 度視頻。

第一種方式基于空間全景內(nèi)容對像素失真進(jìn)行加權(quán)。第二種方式考慮人類偏好的統(tǒng)計數(shù)據(jù)來估計質(zhì)量損失?;?PSNR 和 SSIM 方式的改進(jìn)

盡管各種基于 PSNR 和 SSIM 的方式被廣闊地應(yīng)用到了 360 度視頻的質(zhì)量評估中,但這些方式都沒有真正地捕獲到感知質(zhì)量,特別是當(dāng) HMD 被用于觀看視頻時。因此需要為 360 度內(nèi)容特別設(shè)計一種優(yōu)化的質(zhì)量度量方式。

Upenik’s work

考慮了一場使用 4 張高質(zhì)量 360 度全景圖像來讓 45 名受試者在不同的編碼設(shè)定下評估和比較客觀質(zhì)量度量方式性能的主觀實驗。

現(xiàn)有的客觀度量方式和主觀感知到的質(zhì)量相關(guān)性較低。Tran’s work

論證主觀度量和客觀度量之間相關(guān)性較高,但是使用的數(shù)據(jù)集較小。

基于 ML 的方式

基于 ML 的方式可以彌補(bǔ)客觀評估和主觀評估之間的差距。

Da Costa Filho’s work

提出了一個有兩個階段的模型。

首先自適應(yīng) VR 視頻的播放性能由機(jī)器學(xué)習(xí)算法所確定。之后模型利用估計的度量手段如視頻質(zhì)量、質(zhì)量變化、卡頓時間和啟動延遲來確定用戶的 QoE。Li’s work

引入了基于 DRL 的質(zhì)量獲取模型,在一次推流會話中同時考慮頭部和眼部的移動。

360 度視頻被分割成幾個補(bǔ)丁。低觀看概率的補(bǔ)丁被消除。參考和受損視頻序列都被輸入到深度學(xué)習(xí)可執(zhí)行文件中,以計算補(bǔ)丁的質(zhì)量分?jǐn)?shù)。之后分?jǐn)?shù)被加權(quán)并加到一起得到最終的分?jǐn)?shù)。Yang’s work

考慮了多質(zhì)量等級的特性和融合模型。

質(zhì)量特性用region of interest(ROI)圖來計算,其中包括像素點等級、區(qū)域等級、對象等級和赤道偏差。混合模型由后向傳播的神經(jīng)網(wǎng)絡(luò)構(gòu)造而成,這個神經(jīng)網(wǎng)絡(luò)組合了多種質(zhì)量特性來獲取整體的質(zhì)量評分。

總結(jié)

精確的 QoE 獲取是優(yōu)化 360 度視頻推流服務(wù)中重要的因素,也是自適應(yīng)分發(fā)方案中基礎(chǔ)的一環(huán)。

單獨考慮 VR 中的可視質(zhì)量對完整的 QoE 框架而言并不足夠。

為能獲得學(xué)界的認(rèn)可,找到其他因素的影響也很必要,例如cybersickness,生理癥狀,用戶的不適感,HMD 的重量和可用性,VR 音頻,viewport 降級率,網(wǎng)絡(luò)特性(延遲,抖動,帶寬等),內(nèi)容特性(相機(jī)動作,幀率,編碼,投影等),推流特性(viewport 偏差,播放緩沖區(qū),時空質(zhì)量變化等)。

低延遲推流

背景

360 度全景視頻推流過程中的延遲由幾部分組成:傳感器延遲、云/邊處理延遲、網(wǎng)絡(luò)延遲、請求開銷、緩沖延遲、渲染延遲和反饋延遲。

低延遲的要求對于云 VR 游戲、沉浸式臨場感和視頻會議等更為嚴(yán)格。

要求極低的終端處理延遲、快速的云/邊計算和極低的網(wǎng)絡(luò)延遲來確保對用戶頭部移動做出反饋。

現(xiàn)代 HMD 可以做到使傳感器延遲降低到用戶無法感知的程度。

傳輸延遲已經(jīng)由 5G 移動和無線通信技術(shù)大幅減少。

但是,對于減少處理、緩沖和渲染延遲的工作也是必要的。

許多沉浸式應(yīng)用的目標(biāo)是 MTP 的延遲少于 20ms,理想情況是小于 15ms。

減少啟動時間

減少初始化請求的數(shù)據(jù)量

通常來講,較小的視頻 segment 能減少啟動和下載時間。

Van der Hooft’s work

考慮了新聞相關(guān)內(nèi)容的推流,使用的技術(shù)有:

服務(wù)端編碼服務(wù)端的用戶分析服務(wù)器推送策略客戶端積極存儲視頻數(shù)據(jù)

取得的效果:

降低了啟動時間允許不同網(wǎng)絡(luò)設(shè)定下的快速內(nèi)容切換較長的響應(yīng)時間降低了性能Nguyen’s work

基于 viewport 依賴的自適應(yīng)策略分析了自適應(yīng)間隔延遲和緩沖延遲的影響。

使用服務(wù)端比特率計算策略來最小化響應(yīng)延遲的影響。根據(jù)客戶端的響應(yīng)估計可用的網(wǎng)絡(luò)吞吐量和未來的 viewport 位置。服務(wù)端的決策引擎推流合適的 tile 來滿足延遲限制。

取得的效果:

對于 viewport 依賴型推流方案而言,較少的自適應(yīng)和緩沖延遲不可避免。

降低由 tile 分塊帶來的網(wǎng)絡(luò)負(fù)載

在 HTTP/1.1 中,在空間上將視頻幀分成矩形 tile 會增加網(wǎng)絡(luò)負(fù)載,因為每個 tile 會產(chǎn)生獨立的網(wǎng)絡(luò)請求。

請求爆炸的問題導(dǎo)致了較長的響應(yīng)延遲,但是可以通過使用 HTTP/2 的服務(wù)器推送特性解決。這個特型使服務(wù)器能使用一條 HTTP 請求復(fù)用多條消息。

Wei’s work

利用 HTTP/2 協(xié)議來促進(jìn)低延遲的 HTTP 自適應(yīng)推流。

提出的服務(wù)端推送的策略使用一條請求同時發(fā)送幾個 segment 避免多個 GET 請求。Petrangeli’s work

結(jié)合特定請求參數(shù)與 HTTP/2 的服務(wù)端推送特性來促進(jìn) 360 度視頻推流。

客戶端為一個 segment 發(fā)送一條 call,服務(wù)器使用 FCFS 策略傳送 k 個 tile。利用 HTTP/2 的優(yōu)先級特性可以使高優(yōu)先級的 tile 以緊急的優(yōu)先級被獲取,進(jìn)而改善網(wǎng)絡(luò)環(huán)境中的高往返時間的性能。Xu’s work

為 360 度內(nèi)容采用了k-push策略:將 k 個 tile 推送到客戶端,組成一個單獨的時間段。

提出的方法與 QoE 感知的比特率自適應(yīng)算法一起,在不同的 RTT 設(shè)定下,提高了 20%的視頻質(zhì)量,減少了 30%的網(wǎng)絡(luò)傳輸延遲。Yahia’s work

使用 HTTP/2 的優(yōu)先級和多路復(fù)用功能,在兩個連續(xù)的 viewport 預(yù)測之間,即在交付相同片段之前和期間,組織緊急視頻塊的受控自適應(yīng)傳輸。

Yen’s work

開發(fā)了一種支持 QUIC 的體系結(jié)構(gòu)來利用流優(yōu)先級和多路復(fù)用的特性來實現(xiàn) 360 度視頻的安全和低優(yōu)先級的傳輸。

當(dāng) viewport 變化發(fā)生時,QUIC 能讓常規(guī)的 tile 以低優(yōu)先級推流,viewport 內(nèi)的 tile 以高優(yōu)先級推流,都通過一條 QUIC 連接來降低 viewport tile 的缺失率。作者說測試表明基于 QUIC 的自適應(yīng) 360 度推流比 HTTP/1.1 和 HTTP/2 的方案表現(xiàn)更好。

使用移動邊緣計算降低延遲

Mangiante’s work

提出了利用基于邊緣處理的 viewport 渲染方案來減少延遲,同時利用終端設(shè)備上的電源和計算負(fù)載。

但是作者沒有給出有效的算法或是建立一個實踐執(zhí)行平臺。Liu’s work

采用遠(yuǎn)端渲染技術(shù),通過為不受約束的 VR 系統(tǒng)獲取高刷新率來隱藏網(wǎng)絡(luò)延遲。

采用 60GHz 的無線鏈路支持的高端 GPU,來加快計算速度和 4K 渲染,減少顯示延遲。盡管提供了高質(zhì)量和低延遲的推流,但是使用了昂貴的帶寬連接,這通常并不能獲得。Viitanen’s work

引入了端到端的 VR 游戲系統(tǒng)。通過執(zhí)行邊緣渲染來降低延遲,能源和計算開銷。

為 1080p 30fps 的視頻格式實現(xiàn)了端到端的低延遲(30ms)的系統(tǒng)。前提是有充足的帶寬資源、終端設(shè)備需要性能強(qiáng)勁的游戲本。Shi’s work

考慮了不重視 viewport 預(yù)測的高質(zhì)量 360 度視頻渲染。

提出的 MEC-VR 系統(tǒng)采用了一個遠(yuǎn)端服務(wù)器通過使用一個自適應(yīng)裁剪過濾器來動態(tài)適應(yīng) viewport 覆蓋率,這個過濾器按照觀測到的系統(tǒng)延遲增加 viewport 之外的區(qū)域?;?viewport 覆蓋率的延遲調(diào)整允許客戶端容納和補(bǔ)償突然的頭部移動。

共享 VR 環(huán)境中的延遲處理

共享 VR 環(huán)境中用戶的延遲取決于用戶的位置和邊緣資源的分發(fā)。

Park’s work

通過考慮多個用戶和邊緣服務(wù)器之間的雙向通信,提出了一種使用線性蜂窩拓?fù)渲械膸挿峙洳呗裕宰钚』说蕉讼到y(tǒng)延遲。確定了推流延遲強(qiáng)烈地依賴于:

邊緣服務(wù)器的處理性能多個交互用戶之間的物理和虛擬空間Perfecto’s work

集成了深度神經(jīng)網(wǎng)絡(luò)和毫米波多播傳輸技術(shù)來降低協(xié)同 VR 環(huán)境中的延遲。

神經(jīng)網(wǎng)絡(luò)模型估計了用戶即將來臨的 viewport。用戶被基于預(yù)測的相關(guān)性和位置分組,以此來優(yōu)化正確的 viewport 許可。執(zhí)行積極的多播資源調(diào)度來最小化延遲和擁塞。

總結(jié)

在單用戶和多用戶的環(huán)境中,邊緣輔助的解決方式對于控制延遲而言占主要地位。

此外還有服務(wù)端的 viewport 計算、服務(wù)端 push 機(jī)制和遠(yuǎn)程渲染機(jī)制都能用于低延遲的控制。

現(xiàn)有的 4G 網(wǎng)絡(luò)足以支持早期的自適應(yīng)沉浸式多媒體,正在成長的 5G 網(wǎng)絡(luò)更能滿足沉浸式內(nèi)容的需求。

360 度直播推流

背景

傳統(tǒng)的廣播電視頻道是直播推流的流行來源。現(xiàn)在私人的 360 度直播視頻在各個社交媒體上也有大幅增長。

因為視頻生產(chǎn)者和消費(fèi)者之間在云端的轉(zhuǎn)碼操作,360 度視頻推流是更為延遲敏感的應(yīng)用。

現(xiàn)有的處理設(shè)備在諸如轉(zhuǎn)碼、渲染等實時處理任務(wù)上受到了限制。

內(nèi)容分發(fā)Hu’s work

提出了一套基于云端的直播推流系統(tǒng),叫做MELiveOV,它使高分辨率的全向內(nèi)容的處理任務(wù)以毛細(xì)管分布的方式分發(fā)到多個支持 5G 的云端服務(wù)器。

端到端的直播推流系統(tǒng)包括內(nèi)容創(chuàng)作模塊、傳輸模塊和 viewport 預(yù)測模塊。移動邊緣輔助的推流設(shè)計減少了 50%的帶寬需求。Griwodz’s work

為 360 度直播推流開發(fā)了優(yōu)化 FoV 的原型,結(jié)合了 RTP 和基于 DASH 的pull-patching來傳送兩種質(zhì)量等級的 360 度視頻給華為 IPTV 機(jī)頂盒和 Gear VR 頭戴設(shè)備。

作者通過在單個 H.265 硬件解碼器上多路復(fù)用多個解碼器來實現(xiàn)集體解碼器的想法,以此減少切換時間。視頻轉(zhuǎn)碼Liu’s work

研究表明只轉(zhuǎn)碼 viewport 區(qū)域有潛力大幅減少高性能轉(zhuǎn)碼的計算需求。

Baig’s work

開發(fā)了快速編碼方案來分發(fā)直播的 4K 視頻到消費(fèi)端設(shè)備。

采用了分層視頻編碼的方式來在高度動態(tài)且不可預(yù)測的 WiGig 和 WiFi 鏈路上分發(fā)質(zhì)量可變的塊。Le’s work

使用 RTSP 網(wǎng)絡(luò)控制協(xié)議為 CCTV 的 360 度直播推流提出了實時轉(zhuǎn)碼和加密系統(tǒng)。

轉(zhuǎn)碼方式基于 ARIA 加密庫,Intel 媒體 SDK 和 FFmpeg 庫。系統(tǒng)可以管理并行的轉(zhuǎn)碼操作,實現(xiàn)高速的轉(zhuǎn)碼性能。內(nèi)容拼接縫合

相比于其他因素如捕獲、轉(zhuǎn)碼、解碼、渲染,內(nèi)容拼接在決定整體上的推流質(zhì)量時扮演至關(guān)重要的角色。

Chen’s work

提出了一種內(nèi)容驅(qū)動的拼接方式,這種方式將 360 度幀的語義信息的不同類型看作事件,以此來優(yōu)化拼接時間預(yù)算。

基于 VR 幀中的語義信息,tile 執(zhí)行器模塊選擇合適的 tile 設(shè)計。拼接器模塊然后執(zhí)行基于 tile 的拼接,這樣,基于可用資源,事件 tile 有更高的拼接質(zhì)量。評估表明系統(tǒng)通過實現(xiàn) 89.4%的時間預(yù)算,很好地適應(yīng)了不同的事件和時間限制。

總結(jié)

相比于點播式流媒體,360 度直播推流面臨多個挑戰(zhàn),例如在事先不知情的情況下處理用戶導(dǎo)航、視頻的首次流式傳輸以及實時視頻的轉(zhuǎn)碼。在多用戶場景中,這些挑戰(zhàn)更為棘手。

關(guān)于處理多個用戶的觀看模式,可伸縮的多播可以用于在低帶寬和高帶寬網(wǎng)絡(luò)上以接近于按需推流的質(zhì)量等級。

基于 ROI 的 tile 拼接和轉(zhuǎn)碼可以顯著地減少延遲敏感的交互型應(yīng)用的延遲需求。

相關(guān)知識

軟件挑戰(zhàn)
媒介360營銷傳播獎案例巡展|玩轉(zhuǎn)大健康營銷
【網(wǎng)站公告】首屆30天健身挑戰(zhàn)視頻發(fā)布!你上榜了沒
熱門的全天候健身挑戰(zhàn),導(dǎo)致過度訓(xùn)練和身體損傷,建議適度!
挑戰(zhàn)高難度瑜伽體式,是突破自我還是傷害身體?
曝300斤網(wǎng)紅“熊二”去世,疑因高血壓導(dǎo)致,常挑戰(zhàn)幾十元自助餐
EMC挑戰(zhàn)與應(yīng)對策略:構(gòu)建電磁兼容性的全球共識
央視網(wǎng)體育頻道sports.cctv.com
高強(qiáng)度訓(xùn)練的身體挑戰(zhàn)
科普|更年期失眠:不容忽視的身心雙重挑戰(zhàn)與科學(xué)應(yīng)對

網(wǎng)址: 自適應(yīng)360度視頻推流挑戰(zhàn) http://www.u1s5d6.cn/newsview852206.html

推薦資訊