第一次工作進展報告（論文閱讀：A Survey on Adaptive 360°Video Streaming: Solutions, Challenges and Opportunities）

時間 2020-12-30 標籤論文閱讀週報計算機視覺機器學習 vr 虛擬現實即時通信

第一次工作進展報告

隨着沉浸式虛擬現實（VR）技術的發展，360°視頻越來越多地被使用，然而，與傳統的視頻內容傳輸相比，其具有更高的帶寬和更低的延遲要求，如何傳輸高分辨率低時延的視頻內容是虛擬現實技術發展的關鍵性問題。

在「A Survey on Adaptive 360°Video Streaming: Solutions, Challenges and Opportunities」一文中，作者從視頻投影、編碼、動態調整視口大小的自適應360°視頻流方法、傳輸360°視頻流網絡相關解決方案、視口預測、體驗質量QoE評估等多方面概述了虛擬現實視頻傳輸方面的挑戰和研究機會。

在視頻投影方案中，作者介紹了四種現有的投影方法，等矩形投影（如圖1）、立方體貼圖投影（如圖2）、金字塔投影（如圖3）以及偏移立方圖投影（如圖4）。等矩形投影是最爲常見的投影技術，其可以表示爲使用偏航角、俯仰角的值將觀察者周圍的球體展平到二維表面上，常見的例子有世界地圖。立方體貼圖投影是六邊立方體組合用於將球體的像素投影到立方體上相關像素，這種投影方式常用於遊戲和視頻流媒體（如：YouTube）。金字塔投影方式在視口相關投影中，顯示區域的保真度高於其它區域，這種方法將視頻的大小減少了80%，但其缺點較爲突出，即當用戶的頭上下移動120°或左右旋轉180°，視頻質量會急劇下降。偏移立方圖投影與傳統的立方體貼圖技術類似，將像素投影到立方體的六個面，它具有與偏移方向相關聯的觀看區域以更高的質量顯示的特點，缺點是存儲開銷大。

圖1 圖2

圖3 圖4

在視頻編碼方面，目前高效的視頻編碼HEVC/H.265相比於VC/H.264節省了近50%的視頻比特率，其支持高效視頻流的平鋪功能。如圖5，背景一般是不動的，在這種情況下，我們的做法不是對每一幀的每一個像素編碼，而是對最初的幀編碼，然後僅對發生改變的進行編碼。與HEVC/H.265相比，下一代通用視頻編碼（VVC）標準有望將壓縮效率提高30%。

圖5 .264與H.265編碼對比

在自適應360°視頻流方案中，主要分爲三類，與視口無關、與視口相關以及基於切片的流。與視口無關的流是360°視頻流傳輸的最直接的方式，因爲整個幀以類似傳統視頻的同等質量傳輸整個視頻流，它的優點是不需要頭戴式顯示設備（HMD）的任何方位信息，缺點是與視口相關的流相比，它的編碼效率低30%，需要大量的帶寬和編碼資源。與視口相關的自適應流中，終端設備僅接受特定區域的視頻幀，這些區域包含視口角度相等或更大的視覺信息，客戶端根據網絡特徵和用戶的觀看方向執行自適應。在「Optimal set of 360-degree videos for viewport-adaptive streaming」一文中，描述了一種爲視口相關流產生不同質量片段的實用方法。他們提出了質量強調區域(QERs)策略，以在有限數量的表示可用於流式傳輸時縮放特定區域的分辨率。而在「Optimized Viewport Dependent Streaming of Stereoscopic Omnidirectional Video」一文中，提出一種通過巧妙地將不對稱質量用於立體視頻的背景和前景視圖的方法，以高質量傳輸前景視圖，以較低質量傳輸背景視圖。在基於切片的自適應流中，360°視頻被分割成相等/不相等的矩形塊，以精確地調整觀看者當前視口塊的質量。在「Towards Bandwidth Efficient Adaptive Streaming of Omnidirectional Video over HTTP: Design, Implementation, and Evaluation」一文中，研究了三種平鋪策略，即基本完全交付、高級完全交付和部分交付，使用最先進的視頻編解碼器有效地節省了360個視頻中未觀看部分的資源。如圖6所示，基本完全交付是在用戶當前視口中可見的所有圖塊都以最高可能的質量表示（綠色圖塊）進行請求，而此時不可見的所有其他圖塊都以最低可用質量表示（紅色圖塊）進行請求。高級完全交付是要求預計用戶的視口將移向的圖塊（黃色圖塊）以更高的質量傳輸。部分交付是所有其他切片(即當前視口外的那些)根本不被請求。在「HEVC tile based streaming to head mounted displays」一文中，提出一種使用HEVC編碼器的基於切片的可變分辨率流系統，如圖7所示，該系統將立方體貼圖360°視頻平鋪成24個網格，每個代表一個單獨的比特流，以兩個不同質量的版本被流式傳輸到客戶端，即八個高質量的瓦片和十六個低質量的瓦片。

圖6 三種平鋪策略

圖7 基於切片的可變分辨率流系統

在傳輸360°視頻流網絡相關解決方案中，「Fov-aware edge caching for adaptive 360 video streaming」一文基於其他用戶的觀看行爲，爲360°視頻引入了一種流行的內容(如FoV)緩存策略，次策略中客戶端的質量適應有兩個主要組成部分:FoV預測和吞吐量估計。自適應算法每100毫秒從客戶的FoV中提取樣本，並使用10個最近的FoV樣本作爲加權線性迴歸(WLR)方法的輸入，以預測未來的FoV。吞吐量估計中，吞吐量樣本是下載一個視頻片段時達到的估計吞吐量。網絡吞吐量估計是通過平均最後三個吞吐量樣本來完成的。文中提出基於優先級的取捨方式，優先級與當前的網絡吞吐量以及是否位於客戶端的FoV內有關，當緩存已滿時，移除具有最低優先級的切片。而「MUVR: Supporting multi-user mobile virtual reality with resource constrained edge cloud」一文提出了多用戶虛擬現實(MUVR)框架，其中邊緣雲自適應地存儲和重用冗餘VR幀，以減少計算和傳輸負載。例如在每個用戶端有一個小的本地緩存，在邊緣有一個相當大的中央緩存。這種緩存設計通過爲所有用戶生成背景視圖，儘可能重用框架來減少內存需求。

在視口預測中，可根據與視頻內容相不相關進行分類，與視頻內容不相關的方法一般使用觀看者的頭部運動數據進行視口預測，在「Delay Impact on MPEG OMAF’s tile-based viewport-dependent 360◦video streaming」一文中，考慮了兩種預測變量:角速度和角加速度，用於根據用戶的先前方位數據來估計他/她的未來頭部方位。而在「Predictive View Generation to Enable Mobile 360-degree and VR Experiences」一文提出一種預測視頻生成的方法，提取預測視圖並提前傳輸，從而同時減少帶寬和延遲。本文收集來自三星虛擬現實網站上的36000多名觀衆的19段視頻的頭部運動數據，將用戶視野使用基於平鋪的格式來表現視點特徵，每個網絡尺寸爲30°×30°，則360°可分爲72塊，根據過去2s的視點軌跡來預測視點，設計one-hot編碼，將視點表示爲72×10的矩陣V，V的元素爲0或1。先前的視點分片序列輸入本文提出的多層LSTM模型中，最終輸出72個分片上的預測概率，選擇m個概率最高的分片，組合成預測視場，高質量地傳輸預測視場，其餘分片保存空白。在實驗部分，文中比較了LSTM模型FOV的預測精度與SAE、BT、kNN模型FOV的預測精度，得出在低運動序列、中等運動序列和高運動序列中，LSTM模型FOV的預測精度優於SAE、BT、kNN模型的實驗結論，並相較於上述模型擁有更大的像素節省，達到減少帶寬和延遲的目的。

對於與視頻內容相關的視口預測方法，「Fixation Prediction for 360 Video Streaming in Head-Mounted Virtual Reality」一文提出一種預測網絡，可以同時利用傳感器和視頻內容相關的特性來預測未來觀衆的視口。視頻內容相關包括圖像顯著圖和運動圖。作者提出訓練深度神經網絡來預測顯著圖，網絡模型的前三層是預訓練的VGG-16，在VGG-16後面接着兩個附加層，以提高模糊圖像顯著圖的泛化能力。而觀看者的頭部位置信息由HMD中的傳感器採集，包括偏航角（yaw）、俯仰角（pitch）、翻滾角（roll）。文中的視口預測網絡使用的是LSTM模型，網絡的功能是預測觀衆在未來的視頻中最有可能看哪裏。如圖8所示，本文提出兩種LSTM網絡，第一種網絡的輸入是顯著圖、運動圖以及頭部信息，第二種網絡的輸入是顯著圖、運動圖以及當前觀看者視口位置信息，兩種網絡的輸出都是預測未來視頻幀中觀看者的觀看概率。兩種網絡都以滑動窗口中m個過去視頻幀的特徵作爲輸入，並以預測窗口中n個未來視頻幀爲輸出來預測切片的觀看概率。文中使用的數據集是自己採集的12個觀看者的信息，訓練過程中將數據集80%作爲訓練集，20%作爲測試集，使用交叉熵損失函數。

圖8 兩種LSTM網絡模型

在體驗質量QoE評估中，作者介紹了兩種評估方法，主觀評估和客觀評估。在「Subjective and objective quality assessment of panoramic videos in virtual reality environments」一文中，提出了一種全景視頻主觀評價方法SAMPVIQ，此方法第一步爲訓練階段，首先將參考視頻16給觀察者看，然後我們通知並播放了視頻16從高到低質量的視頻序列，目的是給觀察者基本的預期得分。第二階段預測試階段我們選擇了三組視頻16，每組包含一個參考視頻和三個經過處理的視頻。視頻播放完後，觀察者打分，然後工作人員記錄分數。完成三套後，我們比較了記錄的分數和預期的分數。如果記錄的分數與所有三組的預期相匹配，觀察者就可以進入測試階段。第三階段測試階段每個觀察者觀看6類全景視頻。每類視頻包含八組視頻序列，每組包含一個參考視頻和三個隨機播放的已處理視頻。視頻播放時，觀察者打分，然後工作人員記錄分數。所有視頻序列播放完畢後，測試結束。評分等級爲0-5，最終結果可以描述爲平均意見得分（mean opinion score，MOS）。而客觀評估方法中，「Quality metric for spherical panoramic video」一文提出了一個克拉斯特拋物線投影-PSNR (CPP-PSNR)度量標準，通過將像素重新映射到CPP投影而不改變空間分辨率並計算實際像素位置的PSNR來比較各種投影方案。而在「Impact of V arious Motion Interpolation Algorithms on 360◦Video QoE」一文中指出僅僅在虛擬現實中測量視覺質量對於一個完整的QoE框架來說是不夠的。找到其他因素的影響也很重要，例如網絡疾病、生理症狀、用戶不適、HMD權重、可用性、VR音頻、視口退化率、網絡特性(例如延遲、抖動、帶寬等)。

總結：高質量的360°視頻內容的創建、分發和流式傳輸依然是一個關鍵性問題，除了上述提及的研究方向及其解決方法外，仍有許多問題可以進一步研究。例如：可以利用基於機器學習的帶寬預測方法來捕獲比特率分配的實際帶寬模式。此外，基於多路徑的高分辨率360°切片傳輸可以通過最佳可用路徑提供高優先級切片，從而帶來更好的性能和更大的靈活性。使用mmWave通信的自適應計算卸載研究可以支持室內和室外環境中的同步360°流。