VSR論文筆記二|Robust Video Super-Resolution with Learned Temporal Dynamics

1.總結

視頻超分提取幀間的信息很重要,作者提出了一個可以自適應選擇優化範圍的時序自適應網絡,同時作者用一個空間對齊網絡減少鄰幀的的運動複雜性。具體來講就是:首先有一個時序自適應網絡。時序信息對視頻超分很重要,以往有通過複雜的優化來解決但是引入了計算負擔和時間負擔,也有一些使用固定的temporal scale通過顯式應用運動補償來產生網絡的輸入。作者提出一個自適應時序網絡,可以魯棒應對各種運動類型並且選擇優化的範圍。網絡的輸入是經過運動補償後對齊的LR幀,然後應用不同的時序size產生HRsize估計。
在空間上,對不同的幀做對齊。以往復雜的光流計算方法通常不是最優的,作者通過估計少量空間變換參數來降低運動的複雜性,併爲對齊幀提供了更可靠的方法。並提出空間對齊網絡,推測連續幀間的空間轉換。
兩個網絡可以串聯並實現端對端的訓練。

2.網絡總體結構

網絡目標是對視頻序列,從LR幀中預測出HR幀,主要的挑戰在於對不同運動類別的時序信息的利用。所以作者設計了一個可以自適應選擇時序範圍的網絡。

SR分支

作者採用ESPCN作爲超分網絡,每個SR預測網絡的輸入是 2 ∗ i − 1 2*i -1 2i1幀連續幀。

時間調製分支

學習根據運動信息選擇範圍。對於一個有 N N N個分支的網絡,會輸入 2 ∗ N − 1 2*N - 1 2N1個連續幀作爲輸入。這個網絡作者採用了跟超分分支相似的結構。在所有N個可能的時間尺度上輸出像素級權重圖。
最終每個SR預測分支的輸出和pixel-wisely的權重圖相乘,然後相加得到HR信息。
訓練目標爲:
在這裏插入圖片描述
在這裏插入圖片描述

在這裏插入圖片描述

空間對齊方法

作者調查了幾種方法

  • 1 Rectified Optical Flow Alignment
    我們嘗試將補丁級別的運動簡化爲整數平移,以避免可能導致模糊或混疊的插值
  • 2 空間對齊網絡
    在這裏插入圖片描述
    每次網絡輸入LR參考幀和鄰幀,然後輸出對齊後的鄰幀。首先是送入一個localization network預測空間轉換參數 θ ^ S T \hat \theta_{ST} θ^ST,localization network只預測兩個參數。該網絡作用於patch level級別,之後只有中心部分被保留,用於後面的處理。
    最終整個訓練loss爲:
    在這裏插入圖片描述

實驗

實驗部分作者是驗證了時間調製分支的作用,空間對齊網絡的作用,並且和一些方法作比較,結構都不錯。
時間調製分支:
在這裏插入圖片描述
空間對齊方法
在這裏插入圖片描述