VSR論文筆記二|Robust Video Super-Resolution with Learned Temporal Dynamics

時間 2021-05-20 標籤論文筆記超分機器學習深度學習 python 網絡人工智能

1.總結

視頻超分提取幀間的信息很重要，作者提出了一個可以自適應選擇優化範圍的時序自適應網絡，同時作者用一個空間對齊網絡減少鄰幀的的運動複雜性。具體來講就是：首先有一個時序自適應網絡。時序信息對視頻超分很重要，以往有通過複雜的優化來解決但是引入了計算負擔和時間負擔，也有一些使用固定的temporal scale通過顯式應用運動補償來產生網絡的輸入。作者提出一個自適應時序網絡，可以魯棒應對各種運動類型並且選擇優化的範圍。網絡的輸入是經過運動補償後對齊的LR幀，然後應用不同的時序size產生HRsize估計。
在空間上，對不同的幀做對齊。以往復雜的光流計算方法通常不是最優的，作者通過估計少量空間變換參數來降低運動的複雜性，併爲對齊幀提供了更可靠的方法。並提出空間對齊網絡，推測連續幀間的空間轉換。
兩個網絡可以串聯並實現端對端的訓練。

2.網絡總體結構

網絡目標是對視頻序列，從LR幀中預測出HR幀，主要的挑戰在於對不同運動類別的時序信息的利用。所以作者設計了一個可以自適應選擇時序範圍的網絡。

SR分支

作者採用ESPCN作爲超分網絡，每個SR預測網絡的輸入是 2 ∗ i − 1 2*i -1 2∗i−1幀連續幀。

時間調製分支

學習根據運動信息選擇範圍。對於一個有 N N N個分支的網絡，會輸入 2 ∗ N − 1 2*N - 1 2∗N−1個連續幀作爲輸入。這個網絡作者採用了跟超分分支相似的結構。在所有N個可能的時間尺度上輸出像素級權重圖。
最終每個SR預測分支的輸出和pixel-wisely的權重圖相乘，然後相加得到HR信息。
訓練目標爲：

空間對齊方法

作者調查了幾種方法

1 Rectified Optical Flow Alignment
我們嘗試將補丁級別的運動簡化爲整數平移，以避免可能導致模糊或混疊的插值
2 空間對齊網絡

每次網絡輸入LR參考幀和鄰幀，然後輸出對齊後的鄰幀。首先是送入一個localization network預測空間轉換參數 θ ^ S T \hat \theta_{ST} θ^ST,localization network只預測兩個參數。該網絡作用於patch level級別，之後只有中心部分被保留，用於後面的處理。
最終整個訓練loss爲：

實驗

實驗部分作者是驗證了時間調製分支的作用，空間對齊網絡的作用，並且和一些方法作比較，結構都不錯。
時間調製分支：

空間對齊方法