VSR論文筆記三| 2018CVPR Deep Video Super-Resolution Network Using Dynamic Upsampling Filters Without Expl

Deep Video Super-Resolution Network Using Dynamic Upsampling Filters Without Explicit Motion Compensation

1.總結

以往的方法依賴於運動估計和補償。對運動估計的準確度要求高。同時最後輸出的HR圖像是通過CNN混合來自多個運動補償輸入LR幀得到的,最終的結果也比較模糊。
作者提出一個基於每個像素局部的時空鄰域產生動態上採樣濾波器和殘差圖像的網絡,一次阻止顯式的運動補償。最終HR圖像的產生是通過直接對輸入圖片做動態上採樣濾波和殘差增強細節。

2.方法

VSR問題的定義爲:
Y ^ t = G θ ( X t − N : t + N ) \hat Y_t = G_{\theta}(X_{t-N:t+N}) Y^t=Gθ(XtN:t+N)
G G G T × H × W × C T \times H \times W \times C T×H×W×C,輸出張量是 1 × r H × r W × C 1\times rH \times rW \times C 1×rH×rW×C r r r是上採樣因子。
網絡的設計包括兩個輸出,一個是動態上採樣濾波器,一個是殘差。
在這裏插入圖片描述

2.1 Dynamic Upsampling Filters

基於Dynamic filter network的思想,作者基於LR圖片中每個像素的時空領域產生dynamic upsamping filter,如圖所示。首先是低幀序列 { X t − N : t + N } \{X_{t-N:t+N}\} {XtN:t+N}送入網絡(文章裏N取3,總共7幀)。然後訓練網絡產生 r 2 H W r^2HW r2HW個濾波器(r是上採樣倍數),濾波器大小是 5 × 5 5\times5 5×5。最終HR圖像裏的每個值是通過16個濾波器(上採樣倍數4倍)濾波器和LR圖像卷積得到的。由於動態濾波器的產生是通過查看像素的時空鄰域生成的,因此取決於像素運動而創建,這樣能夠避免顯式的運動補償。
在這裏插入圖片描述

在這裏插入圖片描述

2.2 Residual Learning

上面產生的結果比較模糊,所以用residual learning來產生細節,sharp的結果。residual map的產生是由多幀產生的

2.3 Temporal Augmentation

使網絡能理解多種和複雜的運動,在temporal軸上做了數據增強類似於rotation,flipping。我們介紹了確定時間增強的採樣間隔的變量TA。 例如,在TA = 2的情況下,我們將對所有其他幀進行採樣以模擬更快的運動。 設置TA值爲負時,我們也可以按相反的順序創建新的視頻樣本。由此創造了更豐富的運動。當 ∣ T A ∣ > 3 |TA| > 3 TA>3的時候,VSR的表現下降。

3. Implementation

作者也收集了數據集。測試集的話用了val4。
訓練的時候對圖片做高斯模糊和降採樣,最終大小爲 32 × 32 32 \times 32 32×32,使用了Huber Loss
實驗設置方面作者是驗證了 動態上採樣濾波器 和做了一些比較。
在這裏插入圖片描述