如何讓渣畫質圖片達到逼真效果，試試GAN吧

時間 2020-07-25 標籤如何渣畫質圖片達到逼真效果試試 gan

翻譯 | 梁紅麗算法

編輯 | Just微信

出品 | AI科技大本營（公衆號ID：rgznai100）網絡

【AI科技大本營導讀】在最終視覺呈現效果上，現有的用於極限學習圖片壓縮的算法彷佛都不盡人意，本文做者則使用了 GAN，容許選擇性地保留一些區域，同時在保持語義完整的基礎上，徹底合成圖像的其他部分，尤爲在低比特率條件下，與 BPG 相比，GAN 的方法得到了更高的 mIoU。框架

如下內容摘譯自論文 Generative Adversarial Networks for Extreme Learned Image Compression：機器學習

本文中，咱們提出一種基於生成對抗網絡（Generative Adversarial Networks, GANs）的框架，該框架用於極限學習圖片壓縮。與已有方法相比，在比特率大幅下降的狀況下獲得了視覺上使人欣喜的結果。這一結果的實現，得益於學習壓縮的 GAN 模型和生成器/解碼器的結合。其中，生成器/解碼器做用於全分辨率圖像和多模態分類器集合訓練。函數

此外，咱們的方法能夠徹底合成解碼圖片中的不重要區域，如街道、樹，這些標籤由原始圖片提取的語義標籤圖獲得，所以該方法只須要存儲保留區域和語義標籤圖。用戶調查證明，對於低比特率而言，咱們的方法要優於當前任何其它方法，相比 BPG，咱們的（壓縮）方法能保存原圖片的 67%。學習

優化

編碼

▲圖 1 用對抗損失目標函數訓練的全局生成壓縮網絡獲得的圖片和對應的 BPG 圖片。spa

▌GAN 用於極限圖片壓縮

全局生成壓縮

咱們提出的用於極限圖片壓縮的 GAN 可看作 GAN（有條件的）和學習壓縮的結合。用編碼器 E 和量化器 q，咱們將圖片 x 編碼爲壓縮表示，該表示選擇性地與噪聲 v 聯繫，v 由前變量獲得，用來組成隱藏向量 z。解碼器/生成器 G 生成圖片，對於（無條件的）生成壓縮，能夠用經過、由鞍點目標來表示：

由於上式的後兩項不依賴於分類器 D，所以它們對優化無直接影響，上式可寫爲：

選擇生成壓縮

對於全局生成壓縮和前文所述的有條件的變體，E 和 G 自動在整幅圖片上權衡保存和生成比率，無需任何引導。這裏，咱們考慮一種不一樣的設置，即指示網絡哪部分應該保存、哪部分應該合成。咱們將這一設置稱爲選擇生成壓縮（SC），概覽見圖2(b)。

▲圖 2 本文提出的壓縮模型結構。E 爲編碼器，對圖像 x 或 x 和語義標籤圖 s 編碼；q 將隱藏代碼 w 量化到；G 是生成器，生成解壓的圖片；D 爲分類器，用於對抗訓練。對於 SC，F從 s 中提取特徵，熱成像的子樣本和相乘（pointwise）進行空間比特分配。

▌實驗結果

▲表 1 Cityscapes 的用戶調查定量偏好結果（%）。和其餘壓縮方法生成的結果相比，調查對象對咱們的 GC 方法生成的圖片更加偏心。對相近的 bpp，咱們的方法明顯更受青睞。平均來看，咱們的方法只在比特率增大一倍時比就會比 BPG 略遜一籌。

表 2 ADE20k 的用戶調查定量偏好結果（%），對相近 bpp，咱們的方法更受歡迎。

▲表 3 Kodak 的用戶調查定量偏好結果（%），bpp 爲 0.065 時咱們的方法比 BPG 更受歡迎，比特率降低了 45%。

▲圖 5 左：分別是 GC 網絡在 Cityscapes 驗證集上的平均 IoU（bpp 的函數）、在 G 和 D 的語義標籤圖（semantics）訓練的平均 IoU、用 MSE 損失（MSE）訓練的平均 IoU。右：SC 網絡分別在 RI（instance）和 RB（box）模式下訓練的平均 IoU。

▲圖 6 原始的 Kodak 圖片 13 和用戶調查中使用的解壓圖片，解壓圖片用 C=4 時的 GC 網絡獲得，同時顯示解壓的 BPG、JPEG、JPEG2000 和 WebP 格式的圖片。若是一個編解碼器不能產生 0.036bpp 的輸出，咱們就爲該編解碼器選擇可用的最低比特率。

▲圖 7 用 SC 網絡集合不一樣類別，C=8。除 no synth 以外，其餘圖像都合成瞭如下類別：植被、天空、人行道、車輛、牆。左下角熱成像圖的合成區域以灰色顯示。根據選擇生成，咱們顯示了每張圖的 bpp 和相對保存百分率。

▲圖 8 SC 網絡生成的示例圖（SC=4），左圖合成了道路、植被、天空、人行道、車輛、牆，中間的圖加了建築。右圖是可支持的最低 bpp 下的 BPG 圖像。

▲圖 9 SC 網絡獲得的示例圖（C=8），保存一個箱形區，其餘區域進行合成。

▲圖 10 SC 網絡在 C=8 時生成的 ADE20k 驗證圖片，左圖保存隨機選取的區域，用 RI 訓練，右圖保存箱形區域，用RB訓練。

▌討論

咱們提出了一種學習壓縮的 GAN 模型，mIoU 這些數據都代表，它在低比特率時的表現都優於現有算法。並且，咱們的網絡能夠無間斷地將保存和生成的圖片內容結合，再用正則結構合成內容來生成逼真的圖片。

將來前景廣闊的研究方向有：爲 GC 創建控制比特空間分配的機制、將 SC 和特徵信息結合。此外，將上下文模型嵌入咱們的方法也會頗有趣，例如，調整結構使其擴展爲更大的圖片。

做者：Eirikur Agustsson, Michael Tschannen, Fabian Mentzer, Radu Timofte, Luc Van Cool

原文連接：

https://data.vision.ee.ethz.ch/aeirikur/extremecompression/#results

論文連接：https://arxiv.org/pdf/1804.02958.pdf

招聘

AI科技大本營現招聘AI記者和資深編譯，有意者請將簡歷投至：gulei@csdn.net，期待你的加入！

AI科技大本營讀者羣（計算機視覺、機器學習、深度學習、NLP、Python、AI硬件、AI+金融、AI+PM方向）正在招募中，和你志同道合的小夥伴也在這裏！關注AI科技大本營微信公衆號，後臺回覆：讀者羣，添加營長請務必備註姓名，研究方向。

AI科技大本營公衆號ID：rgznai100

☟☟☟點擊 | 閱讀原文 | 查看更多精彩內容