如何讓渣畫質圖片達到逼真效果,試試GAN吧

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


翻譯 | 梁紅麗算法

編輯 | Just微信

出品 | AI科技大本營(公衆號ID:rgznai100)網絡


【AI科技大本營導讀】在最終視覺呈現效果上,現有的用於極限學習圖片壓縮的算法彷佛都不盡人意,本文做者則使用了 GAN,容許選擇性地保留一些區域,同時在保持語義完整的基礎上,徹底合成圖像的其他部分,尤爲在低比特率條件下,與 BPG 相比,GAN 的方法得到了更高的 mIoU。框架


如下內容摘譯自論文 Generative Adversarial Networks for Extreme Learned Image Compression:機器學習


本文中,咱們提出一種基於生成對抗網絡(Generative Adversarial Networks, GANs)的框架,該框架用於極限學習圖片壓縮。與已有方法相比,在比特率大幅下降的狀況下獲得了視覺上使人欣喜的結果。這一結果的實現,得益於學習壓縮的 GAN 模型和生成器/解碼器的結合。其中,生成器/解碼器做用於全分辨率圖像和多模態分類器集合訓練。函數


此外,咱們的方法能夠徹底合成解碼圖片中的不重要區域,如街道、樹,這些標籤由原始圖片提取的語義標籤圖獲得,所以該方法只須要存儲保留區域和語義標籤圖。用戶調查證明,對於低比特率而言,咱們的方法要優於當前任何其它方法,相比 BPG,咱們的(壓縮)方法能保存原圖片的 67%。學習

優化

640?wx_fmt=png

編碼

▲圖 1 用對抗損失目標函數訓練的全局生成壓縮網絡獲得的圖片和對應的 BPG 圖片。spa


GAN 用於極限圖片壓縮


全局生成壓縮


咱們提出的用於極限圖片壓縮的 GAN 可看作 GAN(有條件的)和學習壓縮的結合。用編碼器 E 和量化器 q,咱們將圖片 x 編碼爲壓縮表示640?wx_fmt=png該表示選擇性地與噪聲 v 聯繫,v 由前變量640?wx_fmt=png獲得,用來組成隱藏向量 z。解碼器/生成器 G 生成圖片640?wx_fmt=png,對於(無條件的)生成壓縮,能夠用經過640?wx_fmt=png、由鞍點目標來表示:


640?wx_fmt=png


由於上式的後兩項不依賴於分類器 D,所以它們對優化無直接影響,上式可寫爲:


640?wx_fmt=png


選擇生成壓縮


對於全局生成壓縮和前文所述的有條件的變體,E 和 G 自動在整幅圖片上權衡保存和生成比率,無需任何引導。這裏,咱們考慮一種不一樣的設置,即指示網絡哪部分應該保存、哪部分應該合成。咱們將這一設置稱爲選擇生成壓縮(SC),概覽見圖2(b)。


640?wx_fmt=png



▲圖 2 本文提出的壓縮模型結構。E 爲編碼器,對圖像 x 或 x 和語義標籤圖 s 編碼;q 將隱藏代碼 w 量化到640?wx_fmt=png;G 是生成器,生成解壓的圖片640?wx_fmt=png;D 爲分類器,用於對抗訓練。對於 SC,F從 s 中提取特徵,熱成像的子樣本和640?wx_fmt=png相乘(pointwise)進行空間比特分配。


實驗結果


640?wx_fmt=png


▲表 1  Cityscapes 的用戶調查定量偏好結果(%)。和其餘壓縮方法生成的結果相比,調查對象對咱們的 GC 方法生成的圖片更加偏心。對相近的 bpp,咱們的方法明顯更受青睞。平均來看,咱們的方法只在比特率增大一倍時比就會比 BPG 略遜一籌。



640?wx_fmt=png

表 2  ADE20k 的用戶調查定量偏好結果(%),對相近 bpp,咱們的方法更受歡迎。



640?wx_fmt=png


▲表 3   Kodak 的用戶調查定量偏好結果(%),bpp 爲 0.065 時咱們的方法比 BPG 更受歡迎,比特率降低了 45%。



640?wx_fmt=png



▲圖 5  左:分別是 GC 網絡在 Cityscapes 驗證集上的平均 IoU(bpp 的函數)、在 G 和 D 的語義標籤圖(semantics)訓練的平均 IoU、用 MSE 損失(MSE)訓練的平均 IoU。右:SC 網絡分別在 RI(instance)和 RB(box)模式下訓練的平均 IoU。



640?wx_fmt=png



▲圖 6  原始的 Kodak 圖片 13 和用戶調查中使用的解壓圖片,解壓圖片用 C=4 時的 GC 網絡獲得,同時顯示解壓的 BPG、JPEG、JPEG2000 和 WebP 格式的圖片。若是一個編解碼器不能產生 0.036bpp 的輸出,咱們就爲該編解碼器選擇可用的最低比特率。


640?wx_fmt=jpeg


▲圖 7  用 SC 網絡集合不一樣類別,C=8。除 no synth 以外,其餘圖像都合成瞭如下類別:植被、天空、人行道、車輛、牆。左下角熱成像圖的合成區域以灰色顯示。根據選擇生成,咱們顯示了每張圖的 bpp 和相對保存百分率。



640?wx_fmt=png



▲圖 8  SC 網絡生成的示例圖(SC=4),左圖合成了道路、植被、天空、人行道、車輛、牆,中間的圖加了建築。右圖是可支持的最低 bpp 下的 BPG 圖像。


640?wx_fmt=png


▲圖 9  SC 網絡獲得的示例圖(C=8),保存一個箱形區,其餘區域進行合成。



640?wx_fmt=png



▲圖 10  SC 網絡在 C=8 時生成的 ADE20k 驗證圖片,左圖保存隨機選取的區域,用 RI 訓練,右圖保存箱形區域,用RB訓練。


討論


咱們提出了一種學習壓縮的 GAN 模型,mIoU 這些數據都代表,它在低比特率時的表現都優於現有算法。並且,咱們的網絡能夠無間斷地將保存和生成的圖片內容結合,再用正則結構合成內容來生成逼真的圖片。


將來前景廣闊的研究方向有:爲 GC 創建控制比特空間分配的機制、將 SC 和特徵信息結合。此外,將上下文模型嵌入咱們的方法也會頗有趣,例如,調整結構使其擴展爲更大的圖片。


做者:Eirikur Agustsson, Michael Tschannen, Fabian Mentzer, Radu Timofte, Luc Van Cool

原文連接:

https://data.vision.ee.ethz.ch/aeirikur/extremecompression/#results

論文連接:https://arxiv.org/pdf/1804.02958.pdf


招聘

AI科技大本營現招聘AI記者和資深編譯,有意者請將簡歷投至:gulei@csdn.net,期待你的加入


AI科技大本營讀者羣(計算機視覺、機器學習、深度學習、NLP、Python、AI硬件、AI+金融、AI+PM方向)正在招募中,和你志同道合的小夥伴也在這裏!關注AI科技大本營微信公衆號,後臺回覆:讀者羣,添加營長請務必備註姓名,研究方向。

640?wx_fmt=gif

640?wx_fmt=jpeg

640?wx_fmt=png


640?wx_fmt=png

AI科技大本營 公衆號ID:rgznai100 640?wx_fmt=jpeg


☟☟☟點擊 | 閱讀原文 | 查看更多精彩內容