驚!史上最佳GAN現身,超真實AI假照片,行家們都沸騰了_風聞
量子位-量子位官方账号-2018-09-30 14:29
夏乙 舒石 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
AMAZING、Incredible、Very impressive、A huge fan……
大週末的,各路人工智能、機器學習的大神,一反常態,紛紛在推特上花樣誇獎、交口稱讚一篇還在雙盲評審中的ICLR 2019論文(BigGAN)。
因為,效果實在是,令!人!震!驚!
DeepMind負責星際項目的Oriol Vinyals,説這篇論文帶來了史上最佳的GAN生成圖片。陳天奇也説對這個研究及後續充滿好奇。
效果有多好?
先看數字。經過ImageNet上進行128×128分辨率的訓練後,BigGAN的Inception Score(IS)得分是166.3,一下子比前人52.52的最佳得分提升了100多分,離真實圖像的233分更近了。而Frechet Inception Distance(FID)得分,也從之前的18.65優化到了9.6。
再看實例。你能分辨出以下哪張圖片是AI生成的假圖片,哪張是真實的圖片麼?
再來一個。以下八張,哪個是假的?
現在公佈答案,以上12張,全都是生成的假圖片。現在你能理解為什麼大家都震驚並且齊聲稱讚了吧。
512×512輕鬆搞定
其實,這些例子中還隱藏着一個更厲害的事實:上邊的八拼圖像,分辨率是512×512。放兩張大圖,來共同鑑賞一下:
是不是依然真假難辨,非常Amazing?
這就對了,除了搞定128×128小圖之外,BigGAN還能直接在256×256、512×512的ImageNet數據上訓練,生成更讓人信服的樣本。
上邊展示的512×512樣本,IS和FID分數分別為241.4和10.9;而256×256樣本得到了233.0分的IS、9.3分的FID。
這是BigGAN在各種分辨率下的全部得分情況:
原理
“大”GAN為什麼這麼厲害?
BigGAN的“大”,不止是模型參數多,訓練規模也是有GAN以來最大的。它的參數是前人的2-4倍,批次大小是前人的8倍。
對於圖像生成這個任務來説,訓練規模大真的很管用。
作者(們)為了做大規模訓練,研究瞭如何克服這種大規模帶來的特有的不穩定性。
為了適應大規模訓練,他們對GAN架構做了兩處簡單的改動。BigGAN的生成器和鑑別器架構如下圖所示:
BigGAN用了ResNet架構,和Takeru Miyato等人在去年ICLR 2017上發表的cGANs with Projection Discriminator裏差不多,但是對判別器的通道類型做了一些改動,讓每個模塊第一個卷積層裏的濾波器數量和輸出濾波器相等。
他們的生成器G,用了單個共享類嵌入,它具有線性投影性質,能為BatchNorm層生成每個樣本的增益和偏差。
這是BigGAN的生成器架構:
生成器中的一個殘差模塊如下圖所示:
另外,他們還發現,將正交正則化應用到生成器上,能讓它適用於簡單的“截斷技巧”,這樣就可以通過截斷潛在空間,來精細控制樣本保真度和多樣性之間的權衡。
櫻桃時刻
再來賞析一下BigGAN的功力。
其中有一部分,以“像,真像”而令人震驚。
有個意大利小哥説,BigGAN生成的食物滿分。看起來很好吃的樣子。
還有一部分,以“想象力驚人”而令人印象深刻。
比如論文裏列的“網球狗”失敗案例:
不過一大堆人都説這個網球狗狗,挺!萌!的!
還有這種神奇的大象。
當然,BigGAN也有確實生成特別不好的圖片類型,比方説有人的場景。
這裏挑選幾個例子看看。
這個是騎自行車的人?
這個是穿貂的人?
這個是女人?
看來,最難把握的還是人……
最後強調一下,陳天奇説,這項研究是都在分類條件下生成的圖像,很好奇它捕捉到了多少分佈,非條件版本會是什麼樣。
論文地址
對BigGAN論文感興趣的朋友,可以直接前往如下地址訪問:
https://openreview.net/pdf?id=B1xsqj09Fm
這是一篇良心論文,附錄中還包含了“NG鏡頭集錦”環節(NEGATIVE RESULTS),講述了研究中遇到的各種坑,非常值得一讀。Google AI研究員James Bradbury專門在Twitter上説,真是太喜歡這部分了。
如果你想反cherry pick,作者還放出了生成圖片的圖集。圖集在Google Drive上。
至於代碼?好多人在找,不過目前似乎沒放出來。GitHub上貌似也搜不到相關的內容。
這篇論文如此火爆,同時也引發了一些人的擔心:畢竟這篇論文還在雙盲評審中,現在鬧得動靜這麼大,有可能會影響評審結果。
以及,這篇論文的作者到底是誰?目前還不得而知。