逼真度超越「AI設計師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

語言: CN / TW / HK

時間 2022-05-24 13:02:59 AI科技評論

主題: 谷歌

作者｜李梅、王玥

編輯｜陳彩嫻

文本生成圖像模型界又出新手筆！

這次的主角是Google Brain推出的 Imagen，再一次突破人類想象力，將文本生成圖像的逼真度和語言理解提高到了前所未有的新高度！比前段時間OpeAI家的 DALL·E 2 更強！

話不多説，我們來欣賞這位AI畫師的傑作～

A brain riding a rocketship heading towards the moon.（一顆大腦乘着火箭飛向月球。）

A dragon fruit wearing karate belt in the snow.（在雪地裏戴着空手道腰帶的火龍果）

A marble statue of a Koala DJ in front of a marble statue of a turntable. The Koala has wearing large marble headphones.（一隻帶着巨大耳機的考拉DJ的大理石雕像站在一個大理石轉盤前。）

An art gallery displaying Monet paintings. The art gallery is flooded. Robots are going around the art gallery using paddle boards.（陳列莫奈畫作的美術館被水淹沒。機器人正在使用槳板在美術館裏划行。）

A giant cobra snake on a farm.The snake is made out of corn（農場裏有一條巨大的玉米構成的眼鏡蛇。）

Teddy bears swimming at the Olympics 400m Butterfly event.（泰迪熊在奧運會400米蝶泳項目中游泳。）

以及更多......

給出同樣的文本提示，Imagen還可以生成不同類別的圖像。比如下面這些圖中，各組圖片在物品的顏色、空間位置、材質等範疇上都不太相同。

Imagen的工作原理

論文地址：http://gweb-research-imagen.appspot.com/paper.pdf

Imagen的可視化流程

Imagen基於大型transformer語言模型在理解文本方面的能力和擴散模型在高保真圖像生成方面的能力。

在用户輸入文本要求後，如“一隻戴着藍色格子貝雷帽和紅色波點高領毛衣的金毛犬”，Imagen先是使用一個大的凍結（frozen）T5-XXL 編碼器將這段輸入文本編碼為嵌入。然後條件擴散模型將文本嵌入映射到64×64的圖像中。

Imagen進一步利用文本條件超分辨率擴散模型對64×64的圖像進行升採樣為256×256，再從256×256升到1024×1024。結果表明，帶噪聲調節增強的級聯擴散模型在逐步生成高保真圖像方面效果很好。

圖注：輸入“一隻戴着藍色格子貝雷帽和紅色波點高領毛衣的金毛犬”後Imagen的動作

圖注：64 × 64生成圖像的超分辨率變化。對於生成的64 × 64圖像，將兩種超分辨率模型分別置於不同的提示下，產生不同的上採樣變化

大型預訓練語言模型×級聯擴散模型

Imagen使用在純文本語料中進行預訓練的通用大型語言模型(例如T5)，它能夠非常有效地將文本合成圖像：在Imagen中增加語言模型的大小，而不是增加圖像擴散模型的大小，可以大大地提高樣本保真度和圖像-文本對齊。

Imagen的研究突出體現在：

大型預訓練凍結文本編碼器對於文本到圖像的任務來説非常有效；
縮放預訓練的文本編碼器大小比縮放擴散模型大小更重要；
引入一種新的閾值擴散採樣器，這種採樣器可以使用非常大的無分類器指導權重；
引入一種新的高效U-Net架構，這種架構具有更高的計算效率、更高的內存效率和更快的收斂速度；
Imagen在COCO數據集上獲得了最先進的FID分數7.27，而沒有對COCO進行任何訓練，人類評分者發現，Imagen樣本在圖像-文本對齊方面與COCO數據本身不相上下。

引入新基準DrawBench

為了更深入地評估文本到圖像模型，Google Brain 引入了DrawBench，這是一個全面的、具有挑戰性的文本到圖像模型基準。通過DrawBench，他們比較了Imagen與VQ-GAN+CLIP、Latent Diffusion Models和DALL-E 2等其他方法，發現人類評分者在比較中更喜歡Imagen而不是其他模型，無論是在樣本質量上還是在圖像-文本對齊方面。

並排人類評估；
對語意合成性、基數性、空間關係、長文本、生詞和具有挑戰性的提示幾方面提出了系統化的考驗；
由於圖像-文本對齊和圖像保真度的優勢，相對於其他方法，用户強烈傾向於使用Imagen。

圖注：Imagen與DALL-E 2、GLIDE、VQ-GAN+CLIP和Latent Diffusion Models在DrawBench上的比較:用户對圖像-文本對齊和圖像逼真度的偏好率(95%置信區間)

Imagen與DALL-E 2 生成圖像的比較示例：

圖注：“外星人綁架奶牛，將其吸入空中盤旋”（上）；“一個被貓絆倒的希臘男性的雕塑”（下）

對於涉及顏色的文本提示，Imagen生成的圖像也比DALL-E 2更優。DALL-E 2通常很難為目標圖像分配正確的顏色，尤其是當文本提示中包含多個對象的顏色提示時，DALL-E 2會容易將其混淆。

圖注：Imagen和DALL-E 2從顏色類文本生成圖像的比較。“一本黃色書籍和一個紅花瓶”（上）；“一個黑色蘋果和一個綠色雙肩包”（下）

而在帶引號文本的提示方面，Imagen生成圖像的能力也明顯優於DALL-E 2。

圖注：Imagen 和 DALL-E 2 從帶引號文本生成圖像的比較。“紐約天際線，天上有煙花寫成的“Hello World”字樣”（上）；“一間寫着Time to Image的店面”（下）

打開了潘多拉魔盒？

像Imagen這樣從文本生成圖像的研究面臨着一系列倫理挑戰。

首先，文本-圖像模型的下游應用多種多樣，可能會從多方面對社會造成影響。Imagen以及一切從文本生成圖像的系統都有可能被誤用的潛在風險，因此社會要求開發方提供負責任的開源代碼和演示。基於以上原因，Google決定暫時不發佈代碼或進行公開演示。而在未來的工作中，Google將探索一個負責任的外部化框架，從而將各類潛在風險最小化。

其次，文本到圖像模型對數據的要求導致研究人員嚴重依賴於大型的、大部分未經整理的、網絡抓取的數據集。雖然近年來這種方法使算法快速進步，但這種性質的數據集往往會夾帶社會刻板印象、壓迫性觀點、對邊緣羣體有所貶損等“有毒”信息。

為了去除噪音和不良內容（如色情圖像和“有毒”言論），Google對訓練數據的子集進行了過濾，同時Google還使用了眾所周知的LAION-400M數據集進行過濾對比，該數據集包含網絡上常見的不當內容，包括色情圖像、種族主義攻擊言論和負面社會刻板印象。Imagen依賴於在未經策劃的網絡規模數據上訓練的文本編碼器，因此繼承了大型語言模型的社會偏見和侷限性。這説明Imagen可能存在負面刻板印象和其他侷限性，因此Google決定，在沒有進一步安全措施的情況下，不會將Imagen發佈給公眾使用。

參考鏈接：

http://gweb-research-imagen.appspot.com/

「其他文章」