「Paint Me a Picture」：NVIDIA Research 展示在 GauGAN AI 繪畫演示裡輸入文字，一樣能畫出精彩傑作

Nov 26, 21

GauGAN2 使用深度學習模型，將簡單的文字或句子變成栩栩如生的傑作

有道是一圖勝千言，不過現在只需輸入三到四個字，一樣能畫出逼真的畫面。這都要拜 NVIDIA Research 廣受歡迎的人工智慧 (AI) 繪畫演示的最新版本 GauGAN2 之賜。

GauGAN 背後的深度學習模型讓大家將腦中的想像力，轉化成畫面逼真的作品，且還比過去更容易。只需輸入像是「sunset at a beach」一個簡短的句子，AI 便會即時生成這個場景。再加入一個形容詞如「sunset at a rocky beach」，或將「sunset」換成「afternoon」或「rainy day」，這個以生成對抗網路為基礎的模型就會立即修改畫面。

使用者只需按下一個按鈕，便能產生出一個分割圖，在這個高層次輪廓圖內顯示了場景中的物體位置。接著使用者可以切換到繪圖的畫面，用天空、樹木、岩石和河流等標籤，透過粗略的草圖來調整場景，讓智慧筆刷將這些塗鴉融入絕美的影像中。

現在可以在 NVIDIA AI Demos 網站體驗全新的 GauGAN2 文字轉影像功能，使用者可以透過 NVIDIA Research 提供的最新演示內容，體驗 AI 的強大威力。

GauGAN2 提供多種文字提示及草圖功能，使用者能夠更快速地建立及自訂場景，並控制細微之處。

簡單幾個字，便能生成精美影像的人工智慧

GauGAN2 將分割映射 (segmentation mapping)、圖像修復及文字到影像生成等技術融合在一個模型裡，使其成為一個強大的工具，可以混合使用文字和繪畫創造極為寫實的藝術作品。

該演示是首批將文字、語義分割、草圖和風格樣式等多種模式，結合在單一 GAN 框架內的演示內容之一。如此一來藝術家們便能更輕易地將腦袋中的想法變成高品質的 AI 生成影像。

使用者無需畫出想像場景的每個元素，只需輸入一個簡短的句子，便能快速產生出影像的關鍵特徵和主題，像是白雪皚皚的山脈。接著可以自行在這個起點上草草畫下幾筆，像是讓某一座山變得更高、在前景裡加入幾棵樹，又或是在天空中加入幾朵雲。

該演示不僅能創作出十分寫實的影像，藝術家們還能藉此描繪超凡脫俗的景色。

舉例來說，在腦袋中想像一下，重現《星際大戰 (Star Wars)》系列中有著兩個太陽的 Tatooine 星球。使用者只要輸入「desert hills sun」的文字，就能建立一個起點，接著使用者可以快速畫出第二個太陽的草圖。

使用者反復在文字方塊中輸入的每一個字，都會在這個 AI 創造的影像中加入更多內容。

NVIDIA 在 NVIDIA Selene 超級電腦上，使用一千萬張高品質風景圖片來訓練 GauGAN2 背後的 AI 模型，NVIDIA Selene 超級電腦採用 NVIDIA DGX SuperPOD 系統，是全球最強大的十台超級電腦之一。研究人員使用一個神經網路來學習單字及其所對應的視覺內容間的關係，例如「winter」、「foggy」或「rainbow」。

與專用於文字到影像，或是分割圖到影像之應用程式最先進的模型相比，GauGAN2 背後的神經網路產生出種類更豐富、更高品質的影像。

GauGAN2 研究演示內容展示出藝術家日後使用強大的影像生成工具，進行創作的無限可能性。其中的一個例子即是基於 GauGAN 技術的NVIDIA Canvas 應用程式，NVIDIA RTX GPU 的用戶皆能下載。

NVIDIA Research 於全球擁有 200 多名科學家，專注於包括 AI、電腦視覺、自動駕駛車、機器人和繪圖等領域。