沉迷AI畫圖三天後,我逐漸理解了一切_風聞
星海情报局-星海情报局官方账号-关注“中国制造”的星辰大海2022-10-21 08:24
2022年10月的第二個星期五,大約是五六點快下班的時候,我的一個微信羣裏突然開始聊起了AI畫圖的事情。
正當大家聊的興起的時候,一個老哥不聲不響地發了一段“平平無奇”的神秘代碼:

我當時正在興頭上,於是便立刻註冊了NovelAI的用户,輸入了他給的這段代碼。
原圖我就不放了,放了號就沒了,我只能説:
畫面很逼真,效果很哇塞。
實際上,2022年10月的第二個星期的的確確是屬於AI繪畫的——一個名為NovelAI的網站悄然上線。對於這個AI模型,真正有意思的是它的素材——NovelAI所使用的數據主要來自兩處,一部分來自國外的著名二次元網站Danbooru,另一部分則採集自特殊渠道—站的成色十分清楚——都不是什麼正經的地方。
TMD……這幫洋人程序員,果然是懂人性的。
雖然NovelAI利用技術手段從這兩個網站上扒數據進行學習的事情引起了不小的輿論風潮甚至法律糾紛,但毫無疑問的是,NovelAI成功了。
NovelAI大獲成功之後,國內外的諸多遊戲/科技媒體紛紛都在傳遞着一個消息:AI已經學會畫澀圖了。
本着**“體驗前沿科技成果,緊跟技術發展潮流”**的精神,局長開始了為期三天的AI畫圖之旅。
三天後,我好了,除了精神有些萎靡。
但,我逐漸理解了一切。

我的AI繪畫體驗
我選擇體驗的AI繪畫平台是NovelAI。原因很簡單,因為它的訓練素材實在是**“給了我一個無法拒絕的理由”。**
唯一的不足就是需要花錢且有點貴——先交80塊錢作為會員,它會送你1000個點券,然後還可以再花80塊錢買10000個點券——每出一張圖就要花至少5個點券,看樣子倒是不貴,但若是想生成一個沒有瑕疵、滿意的作品,往往需要調整好幾次。平均下來,最後生成一張足夠滿意的圖可能需要幾十上百個點券。
10000個點券雖然看上去還挺多,實際上一點也不經用。

對這種收費模式,我的朋友表示:NovelAI的這個生意做的好,讓我們這些用户自掏腰包幫他們訓練模型。我感覺她內涵我,但我沒有證據。
正式進入之後,就可以開始操作了。

所謂的操作,其實就是輸入恰當的Prompt(提示詞)從而實現預期的效果。
莎士比亞説過“一千個觀眾眼裏有一千個哈姆雷特”,在AI作圖上也是如此,人們的惡趣味各有不同,所以prompt的內容也五花八門。但總而言之,prompt無非就是一些簡單的描述,比如“黑長直的頭髮,戴眼鏡,打濕的白襯衣,緊身牛仔褲”等等……

由於命令AI生成滿意的圖片往往需要極度詳細且冗長的prompt,因此網友們便將promt戲稱為“咒語”,調整/輸入prompt的過程則被稱為“唸咒”“施法”或“吟唱”。

一個AI繪圖平台竟然能在這個靈氣稀薄的末法時代裏催生出滿地的魔法師,霍格沃茨看了都得高呼內行。

除此之外,Prompt的內容還可以分成兩類,一類是“你希望實現的效果”,被稱為“Positive Prompt”(正咒),另一類則是“你不希望實現的效果”——Negative Prompt(反咒)——之所以會出現“反咒”,主要還是因為現階段的AI模型開發得還不算完備,一旦遇到需要精確表達且結構形狀複雜的東西就會立刻抓瞎。用户們必須想盡辦法來消除掉那些可能毀掉畫面效果的瑕疵。
比如,當你需要你需要畫面中的人物“用手撩着頭髮”的時候,AI就經常做出一些令人感到迷惑的東西。

不過,雖然這些離譜的bug暫時還沒有被修正,但人們顯然已經學會了用“反咒”或者其他方式“糊弄”過去——比如我就經常要求AI把人物的手隱藏起來,反正只要看不見就不能説有問題。

除了精緻的人物之外,NovelAI在風景、場景上的表現也是可圈可點。這個畫質雖然肯定比不過頂級的插畫師的手藝,但用在一些對畫面並不太講究的地方還是沒什麼問題的。

相比之下,國內某大廠開發的AI模型就顯得有點尷尬了。

在自然景物的呈現上,國產AI模型表現出了極致的效果,選擇輸出“寫實主義”風格的作品時,效果基本已經有了接近照片級的真實感,可以説是吊打NovelAI。
但一旦要求其繪製人物肖像,一種莫名其妙的詭異感覺便顯示了出來。

不過這並不算什麼大問題,NovelAI團隊之前是做“AI續寫小説”的,在模型搭建的過程中自然會對文學類語言以及影視、動漫形象有更深刻的理解,加上訓練素材也大多來自動漫形象或特殊渠道,所以在人物表現力上自然會更強。

“AI作圖”背後是什麼?
如今,AI已經開始滲透到了各行各業——“人工智能”,這個起源於1956年的概念,在近70年的發展史中先後經歷了兩次起伏,最終在2006年深度學習算法突破後開始進入了新的一輪高潮——2017年以來,AI研究開始呈現爆發趨勢,“算力,算法,數據”成為了本輪AI大潮的主要動力。
以NovelAI為例,提供算力的各種硬件設備當然是最最基礎的,聯網版本的NovelAI就不多説了,單機版的NovelAI極度依賴於電腦顯卡的性能——而GPU恰恰就是如今最主流的“算力引擎”之一——説實話,這幾年顯卡算是徹底火了,前幾年是用顯卡挖比特幣,現在是用顯卡畫畫。
除了算力,數據也是極為重要的。NovelAI的作品之所以有極為濃厚的二次元和遊戲CG風格,正是因為其訓練所使用的素材絕大多數都來自於D站和P站——當然,這也解釋了為什麼NovelAI生成的圖片總有點離譜。

最後則是算法——這可以説是AI的靈魂所在,也就是為什麼能做到“從文字生成圖像”。目前來看,最熱門、最受歡迎的就是Diffusion model(擴散模型),市面上絕大多數需要通過“吟唱”來繪畫的AI平台用的都是這個。
Diffusion model的原理很有意思,簡單來説就是不斷地“加密”一張圖片(添加噪點),直到這張圖片變成徹底人鬼莫辨的模糊樣子。然後,人們再讓AI模型嘗試着一步步地將其還原成為最初的樣子。

要知道,當加密過程結束後,最後得到的東西是一張已經完全模糊的圖片。而當AI模型能夠從這樣的一團混沌中解析出來正確的圖片,也就意味着AI掌握了“無中生有”的能力。
不過,如果只有diffusion model,那頂多也就是一個生成圖像的工具,我們還不能隨心所欲地“召喚”自己想要的畫面——我們只需要一個東西將文字和Diffusion model連接起來,而目前,擔任這個連接器的東西叫CLIP(Contrastive Language-Image Pre-training)——粗暴點説,它相當於是一個給AI看的“兒童識字圖冊”,讓AI把文字和相關的圖像對應起來。

因此,整個AI繪畫過程大概是這樣的:當我們輸入了一大串Prompt“咒語”,CLIP就會產生一個相應的結果“A”(學名叫“表徵”)。與此同時,diffusion model裏也會隨機生成一張圖片,而CLIP也會給一個相應的結果“B”。然後,通過不斷地計算A和B的相似程度,讓A和B無限接近,最終就能夠實現“A=B”,也就是讓我們輸入的描述和電腦生成的結果一模一樣。

簡單來説,當前AI的工作原理堪稱是“大力出奇跡”——開發人員輸入海量的數據,算法平台將根據這些數據來訓練模型,最終形成AI技術工具。
整個AI產業鏈基本可以分為三段:基礎層、技術層、應用層。
基礎層是數據和算力,包括AI芯片、AI基礎設施和數據以及服務;技術層則主要指的是基於基礎層所開發的算法模型,模型會根據軟件框架對數據進行學習,最終獲得人工智能技術;應用層則是根據不同場景來運用這些人工智能技術。
在AI領域,中美兩國基本上代表了全球最高水準。
AI基礎設施領域,隨着技術進步,AI算力的基石也發生了改變。在過去,x86服務器是主流,但現在AI芯片、GPU、FPGA、ASIC等芯片為核心的服務器成為了主力——浪潮、華為、曙光、新華三都是國內領先的AI基礎設施供應商。
如果繼續深挖,我們會發現AI基礎設施的底層其實還是芯片。
事實上,百度、華為、阿里、寒武紀等國內頭部科技企業現在都在依託自身的技術和業務優勢在佈局AI芯片的研發:
華為的升騰910芯片是全球單芯片計算密度最大的芯片,寒武紀的思元370應用了最新的小芯片(也叫芯粒,chiplet)技術,功耗大幅度降低,算力也不差。
但需要注意的是,GPU/FPGA/ASIC這些是目前AI芯片行業的主流,GPU仍然是首選,而全世界最強的GPU廠商則是美國的英偉達。
再結合一下最近的新聞,嘖嘖,你看看,是不是一切都串聯起來了。

我只能説:這棋局,大得很吶!

“AI作圖”會消滅誰?
另外,只要談到AI,有一個問題是繞不開的:AI會取代人類嗎?
我無意於解答這個問題,在這裏,我們先聊一件舊事:
大家都知道,2015年前後,正是中國互聯網經濟發展最快的時候。在北京的西二旗、杭州的濱江區、深圳的南山區,到處都是滿懷創業熱情的新興互聯網企業。
那幾年,雙十一購物節每一年的銷售額都要在上一年的基礎上進行一場大跳躍,而這一切的背後的原動力,則是中國互聯網用户數量的暴漲。
用户在暴漲,意味着服務用户的種種也要暴漲——比如某個著名電商平台頁面上的海報。尤其是當如今大數據和算法日益強勢,首頁上推廣的產品逐漸變得千人千面,做海報這件事開始變得越來越難——無數種商品,無數個用户,意味着這個電商平台必須要輸出數以億計的海報。
雖然這些海報很簡單,無非就是“產品圖+廣告語+背景素材”的排列組合,但如果靠人來進行操作,且不説設計師們會不會被累到猝死,光是付給設計師團隊的工資就是一筆巨大的成本。
於是,AI登場了——這家企業退出了一個名叫“魯班”的AI設計師,一秒鐘可以製作8000張海報,一天時間製作4000萬張海報——不僅能做到超高產量,還能滿足千人千面的需求。
這就是AI殺入創作領域後所展示出來的力量——事實上,“魯班”的出現的確使得一批設計師失去了工作,但仍然有相當數量的設計師並沒有被衝擊到。
之所以這些人沒有被“魯班”所取代,是因為他們掌握了或許機器永遠無法掌握的東西——創意。
從之前對NovelAI操作的介紹中我們會發現,整個操作過程異常“傻瓜”——只要會打字就可以了——但重點從不在於打字,而是“打什麼字”——如果你不知道如何表達你的藝術創意,如果你不知道如何讓AI按照你的指令呈現效果,那麼即便沒有AI,拿起畫筆的你也依舊沒有什麼競爭力。
説白了,在當前這個階段,AI依舊只是一種聽命於人類指令的機器。嚴格意義上,這隻能算是“弱AI”

現階段的AI只是幫助人們省略掉了那些重複勞動的環節,真正決定產品的質量的,依舊是看你能夠做出何等水平的指令。
因此,今天仍然沒有被“魯班”取代的設計師,大多數都已經摸索出了一條和“魯班”和睦相處的道路——設計師負責調教“魯班”,魯班負責設計和輸出海報圖片。
AI作圖真的會消滅誰嗎?
我的看法是:在生產力的革命裏,被消滅的永遠只是落後的生產關係。
PS:彩蛋:星海娘~

參考資料:
科創板系列—— AI產業鏈全景圖,中國平安
從起因到爭議,在 AI 生成藝術元年聊聊 AI,少數派
AI繪畫很酷,可是..原理是什麼?,廬中漫遊,碎光