當那些代碼和公式脱去了枯燥乏味的外衣,我發現了真正的創造力_風聞
造就-造就官方账号-发现创造力2019-05-09 08:44
造就第423位講者 夏光宇
上海紐約大學計算機系助理教授
我叫夏光宇,來自上海紐約大學計算機系。我的研究學科是——音樂智能。
當我收到造就給的創造力這個題目的時候,心裏泛起了很多波瀾,因為我和創造力的因緣,可謂是一波三折。
獻(lun)身( wei)科(ma)學( nong)
的音樂人
回首往昔,其實我是個學音樂的,而且學的是中國古典音樂,吹笛簫。大學的時候,我把很大一部分時間投入了笛簫學社的社團工作中,那時候我就覺得,創造力時刻與我同在。
但是在我申請研究生的過程中,陰差陽錯地走上了計算機科學的道路。在卡內基梅隆大學讀計算機人工智能博士的時候,就天天在碼代碼,感覺非常的苦,創造力正在逐漸地離我遠去。
**隨着研究的深入,那些代碼和公式脱去了那層枯燥、乏味的外衣,我發現裏邊顯現出來的東西,是真正的創造力。**而這個創造力,與我在笛蕭中體會到的那種生生不息的東方哲學思維,是如出一轍的。
那麼,我們先來體會一下音樂智能是什麼。
讓我們把時間回撥到2015年,那年我回國辦簽證,結果由於飛機問題飛到了日本。我看到一個廣告,是日本早稻田大學有一個非常可愛的機器人,它可以吹薩克斯。
我當時不知道那究竟是不是真的,又或者只是個模型罷了。我只是覺得他的眉毛很搞笑,就去聯繫了這個教授。他説:“我們這個是真的,你如果想過來造訪的話,可以到我們實驗室來。”
那我就去了,因為我的博士研究的一個課題叫自動伴奏。什麼概念呢?就是我們在唱卡拉OK的時候,我們是跟着伴奏走,那麼如果這個卡拉OK可以跟着我們唱歌的節奏,那該多好。我們快他快,我慢他就慢。其實我就是研究這個的。這個技術早就成熟了,只不過是還沒有走到大家的生活中去。
我説,我有這個技術,你有這個機器人,那用你的軀體搭配上我的靈魂,不就有一個活生生的機器了嗎?
於是我們就做了,這是全世界首次人機交互自動伴奏的實驗,大家來欣賞一下。(這段音樂請參考文章開頭的演講視頻中的演示)
注意看它的肢體動作。你看我漸慢的時候,它也漸慢,然後再漸快,再漸慢 ,最後深情地結束。這就是2015年我和這個機器人的際遇。 首先問大家一個問題,大家覺得這個機器人在創造嗎,有創造力嗎?
有創造力的舉手,沒有再舉手。好,絕大多數人覺得還是沒有創造力,因為它還是完全的機械反應——我快他快,我慢它就慢。
那麼接下來一個問題是,如果這個機器人可以作曲,如果它可以編排,我只要給一段旋律,它可以在上面發展,然後把伴奏做出來,再和我一起演奏。那這想必就是有創造力了。
所以從2015年開始,我的研究正式迴歸了創造力的正軌。
創造力的三個層次
在這裏我想為大家揭示我認為的創造力的三個層次,分別是創、造和作。 首先要明確一個概念,就是當我們讓機器擁有創造力的時候,這個事有點特殊:與其説我們想創造有創造力的機器,不如説我們人類想做上帝,因為這是關於創造的創造,這是終極的創造。
這個概念上有點飄,但是我們還是要回歸到落地,機器到底應該怎麼創造呢?
比如説下面這個圖像,我們可能聯想到很多東西,《創世紀》、人工智能等等。現階段的人工智能,它看到的這個世界,在它們的眼中是客觀的,不含帶任何態度的。
像這個圖像,在機器的眼中就是一堆像素,就是x,然後它可能服從一個概率分佈,probability of x,Px。這時候我只要能學到它的分佈,從裏面隨機取樣一個點出來,那我就有了一個新的圖像。
我們從最簡單的“作”開始,最簡單的創造的方法,就是東拼西湊。
我有一個x,我把其中的每一個部分都從別的那兒騰挪過來,最後拼在一起,我就有一件新的作品了。當然這是非常非常初級的創造,叫“作”。 這個是本世紀初的一個研究,它就是“精作”。你給它一個人的圖像,它把圖像的每一個像素區塊,去和一個既定的紋理去做自相關,然後再把相似的東西騰挪回來,拼在一起。這個時候就有點創造的意味了。
這個工作叫紋理遷移,但是還是覺得停留在“作”的層面。因為它只是形似,而不是神似。
我們能不能創造出神似的作品呢?那這就要説到創造力的第二個層次,叫作“造”。
時間一下子跳到2016年,有一個研究叫“圖像風格遷移”,一下子炸開了人工智能界的鍋。這是幾個德國的科學家做的東西,大家看這4個圖像,你不能説它只是形似了,它神似。
左上角的這個是母體,剩下的是人工智能“一氣化三清”,畫出來的這三幅畫。
我們只能説,它們是類似的,因為你看,它們看起來很像。我説的這個像,是它們的抽象一致,不是形似,而是神似。這就和我們中國古代説的“取象比類“一樣。
什麼叫“取象比類”呢?就是它們擁有共同的象,然後把它們放在一起比,就是把兩個類似的東西放在一起,它們屬於一類。
“取類比象生成”有三個步驟。首先第一步叫做抽象或取象,在機器學習的行話裏叫做表徵學習,什麼意思呢?
給一個圖,從圖裏抽象出概念:比如説是什麼物體,是什麼顏色。這個時候就不是把一個x簡單地分塊了,而是去抽象成一個概念。這個概念,我們一般用z來表示,x抽象到z。
第二步叫比類,也就是互換表徵。舉一個例子,我們有紅房子的圖片,還有大白兔的圖。顏色有紅色和白色,物體呢,有房子和兔子。
這個時候,我們只要稍微一騰挪轉換,我們就造出了什麼?白房子和紅兔子。
有哪位見過白房子舉手?都見過是吧。 有哪位見過紅兔子舉手?沒見過吧。
但是,有沒有注意到,我説紅兔子的時候——每個人腦子裏都知道我説的是什麼。這就是人類大腦的神奇之處,這叫類比。
其實,這已經是在創造了,雖然不是很高妙,它還是由已知推未知,但是已經在創造了。但是它還沒有落地,最後還有一步叫成型。就是把你已知的創造的概念,再還回到圖片。
比如説,我們生成出了一個紅色的兔子,那這個紅色的兔子是我們日常生活中沒有的,就是我們達成了創造。
音樂可以進行類比嗎?
讓我們現在回到音樂,看看音樂的類比是什麼樣子。這個是新鮮出爐的人工智能深度學習模型——不要怕,我們來逐漸逐一解析。
左邊的這個是一個表徵學習的方法深度學習的,上面是音樂,它把音樂變成一個極度濃縮的表徵z。
當然,圖像的表徵是在空間上,音樂的表徵在時間上,這是唯一的不同。
然後再把這個z變成x,也就是一切即一,一即一切。而且在深度學習過程中,我發現一個很有意思的現象就是,其實原來不用深度學習,我們也能把x變成z,但是那都是人去寫定的公式。
**我們發現——人為寫定的公式,不如讓人工智能自主學習。**機器自主學習學到的那個z,非常好。
那麼有了這個一即一切的東西,還不能類比,因為它太孤單了沒法比。
我們怎麼辦?就像亞當和夏娃的關係一樣,抽出一半來負責節拍,剩下的負責音調。這樣就一生二。
然後我們再給它配上一個和絃,二生三。
這樣音樂類比就可以用深度模型,三生萬物了。當然,萬是一個虛詞,我們先來看看兩段音樂是怎麼生成6個。
(以下這段文字,可直接點擊視頻通過音樂和講者講解來理解)
如果一個音樂是乾卦就是天,另一個音樂是坤卦是地,屬於父親和母親。那它們每個人都有三段基因,我們現在就互相雜交,可以雜交出6個孩子。我們先聽父親是什麼樣的。
這是父親,我們現在把它的和聲變了來聽聽看。
我們現在把節奏變了,節奏換成這個的節奏。就是這個是母親給的節奏。如果它用這個節奏去譜這個旋律是什麼樣的?
這個是機器自動生成的,如果我們把音調換了呢?我們用原來的節奏,音調換成母親的。
你們聽,這就是音樂類比的高妙之處。
現在,我們已經可以做音樂類比生成,如果它和前面我們提到的機器人交互演奏結合起來,會是什麼樣的呢?
時間回到今年的1月,這是我在回訪意大利的時候,又做了一次demo。
我演先奏一段,然後它基於我的演奏做了更改。它的演奏神似我的演奏,但並不是一樣的。而且它還可以改節奏,變得更浪漫,或者更爵士。
我希望不久的將來,這樣的機器人可以走進千家萬户。
AI讓人類更有創造力?
初級的是作,中級的是造,高級的才是創。
那麼到底怎麼創呢?創是無中生有,至於到底怎麼無中生有?説實在話,我不知道。而且估計這地球上知道的人也不多。
因為從信息的角度來講,真正無中生有的東西,我們如果能可以找到的話,在這個地球上——只有人類的意識,活體生物的意識。
所以説如果想要解決無中生有的問題,可能要先解決意識的問題,那這個就是一個特別特別大的話題。
但我們不能停滯不前,雖然我們無法讓機器無中生有,但是我們知道,人可以無中生有,音樂可以讓人更有創造力。但是我們發現,有95%的人 在學習音樂的前三年就放棄了,為什麼呢?
我們來分析一下原因:首先學音樂要識譜,就像學一個不同的語言;識完譜之後要學習樂器的指法,經過上萬個小時的操練,然後再把譜子實操到樂器上,還要把這個曲子記住,要花好長時間。
如果是初學者的話 ,我們何樂而不為,直接學習指法呢?
這個在古代是做不到的,但是今天,依託人工智能,我們可以用一種提線木偶的方式來學笛子——在笛子上裝馬達。
大家來看一下,這是2017年的研究。這個笛子上連了6個指環,指環被馬達控制,馬達被程序控制。這樣它就可以教你吹笛子了。

當人學會了這個指法之後,我們發現人會自動和氣息建立起聯繫,他就能吹了。我們實驗發現,它的學習效率,比起跟着視頻學,要快50%。 但是我覺得總還是可以提高再多。大家有沒有回想一下,之前我説的深度學習這個問題。我們要深度學習的東西,讓機器學習模型去學習的時候,我們要放手。規定它的方向,但是具體細節要放手。
這個吹笛子的模型現在就是100%地控制它的細節,那怎麼做到部分放手呢?那我就聯想到我們更加人性化的指導,到底是散養式的還是填鴨式的指導更好?
散養式的是以前學習音樂的方式,只有天才能出爐。如果一個教學方式,只有天才能出爐呢,那我覺得這個教育方式是崩壞的。
我們現在是用填鴨的方式,能不能取一箇中庸的之道——圈養,我們給他一個方向就足夠。
現在這個是今年才出來的研究,是一個外骨骼的魔法手套,大家來看一看。

這個馬達一動,你的手就動起來了,但是它這個手套是靈活的。它讓你動起來,但不會把你的手指箍死,你還可以自己來動。
而且它裏面有一套算法,只有當你吹錯的時候,它才去改變你的行為;當你對的時候,它不會動。
就像我們小時候學自行車時父母扮演的角色——他們總是説,我在後面扶着,其實根本就沒扶,只有在你要摔倒的時候才來扶一把。
這樣的學習效率我們認為是很高的。
換而言之,我們已經在把在AI深度學習中得到的經驗,再放回到人身上,取得了良好的效果。這個又比剛才的那個填鴨式的教學,還能提高50%。
而且我們發現,在填鴨式的教學中,90%的人會在兩小時後忘掉,而這個方式只有10%的人會忘掉,記住的那些人,在一週之內都不會忘掉,所以説是學得又快又深。
最後,我想再分享一點小的想法,就是當人工智能和藝術結合的時候,它實際上是一個科技和人性的橋樑。
大家想象一下,在一個未來的世界,未來的城市,只有機器沒有人。這個只有機器的城市裏面,肯定有自動駕駛的汽車,不同的機器可能還會用玩圍棋這種算法,來測試不同算法之間的能力。
《星際迷航3》的未來太空城市
但是我難以想象的是,在這樣的一個未來城市裏,兩個機器人會玩音樂。
因為音樂是給人聽的,它不僅僅是一個客體,還是我們精神的媒介。
換而言之,當人工智能和藝術結合的時候,我們才真正地把技術服務於人類,因為我們最後要的,並不是那個全知全能的人工智能,而是更加幸福的人生。