我試圖讓一個人工智能寫這個故事:保羅·福特 - 彭博社
Paul Ford
插圖:Jeremy Sorese 為彭博商業週刊繪製
人工智能的時代真是太棒了!谷歌在其開發者 I/O 大會上宣佈了一套新的 AI 驅動的產品和服務,其中包括一個名為 Duplex 的產品,它可以為你打電話,聽起來就像一個真實的人,這讓所有人都感到震驚。特朗普政府與亞馬遜、Facebook、微軟、Nvidia 和黃油製造商 Land O’Lakes 的代表舉行了一種 AI 峯會,顯然是因為白宮有太多變動。此外,音樂家 Grimes 和埃隆·馬斯克約會的公開消息也是在兩人分享了一個關於 AI 的笑話之後傳出的。
然而,當人們問我經營的軟件公司在機器學習方面做了什麼時,我平靜地説:“什麼都沒有。”因為在某種程度上,確實沒有什麼可做的。
當前的熱門話題是機器學習,這是 AI 的一個子領域。在機器學習中,你將普通的數據——圖片、電子郵件、歌曲——通過一些專門的軟件處理。這些軟件構建了一個“模型”。由於模型編碼了之前的內容,它是預測性的——你可以向模型輸入不完整的數據,它會建議補全的方法。一個簡單的例子:任何人,包括你和我,都可以將字母表輸入到“遞歸神經網絡”(RNN)中。這會生成一個字母表的模型。現在你執行這個模型(也許通過運行一個腳本),並給它字母“ABC”。如果你的特別訓練的神經網絡狀態良好,它會説“D”。
向上一級:給你的神經網絡提供一百萬張帶標題的圖片,然後給它一張沒有標題的圖片,問它填補缺失的標題。給它無數封帶回復的電子郵件,然後給它一封沒有回覆的郵件,問它該説什麼。
由於我們一直在使用軟件,我們創造了難以置信的數據量。你無法僱傭足夠的人類來篩選這些數據,因此我們轉向計算機,儘管它們缺乏判斷力,但在活力上彌補了這一點。最大的數據顯示者——谷歌、蘋果、臉書、微軟、亞馬遜、金融公司,以及,當然,大黃油——出於多種原因涉足人工智能。但最重要的是,他們擁有所有這些數據,而程序員卻不夠,無法理解這些數據。機器學習是一個巨大的捷徑,是通往新產品和大幅節省的路徑。
“觀看機器學習模型自我訓練就像觀看電影剪輯”
出於好奇和一種深刻的樂觀懶惰,我開始學習足夠的機器學習知識,以便我可以將我寫過的所有內容輸入神經網絡,讓它寫出一篇聽起來像我的文章,甚至只是一個段落。我遇到的第一個障礙是,即使對於一個習慣於困惑的書呆子來説,機器學習也是不透明的。閲讀相關資料意味着要重新學習許多詞彙,吸收諸如RNN或LSTM(長短期記憶)這樣的縮略語。人們談論温度參數、冷卻函數和模擬退火。我是行話的老手,相信我,這真是一個巨大的認識論盛宴。
更糟糕的是,當你在所有機器學習的表面下查看時,你會看到一堆可怕的數學:扭曲的括號、函數和矩陣四處散落。軟件常見問題、PDF、Medium帖子都螺旋式地變成方程式。我需要理解sigmoid函數和tanh之間的區別嗎?我不能在某個地方轉動一個旋鈕嗎?
這一切讓我想起了1990年代的Linux和網絡:如果你能跨越術語的牆,就會感受到美好的可能性。當然,學習是值得的,因為它有效。
它之所以有效,是因為機器學習為你編寫軟件。你將數據輸入程序,它就會輸出一個新的程序來分類數據。大多數軟件開發者甚至不知道模型內部發生了什麼。這應該讓我們停下來思考,但讓硅谷停下來反思就像讓小狗放下它的吱吱玩具一樣。
這裏還有個好消息:機器學習非常慢。我們已經習慣了計算機的極快,能夠同時做成千上萬的事情——在你聊天的同時播放電影、連接到數十個維基百科頁面、在一個窗口中寫作、並且不停地發推特(誠然,我可能有問題)。但是當我試圖將我所有的寫作輸入一個機器學習工具包,希望計算機能為我寫一些段落時,我的筆記本電腦只是搖了搖頭。要製作我的散文模型,至少需要一個晚上,甚至可能幾天。至少目前,自己寫段落對我來説更快。
但我已經讀過教程,不想放棄。我下載並安裝了 TensorFlow,這是一個由 谷歌 開發並作為開源軟件發佈的大型機器學習編程環境。在四處尋找後,我決定下載我的谷歌日曆,並將我所有的會議輸入TensorFlow,看看它是否能生成新的、聽起來真實的會議。正是世界所需要的:一個會議生成器。
不幸的是,我的會議是一堆龐大的事件,名稱像“人員配置”、“管道”、“約翰與保羅”和“辦公室歡樂時光”。我曾經運行過一個腳本來加載數據,然後又運行了另一個腳本來生成日曆邀請。然而,在那次試運行中,我設置了錯誤的“光束”(天知道那是什麼),結果RNN不斷地生成“管道”這個詞。對此我只能説,公平。銷售=我的生活。
“我回到我的筆記本電腦上,運用了一項編程的基本技能:作弊。”
問題是,這看起來可能像是失敗。但我給我的機器學習模型輸入了幾千行文本(在機器學習標準下算是微不足道),它只學會了一個詞。我幾乎和我認為我幼兒子説“貓”時一樣自豪。我回想起艾倫·圖靈在1950年的開創性論文中提出的通過計算機模擬兒童的想法。“可以推測,兒童的大腦就像是從文具店買來的筆記本,”他寫道。“機制很少,空白的紙張很多。”
改變設置,再試一次。在50個“週期”之後(當程序讀取所有數據一次時,就是一個週期——訓練一個網絡需要很多週期),我讓它生成了標題為“書籍”、“Sanananing broces”和“Talking Upgepteeelrent”的會議,儘管我從未與任何人談論過Upgepteeelrent。經過一百個週期,我得到了像“Broam Shappery”和“DONKER STAR E5K”這樣的會議。
許多小時過去了。我如此沉迷於模擬會議,以至於錯過了一次真正的銷售管道會議。於是我回到家,那裏有一台更快的計算機,配備了圖形處理單元,或稱GPU。GPU已被證明是比特幣礦工和機器學習者的秘密武器。這是因為它們擅長同時進行大量計算。普通微處理器就像一個邏輯驅動的香腸製造機;你給它肉(指令),它處理肉並整天生產香腸(輸出)。而GPU就像成千上萬的香腸研磨機同時工作。哪些問題可以分解成可以同時運行的小任務?計算3D場景中的光照。挖掘比特幣。還有機器學習。這些事情可以加速幾十倍,甚至上百倍。
可悲的是,儘管我遵循了説明,但我無法讓Linux識別我的顯卡,這在使用Linux 20年後感覺更像是一個熟悉的特性而不是一個錯誤。當然,並不是所有的希望都破滅了:我可以在線租用一個TPU,或稱張量處理單元,從Google(張量是一個數學概念,涉及事物之間的連接),使用它的雲服務。微軟公司提供每月50美元的雲機器學習服務,包含“100個管理模型”,而亞馬遜公司的“彈性GPU”每小時5美分。Google也會以大約相同的價格租用計算機。但如果你想租用Google TPU並快速處理大量機器學習任務,費用將是每小時6.50美元,按秒計費。使用TPU來處理張量是否值得多花130倍的錢?如果你在處理大量衞星圖像或MRI——可能是值得的。
我回到我的工作筆記本電腦,運用了編程中一個基本的技能:作弊。我從基於“字符”的神經網絡切換到基於“單詞”的訓練——由於我的寵物神經網絡不再學習字母,而只是查看“標記”,我的會議很快變得更加可信。
經過2000個週期,它達到了相對不錯的會議:“保羅和保羅!”,“薩羅尼聽到”,以及令人畏懼的“簽到”,但它仍然主要產生像“坐(內容:提案/吉娜·麥康克)”這樣的東西。我開始理解為什麼每個人都如此興奮:總是有一個旋鈕可以轉動,還有其他東西可以調整,使計算機看起來更具思考性。或者,正如當時的博士生安德烈·卡爾帕西在2015年的一篇文章中所寫,遞歸神經網絡的非凡有效性:“我一直在訓練RNN,我多次見證了它們的力量和魯棒性,但它們的神奇輸出仍然能讓我感到驚喜。”他目前是特斯拉公司的人工智能總監。他的神經網絡一定不僅僅是令人愉快。
玩弄機器學習滿足了我對理解世界和稍微掌控它的好奇心——將現實簡化為輸入和輸出,並進行重新組合。我想忘記我的家人和公司,直接沉浸在這個雲TPU的世界中,不斷輸入更多數據,讓它創造出越來越令人驚訝的模型,我將探索和篩選這些模型。當你運行模型時,它會不斷變得更聰明。看着一個機器學習模型自我訓練就像看一部電影剪輯。最後,一個機器人洛基跑上費城藝術博物館的樓梯,舉起他的機器人手臂。可惜機器人洛基是基於冰球電影的數據集訓練的,而不是拳擊,但看着他進入擂台並嘗試進球仍然會很有趣。
“至少目前,計算機需要人類,就像我們需要它們一樣”
最後,我讓它運行了20,000個週期,然後回家,但早上的結果並沒有更好。也沒有更糟。結果包括:“騎士日”,“快樂銷售”,“公司和家庭的跟進”,“閒聊計劃個人公交。午餐推介:温迪沒有得到”,以及“泰勒聊天甲板”。我不知道這説明了我的生活什麼,竟然所有這些都可能是真實的邀請。
我已經達到了在不學習更多知識的情況下能做的極限。我瞭解到,機器學習非常緩慢,除非你使用特殊設備,而根據我參加的會議,我的生活相當無聊。我接受這兩件事。現實是我的語料庫不夠大;我需要數百萬、數十億次會議來建立一個好的預測模型。但想象一下我能做什麼!我完全不知道!給我一個白板!
我在軟件行業工作,機器學習是一個新的熱門領域,但我並不擔心,我們也沒有重新調整公司的方向。機器學習很重要,但它還不適合普通人使用(不過可以看看 lobe.ai,看看未來可能的樣子)。和所有軟件一樣,機器學習工具仍然需要人來使它們看起來更好,並教會它們如何運作。至少目前,計算機需要人類,就像我們需要它們一樣。
另外,為什麼要費心呢?大公司的鎖定效應簡直荒謬。他們擁有數據、軟件和工程師。不想把錢給谷歌?你可以跳到亞馬遜的 SageMaker 平台,花費每小時24.48美元,租用一台擁有8個GPU和616GB內存的機器。今天,訓練模型的速度很慢;明天,你的洗碗機將會在你的碗碟上訓練神經網絡,以便更好地清洗它們。
與此同時,對於最大的科技公司來説,幾乎沒有限制的上升空間。而對於谷歌來説更是如此,谷歌是一家在線廣告公司,同時也涉及搜索。它並不是為了成為一家廣告公司而成立的,但它確實是,而且它的市場價值約為7500億美元,因此它必須接受這一點。它擁有大量數據。機器學習在將大數據產品化(一個真實的詞)方面非常有效。
所以如果我是谷歌,最糟糕的結果就是我能夠利用機器學習所提供的東西,並將其應用於我龐大的廣告產品組合,使它們更智能、更好、更有用,並在我收取費用的文化廣闊領域中進行更智能、更好的搜索,這包括YouTube、全球地理以及(實際上)整個網絡。此外,我可以使使用安卓手機變得更容易,而我也間接控制着這些手機。
與此同時,我,谷歌,將發佈TensorFlow,這將使一大批招聘成本高昂的工程師迅速掌握我們內部使用的工具,激發他們來我們龐大規模進行機器學習的強烈願望,在那裏他們可以擁有他們想要的所有TPU小時。多年來,這將累計達到數百億美元。
但是——仍然在我心中傳達谷歌的精神——在我最瘋狂的夢想中,我將圍繞機器視覺、翻譯、自動交易服務完全開闢新的產品線,並創造數百億美元的價值,所有這一切都在機器學習屈服於不可避免的下行壓力,變得過於便宜和簡單之前。
我的意思是,即使TPU縮小,世界上的每個人都能進行機器學習,我仍然會擁有數據。那美麗、獲取成本高昂的數據。我將把我所有的地圖變成自動駕駛汽車,把我所有的對話變成為你進行對話的電話,把我所有的電子郵件變成自動回覆。我將為整個機器學習世界提供雲基礎設施——從那些僅僅是書商的亞馬遜那裏奪回我應得的東西——因為我的工具將成為標準,我們的數據將是最大的,應用程序將是最龐大的。其中一些將是有問題的。警察可以搜索可能成為罪犯的人,信用機構可以預測將會有不良信用的人,許多國家的國土安全辦公室可以篩選他們的人口並製作可疑價值的名單。我們將是整個事情的基礎設施。
在最糟糕的情況下,我,谷歌,僅僅會成功得非常出色。在最好的情況下,我將成為一種大膽的新數字現代性的基礎技術,在這種現代性中,計算機深深嵌入人類生活中,以我們今天只能瞥見的方式。
我真是個好孩子。