被GPT4震撼的同時,我們應如何看待人工智能的強大_風聞
中科院物理所-中科院物理所官方账号-03-28 16:50
平日,世界看起來像一條管理良好的鐵路:事情是按照我們人類所理解並能具體應用的法則運行。我們能接受偶爾的晚點,它們代表了這些法則的例外。但有時我們會把這個世界所經歷的事看作是公路上的多車相撞。這種情況下雖然也遵循與平日相同的物理規律或社會法則,但是變化的單元過多,我們無法預測或解釋每一次碰撞的細節——這些細節可以讓一輛車只受到輕微損傷,而另一輛車則爆炸變成火球。

沿軌道有序行駛的列車
一場車禍中所表現出的特點,也同樣適用於平凡秋日裏在鋪滿落葉的小路上散步。它們都是這樣的事件,其中無數細節之間的相互依存關係優於決定它們的規則的解釋能力。我們能做的似乎只是在一種結果出現後為之憤懣或驚歎。
現在,我們最新的範式技術——機器學習,可能會揭示出日常世界更多由偶然性而非規則支配。如果是這樣,那是因為機器學習可以跳出人類認知的模式,而總結出我們所無法理解或者應用的規律。

機器學習概念圖
機器學習系統的不透明性引起了人們對它們的可信度和偏見傾向的嚴重擔憂。但是它們確實能夠工作的事實,可能會讓我們對世界是什麼以及我們在其中扮演什麼角色有了全新的理解。
機器學習與傳統編程有着根本不同的工作方式。事實上,傳統編程是我們基於規則去理解世界的集大成者。舉個機器學習中最具代表性的例子:如果要編寫識別手寫數字的軟件,程序員在傳統方式上會告訴計算機,“1”是由一條豎直的線組成的,“8”是由一個較大的圓圈和位於其上方的一個較小的圓圈組成的,等等。這種方法可能會有很好的效果,但它對手寫數字的柏拉圖式理想的依賴,意味着該程序將會誤判相當比例的手寫數字。因為實際的數字出自凡人之手,不可能如此“完美”。

機器學習全新的運作模式
機器學習模型則懂得從****樣例中學習。為了創建一個能夠識別手寫數字的機器學習模型,開發者們不會告訴計算機任何我們人類對數字形狀的瞭解。相反,開發者們給它提供了數千個手寫數字的樣例圖像,每個數字都不同,並且被正確地標記為所代表的數字。系統通過算法去發現具有相同標籤圖像的像素之間的統計關係。在某種垂直線上的一系列像素將增加圖像為“1”的統計權重,降低它為“3”的概率,以此類推。
不可知,卻有效
在現實生活中的機器學習應用中,可能的答案數量要數以億計,需要考慮的數據量非常龐大,數據點之間的相關性非常複雜,以至於我們人類通常無法理解。例如,人類的新陳代謝是一系列極其複雜的相互作用和相互依存的效應。於是,人們創建了一個能夠預測人體系統對複雜因素反應的機器學習系統,稱之為DeepMetab。它成為醫生、研究人員、非專業人士和疑病症患者提出關於人體器官的問題、探索相關想法的地方。儘管我們無法理解它如何產生輸出結果,DeepMetab仍然成為有關人體知識的最重要的來源。

AI與醫療的結合
隨着我們越來越依賴於像DeepMetab這樣我們無法理解的機器學習模型(MLMs),我們可能會逐步接受下面兩種觀點:
第一種觀點表示,為了獲得由機器學習模型生成的有用的概率輸出,我們必須經常容忍無法解釋這一缺點。
第二種觀點認為,難以解釋並不是一種缺點,而是一種真實情況。機器學習模型之所以有效,是因為它們比我們更擅長閲讀世界:它們通過統計相互關聯的海量數據而產生超越人類等的認知,無需向人類解釋自己如何得到這樣的認知。每當一個公民或監管者因無法理解機器學習的工作原理而發出絕望呼聲時,我們都能感受到這些模型確實有效。

大數據時代概念圖
如果機器學習模型的工作原理是放棄用可以被理解的規則來簡化並解釋複雜性,那麼在“它有效!”的呼聲中,我們可以感受到所有微小事物在它們的相互依存中彼此互動。而這些微小事物才是真正的本質,它們在和諧規律的宇宙音中發出嘎嘎聲。我們技術的成功正在告訴我們,世界就是一個真正的黑匣子。
人機對弈
從手錶到汽車,從相機到恆温器,機器學習已經深深嵌入了我們的日常生活。它被用來推薦視頻、嘗試識別仇恨言論、引導車輛的行駛、控制疾病的傳播,並對緩解氣候危機至關重要。它並不完美,可能會放大社會偏見,但我們仍然繼續使用它,因為它有效。機器學習在不對特定事物應用規則的情況下完成所有這些工作是令人驚訝甚至不安的。我們太過於偏愛規則而非個例,以至於我們認為讓一個機器學習系統在不知曉規則的情況下單純通過分析大量棋局和走法而玩圍棋是瘋狂的。但這就是機器學習成為史上最優秀的圍棋選手的方式。實際上,當開發者為系統提供與一個領域相關的數據時,他們通常會故意向它隱瞞我們已經瞭解的數據之間的相互關係。
過於具體的概括?
現在,即使是稍微瞭解機器學習的人,也會感到毛骨悚然,因為機器學習模型是通過從數據中進行泛化而創建的。例如,如果一個手寫數字識別的機器學習模型沒有從它所學習的樣本中進行泛化,就會因過度擬合而成為失敗的模型。
但是,機器學習模型的泛化描述不同於我們用於解釋特定情況的傳統概括。我們喜歡傳統的概括,因為(a)我們可以理解它們;(b)它們經常能夠導出演繹結論;(c)我們可以將它們應用於具體情況。但是,(a) 機器學習模型的泛化描述並不總是易於理解;(b)它們是統計的、概率上的且主要是歸納的;(c)除非運行相應的機器學習模型,我們通常無法應用這些描述。

統計學
此外,多層次機器學習模型的泛化描述可能會非常具體:例如,視網膜掃描中的血管模式可能預示關節炎的發作,但前提是滿足50個數值指標,而這50個指標又可能是相互關聯影響的。這就像你想知道一輛汽車在多車相撞中是如何避免嚴重損壞的一樣:車輛必然要克服很多具體條件,但是這種事件不能歸納為一個可理解的規則,這種複雜規則也無法遷移而應用於其他事件。或者,這就像在一場謀殺案中的線索,雖然能指示兇手,但只對這一場案件有效。

線索牆
機器學習模型並不會否認規則或者定律的存在。它只是強調僅有這些規則不足以理解我們這個複雜的宇宙中發生的一切。偶然的細節相互影響,使規則的解釋能力變得不足,即使假設我們可以知道世間所有的規則。例如,如果你知道引力和空氣阻力的法則,以及硬幣和地球的質量,並且你知道硬幣從多高的高度掉落,你就可以計算出硬幣落地需要多長時間。這通常已足以滿足你的實用目的。但傳統的西方科學框架過分強調了規則。要完全應用這些規則,我們必須知道每一個影響落下的因素,包括哪些鴿子會擾動硬幣周圍的氣流以及遠處星體對它的萬有引力同時施加的影響。(你記得加上遙遠的彗星的影響了嗎?)要完全準確地應用這些定律,我們必須擁有像拉普拉斯妖那樣的全面而不可及的宇宙知識。

拋硬幣事件
這並不是對追求科學定律或實踐科學的批評。科學通常是以經驗為基礎的,並且足以滿足我們的需求——雖然實際可實現的精度會讓我們做出一定讓步。但這應該讓我們想到:為什麼西方世界把難以解釋的混沌現象視為純粹的表象,認為其下有可以解釋這種現象的法則呢?為什麼我們本體論上更喜歡永恆不變的東西而不是不斷流轉的水或塵土呢?
改寫對知識的定義
這些是西方哲學和宗教歷史上常見的話題,遠超出了本文的範圍。但不可否認,我們被永恆法則所簡化的世界所吸引,因此我們能夠理解世界,從而預測和控制它。同時,這些簡單而美妙的法則向我們隱藏了特定情況的混亂,這些混亂不僅由法則本身決定,而且還受到每個其他特定情況的狀態的影響。但是現在,我們有了一種預測和控制技術,它直接源自整體同時存在並相互影響的諸多微小因素。這種技術給我們帶來了更強的控制力,但並沒有增進我們的理解力。它的成功使我們關注那些超出我們理解的事物。

物理學定律
同時,出於同樣的原因,機器學習可能會打破將確定性作為知識的標誌的迷戀,因為機器學習的結果是概率。事實上,從機器學習模型得出完全確定的結果會引起人們對該模型的懷疑。機器學習的輸出的概率具有內稟的不準確性;對於概率的真正陳述是能夠正確預測其錯誤幾率。

蝴蝶效應
現在,我們擁有了一種震撼我們的機制,一些從不可理解、精妙的網絡中相互連接的諸多細節中汲取信息而運作的模型。也許,我們無需將那些混沌的漩渦視為僅僅是還未了解透徹的表象。也許,所有因素之間相互影響的複雜性與認知難度將撼動西方科學的認知基礎,即最真實的是最固定、最普遍和最可知的。

三體問題的混沌解示意
也許,我們終將接受簡單事件難以想象的複雜關聯、各種意外與巧合才是世界的真實面貌。我們亦會接受1.4公斤重的大腦不足以建立對於世界完備的認知。世界殘酷的不可知性正在模糊我們理解的邊界。如果這正在發生,那是因為我們通過諸如機器學習模型聽到了更多特殊的、微小的、喧囂的信號。這些信號正在產生基於難以理解的萬物之間聯繫的有用的、驚人的、概率性的知識。