CIIS 2019 演講實錄丨於劍：從圖靈測試談起_風聞

中国人工智能学会-中国人工智能学会官方账号-CAAI2019-11-06 07:18

2019-11-06

10月26日-27日，由陝西省委網信辦、陝西省工業和信息化廳、陝西省科學技術廳指導，中國人工智能學會主辦，西安市委網信辦、西安市科學技術局、西安國家民用航天產業基地管理委員會、京東雲共同承辦的2019第九屆中國智能產業高峯論壇在“硬科技之都”--西安舉辦。在27日全國高校人工智能學院院長/系主任論壇上CAAI機器學習專委會副主任、北京交通大學人工智能研究院常務副院長、教授於劍為我們帶來了題為“從圖靈測試談起”的精彩演講。

於劍

CAAI機器學習專委會副主任、北京交通大學人工智能研究院常務副院長、教授

以下是於劍的演講實錄：

談人工智能避不開圖靈測試。可以從多個角度分析圖靈測試，本報告《從圖靈測試談起》將從三個層次論述圖靈測試。

一、何為圖靈測試

最原始的圖靈測試中被模擬的對象是女人，看看機器是否能夠模擬一個女人，如果辨識者不能區分誰是機器誰是女人，即通過測試。後來，被模擬的對象改為人，這就是常見的圖靈測試。很多人認為這是現代人工智能的起源，並稱圖靈為人工智能之父。甚至，在1991年有人專門設計了一個獎，鼓勵人們發明通過圖靈測試的程序。到現在為止這個比賽每年都還在舉行，還沒有人獲得最後的大獎。應該説，對比賽的批評也非常多，為什麼會有批評？一會兒我會講。

圖靈測試能不能通過，或者通過的後果到底是什麼？哲學家賽爾提出了一個思想實驗“中文屋實驗”，對此做出了一個極有意思的回答。賽爾明確指出，即使完全通過了圖靈測試，實現的也只是人工智能，而不是人的智能。圖靈認為，通過圖靈測試，就辨別不出是人還是機器。中文屋實驗卻説，即使通過了圖靈測試，也還不是人的智能。應該説這個指責是非常嚴厲的。這個指責在我看來大體也是成立的，我以前曾經講過很多次，這裏就不再多説了，也有很多這樣的文章可以去看。

為什麼通過了圖靈測試也不算是人的智能呢？原因很簡單，

只是在符號上通過的測試，並不針對現實的意義進行標定。僅僅符號做對了，現實中不對的情形是非常多的。中國很早就有這樣的故事，紙上談兵。紙上談兵的時候都對，不一定在現實中就一定能贏得戰爭。所以在1989年有人提出了完全的圖靈測試，圖靈測試一般叫做2T（Turing Test），而完全的圖靈測試是3T(Total Turing Test)。在2T的時候要判斷出哪個是機器、哪個是人，辨識者和實驗對象是隔離的，彼此不能直接見面。而完全的圖靈測試中，這個隔板被拆掉。有一箇中國的故事可以用來説明3T圖靈測試，就是著名的“真假美猴王”故事。這個故事講的假美猴王，就通過了3T測試。至少從人工智能的角度看，是這樣的。不知道哪個美猴王是真的，哪個是假的，誰都判斷不出來。人們所謂的對於人工智能的恐懼，追蹤到科學的文獻，就是3T測試，中國人很早就想象出來了。

二、圖靈測試中的預設

圖靈測試假設了非常多的事實，但是這些假設在現實中並不一定成立。要知道圖靈測試假設了什麼，一定要看看圖靈的生平。圖靈生於1912年，1954年去世，這是個非常要害的時間，每個人都脱離不開時代的限制。他於1950年提出了圖靈測試，維特根斯坦的《哲學研究》於1953年出版。現有的資料，沒有顯示圖靈讀過《哲學研究》，從時間段上看，圖靈也沒有機會讀《哲學研究》。實際上，人們對於《哲學研究》的深入瞭解，特別是在哲學界以外，已經是上個世紀70年代以後。具體到人工智能界，瞭解《哲學研究》就更晚了。這是一個非常重要的事實。

在《哲學研究》以前，人們認為概念存在經典定義。一般情形下，如果某個概念沒有經典定義，那麼只能説明研究還不夠深入，需要繼續研究。在《哲學研究》以前，人們普遍相信概念存在經典定義，在這其中，希爾伯特的話最為經典最具代表性，，“我們必將發現，我們終將發現”。也就是説，對任何一個概念的經典定義，我們是必將發現，我們終將發現。

那什麼是概念的經典表示呢？概念的經典表示有三部分組成。一是符號表示。任何一個概念都要有個名字，這就是概念的符號表示。二是內涵表示。就是用來定義概念的命題。如果是計算機系的學生，肯定知道。這個命題的概念，人們已經研究了2500多年，真正定型是在20世紀初，即命題是能判斷真假的陳述句。三是外延表示，就是經典集合。舉一個簡單的例子，素數這個概念。其符號表示在中文是“素數”這兩個字；其內涵表示是如下命題：只能夠被1和自身整除的自然數。其外延表示是如下集合：｛1、2、3、5、7、11，13、17、19、23、29、……｝。如果任何概念都能夠給出如上的經典表示，人工智能很多情況下就不那麼難了。但是，得到概念的經典表示有時是非常困難的。

在《哲學研究》以後，一般的常識是認為概念不一定存在經典表示。維特根斯坦寫了《哲學研究》那麼一本書，號稱西方哲學史上的天才，原因之一是因為他否定了我們延續了2500多年，一直這麼默認假設的，概念存在經典表示這樣一個觀念。在《哲學研究》後，對於概念是否存在經典表示，這本身需要研究，不是所有的概念都不存在經典表示，也不是所有的概念都存在經典表示，存在不存在經典表示，每個概念需要單獨研究。《哲學研究》中有個結論，日常生活中使用的大多數概念不存在經典表示。有了這些知識之後，再來講圖靈測試，就會發現味道完全不一樣了。圖靈測試原來的名稱是模擬遊戲，它使用的概念都是經典概念，那時候還沒有人對概念存在不存在經典表示這個事情表示疑問。即使維特根斯坦出了《哲學研究》這本書以後，人們在此問題上達成共識也是上世紀70年代、80年代以後的事情。所以圖靈測試中假設概念都有經典表示。圖靈測試中最重要的概念有兩個，一個是智能，一個是人。這兩個存在不存在經典概念呢？

什麼是智能？很多人給出了很多的定義。有很多的參考資料，這兒就不多説了。現在的共識是，智能無統一的定義，也就是智能這個概念沒有經典表示。這個後遺症非常嚴重。導致只能設計側面的實驗比如圖靈測試來判斷是否具有智能。同樣的，人在圖靈測試中扮演了兩個非常重要的角色，人在圖靈測試中，不僅是被模仿對象，也是判決者。所以人這個概念需要明確定義。按照圖靈生活時代的限制，“人“這個概念一定是存在經典表示的。實際情況如何呢？

歷史上，很多哲人對於這個問題進行了研究。古希臘的普羅泰戈拉曾經説：人是萬物的尺度，是存在的事物存在的尺度，也是不存在的事物不存在的尺度。對這個有很多批判，有各個角度，比如柏拉圖的《泰阿泰德》。柏拉圖自己也給出過“人”這個概念的一個定義。柏拉圖認為：人是沒有羽毛的兩腳直立的動物。他的學生亞里士多德在聽課的第二天，提着一隻拔光了毛的雞，對他的老師説，這就是人啊！所以這個定義只存活了一天，成為一個流傳至今的段子。中國古代，對於如何定義人也有説法。《春秋穀梁傳》中説：“人之所以為人者，言也”。而法國思想家拉梅特里説《人是機器》，這個我並不贊成。法國思想家帕斯卡説：“人是一根會思想的蘆葦”，尼采説：“人是一條不潔的河”，這些更多是文學上的比喻，不是定義。馬克思説：“人是一切社會關係的總和”。很多人認為馬克思這個定義好，但這好像也不是人的嚴格定義，因為怎麼定義社會關係呢？要定義社會關係，又要用人來定義，這是循環定義。循環定義，不為定義。卡西爾也是一位大哲學家，研究了一輩子如何來定義人，他説我們應當把人定義為符號的動物，這個也沒有得到大家完全的認可。到現在為止，找不到人的統一定義，“人”這個概念沒有經典定義。這導致圖靈測試中的人沒有了統一的標準或者一致的判據。因此，圖靈測試不具有可重複性。

嚴格意義上，圖靈測試有三個特點，第一，問題不限定。不限定任何的問題，任何問題都可以問，模仿內容或者任務是開放的，沒有不可問的問題。第二，被模擬的人不限定。沒有説模擬什麼樣的人，如果説模擬一個具體的人容易一些，而只説模擬一個抽象的人就比較麻煩，模擬具體的某某都代表不了人，只是人的一個樣本。第三，語言不限定。在這裏面沒有説一定要是英語，如果你問一個泰國人，他是説泰語的，我用漢語來問，你説這個測試有意義嗎？所以圖靈測試是開放測試，工程上要實現，一定要封閉實現，必須要有限制才能實現，圖靈測試只是思想實驗，不能工程實現。實際上，設計一個好的思想試驗也是有非常大的貢獻，在此並不是要否定圖靈的天才貢獻。

一些人認為這是可操作實驗，也有很多人認為這就是個科學小説。我們認為圖靈測試就是一個思想實驗，屬於思想實驗的範疇，

三、圖靈測試的後果

圖靈測試不是簡單的概念，它的優點非常明顯，避免了智能的內涵式定義和判定難題，將研究智能的重點放在智能的外在功能性表現，使得智能從工程上看似乎是可實現和判斷。原始的圖靈測試我們稱為開式圖靈測試，或者簡稱圖靈測試。封閉條件下實現的圖靈測試，我們稱之為閉式圖靈測試。模擬某個人，比如模擬奧巴馬可以通過，但它帶來的問題是模擬某個人是否合法、是否合乎倫理，人一旦定了以後語言也定了，任務也定了，像我懂得的東西實在太少，我也只會説漢語，英語説的磕磕巴巴，模擬我這個人即使通過了測試，也不是原始的圖靈測試，而是閉式圖靈測試。通過閉式圖靈測試也是一項了不起的成就。

到目前為止，對於很多具體的任務來説，閉式圖靈測試已經成功。閉式圖靈測試的成功，已經給人們生活帶來很多的便利。但是，通過閉式圖靈測試，是否也會有重大的危害呢？

在現在生活中，閉式圖靈測試比如機器寫作、圖像合成、視頻合成、語音合成技術已經面向大眾，鑑定數據真假已經成為目前亟待解決的問題。據説，目前全球互聯網上只有不到60%的流量，是由真實的人類產生的。網上的很多內容也是假的。曾經的虛構文章《一個出身寒門的狀元之死》，曾經的Bosstown dynamics的假機器人視頻都曾經在微信上刷屏。日常生活中我們有美圖秀秀，引起嚴重後果的有通俄門。這些事情已經引起了巨大的反響。現在Facebook發起Deepfake檢測挑戰賽，懸賞1000萬美金，以AI技術打假AI，。

説清楚了什麼是圖靈測試，圖靈測試的預設和後果以後，就可以理清人工智能的一些問題。比如強人工智能，人類級人工智能，通用人工智能，超級人工智能這些現在很火的概念是否成立。雖然這些概念都是人工智能的先驅提出的，但是實際上，並沒有實現的可能。原因也很簡單，所有的上述人工智能至少要求通過原始的圖靈測試，甚至要通過3T。比如超級人工智能，必須通過3T。現在2T都不可能實現，更別説3T。因此，強人工智能，人類級人工智能，通用人工智能，超級人工智能在工程意義下沒有實現的可能。雖然只能實現即使閉式圖靈測試，其造成的後果也不見得不嚴重。

最後小結一下，圖靈測試是思想實驗，不是工程實驗。沒有強弱人工智能，只有人工智能。因為強人工智能、人類級人工智能、通用人工智能、超級人工智能都沒有工程實現的可能。以上是本人的粗淺觀點，歡迎批評指正。我的報告到此結束，謝謝大家聽我的報告！