專訪《生成式人工智能》作者丁磊：中國大模型廠商趕超美國，關鍵在這裏

2023-07-26

【文/觀察者網呂棟編輯/張廣凱】

以大模型為代表的生成式AI，可以説是今年全球科技圈最火熱的概念，甚至沒有之一。

在不久前閉幕的世界人工智能大會上，無論是以BAT為代表的傳統互聯網大廠，還是華為等ICT企業，亦或是科大訊飛、商湯科技這種本來就帶有AI標籤的公司，都在展示大模型能力。

下游應用中，有的廠商展示了AI大模型的聊天、寫詩、作畫能力，有的則展示了大模型的編程、建模能力，還有的企業專注直接行業結合，強調自己的大模型“不作詩，只做事”。

當大模型爆火了大半年之後，覆盤變得很有必要，同時也有很多專業問題亟待解答。比如，如今的生成式AI和前些年火熱的AI概念有沒有本質區別？催生生成式AI的關鍵技術有哪些？如何看待國內互聯網大廠的大模型“軍備競賽”？中美大模型的發展有哪些差距？我們離真正的通用人工智能（AGI）還有多遠？等等。

針對這些外界普遍關心的話題，觀察者網近期深度專訪了《生成式人工智能》作者、美國俄亥俄州立大學人工智能專業博士、美國PayPal全球數據科學平台創始負責人丁磊。

丁磊

以下是專訪實錄：

觀察者網：幾年前AlphaGo掀起過一輪人工智能熱潮，但熱度很快冷卻了。如今ChatGPT這種大模型再度引發人們對AI的高度關注。在您看來，AlphaGo和ChatGPT所代表的兩個AI發展階段，有什麼本質不同？另外，ChatGPT會不會也像AlphaGo一樣，很快失去熱度？

**丁磊：**首先可以這樣類比一下，人類從一個嬰幼兒成長為成年人，需要漫長的過程，同時也需要花很多時間去學習，而ChatGPT的訓練過程相當於人類的成長過程。現在ChatGPT可以説在一定程度上已經擁有成年人的通識水平，並且具有一定的邏輯推理和常識理解能力。

作為對比，AlphaGo只是一個人工智能圍棋機器人，而人類能在相對較短的時間內學會下圍棋。我認為ChatGPT所具有的知識和邏輯，讓一個人去學習的話，肯定比學習下圍棋的時間要長。所以ChatGPT的里程碑式意義更大，但不是説AlphaGo就沒有意義，只是ChatGPT模擬人類學習的意義更大。從人腦學習的層面來看，ChatGPT跨越時空的尺度肯定比AlphaGo更大，因為學習圍棋相比於學習常識和邏輯，需要的時間更短。

從第二個層面來説，AlphaGo並不是一個普通的AI機器人，它以擊敗圍棋世界冠軍柯潔而名聲大噪，背後依靠的主要是強大算力。雖然圍棋是比較複雜的棋類，但它是有規則的，通過大量的數據學習就能做到很優秀。在我看來，AlphaGo這種AI機器人更像是在規則之下，通過大量數據不停地強化和迭代的過程，而ChatGPT處理的是人類自然語言，相對更復雜。

AlphaGo處理的主要是圍棋數據，格式相對簡單。雖然圍棋中的內涵邏輯，包括取勝的規則也挺複雜，但它的底層數據結構更簡單直白。而ChatGPT對應的是人類自然語言數據，存在的形式更為複雜、多樣和多變，這也就從另一個角度印證了ChatGPT是AI領域更大的突破。

觀察者網：能否這樣理解，AlphaGo和ChatGPT其實是一種進化關係，AlphaGo在進一步進化之後，就可以成為ChatGPT這種AI大模型？

**丁磊：**儘管二者在算法上有一些相通性，但並不能完全説是進化。換個角度來説，其實下圍棋的程序早已存在，雖然可能沒有AlphaGo那麼優秀，但很早就出現了。而ChatGPT作為一種可以跟人類自然交互的聊天工具，之前是不存在的，所以它突破性更大。AlphaGo奪得圍棋冠軍，引起很大的轟動，主要因為算力算法更強更優秀，它更像是一種量變。而在ChatGPT之前的自然語言對話工具完全不能用，很多場合下像“人工智障”，而現在ChatGPT基本超越了一些人認為能用的閾值或限度，所以它更像一種質變，在一定程度上突破了可用的邊界。

觀察者網：之前看到一種説法，AI 1.0時代是在海量數據庫中做快速比對，而ChatGPT的突破之處在於，它可以基於大數據集自己生成內容，並不是簡單的比對和匹配。這意味着掌握了一定自學習能力的AI，技術迭代速度大幅提升，進入2.0時代。您如何看待此種説法？

**丁磊：**AlphaGo不能完全説是匹配，它也擁有一套深度強化學習的模式，但AlphaGo不是生成式，而ChatGPT是生成式。AlphaGo可以理解為早前那種判別式AI，也可説是決策式AI。

從技術路徑來看，決策式AI的主要工作是對已有數據“打標籤”，對不同類別的數據做區別，最簡單的例子如區分貓和狗、草莓和蘋果等，乾的主要是“判斷是不是”和“區分是這個還是那個”的活兒。生成式AI不一樣，它會在歸納分析已有數據後，再“創作”出新內容，如在看了很多狗的圖片後，生成式AI會再創作出一隻新的狗的圖片，實現“舉一反三”。

從成熟程度看，決策式AI的應用更為成熟，已在互聯網、零售、金融、製造等行業展開應用，極大地提升了企業的工作效率。而生成式AI的“年歲更小”，2014年至今發展迅猛，堪稱指數級的爆發，已在文本和圖片生成等應用內落地。從應用方向來看，決策式AI在人臉識別、推薦系統、風控系統、機器人、自動駕駛中都已經有成熟的應用，非常貼合日常生活。生成式AI則在內容創作、人機交互、產品設計等領域展現出巨大潛力。

觀察者網：您在新書《生成式人工智能》中提到，Transformer與ChatGPT模型的出現密切相關，已成為深度學習最亮眼的成果之一，但很多人不明白什麼是Transformer，為什麼Transformer這麼重要？除了Transformer，催生ChatGPT這類大模型的關鍵技術還有哪些？

**丁磊：**提到Transformer，大家肯定首先想到的就是“transform”這個詞，也就是“轉換”的意思。而顧名思義，Transformer也就是“轉換器”的意思。為什麼一個技術模型要叫“轉換器”呢？其實這也正是Transformer的核心，也就是它能實現的功能——從序列到序列。

序列到序列模型（sequence to sequence）是在2014年提出的。所謂序列，指的是文本數據、語音數據、視頻數據等一系列具有連續關係的數據。在序列到序列模型中，只要能編碼成序列，輸入和輸出的可以是任何形式的內容。而序列編碼形式非常廣泛，我們日常做的大部分工作都可以編碼成序列，因此這種模型可以解決很多問題。

2017年出現的Transformer模型，在序列到序列模型基礎上有兩大提升，分別是採用多頭注意力機制和引入位置編碼機制，能夠識別更復雜的語言情況，從而能夠處理更為複雜的任務。在Transformer模型中，能輸出或生成的內容更加廣泛，包括文本、圖像、語音、視頻以及更廣義的內容，例如它可以生成報告、策劃方案、代碼以及程序等，是通用型的模型，可以生成任何我們需要的內容。目前國內外的大廠，都在基於Transformer技術推出自己的模型。

而且Transformer模型底層是開源的，每個人都可以利用Transformer技術，然後就是看誰可以設計出更加精巧的模型結構。現在ChatGPT是基於GPT模型的，未來可能有更新的GPT模型結構，我們可以去改進它。也就是説，首先我們能改變模型結構，其次我們有沒有更多更好的數據去訓練模型，第三就是如何去訓練一個類似ChatGPT的模型，這也是很有講究的。

這三點也可以這麼理解，就像教育小孩一樣，首先要有一個類似人類大腦的框架在那裏，也就是模型的結構；其次是訓練模型的數據，相當於給小孩看什麼樣的教材、講什麼樣的課程；第三是如何培養孩子，也就訓練的方法。這三點，決定了我們能訓練出什麼樣的模型。

ChatGPT（資料圖）

觀察者網：現在很多互聯網大廠在宣傳自己模型的時候，更喜歡突出千億甚至萬億的參數規模，這導致行業在模型參數上展開“軍備競賽”，業界也似乎秉持着“模型越大越好”的觀點，您如何評價這種觀點？我們該如何認識一個大模型的水平？

**丁磊：**大模型或模型大隻是單一評價維度，大公司喜歡突出參數規模，是因為他們可以調動的資源更多，比如在算力、數據等層面，他們更有優勢，所以他們更偏向突出模型參數規模的優勢。但是從客觀角度來説，我覺得模型的“深度”更重要。

什麼叫深度？是指模型在某一領域解決問題的能力更強，比如解決數學問題的能力更突出，或者在具體行業應用中，能把某一行業的問題解決的更專業，這就叫模型更深。如果一個模型只是夠大，並不能解決相應的業務問題，或者是隻能解決部分問題，給不出完全正確的解決方案，在很多情況下就會失去用處。因此，除了關注參數規模之外，還要看重模型的深度。

觀察者網：能否這樣理解，大模型的“大”代表的是通用性，如果中小企業沒有能力去煉大模型的話，可以基於大廠研發的大模型，去做更加專用的行業模型來服務自身的業務？

**丁磊：**大部分的中小企業並不會去參與大模型的競賽，相反他們會基於開源的大模型去研發，甚至ChatGPT也都支持在線的訓練和迭代。也就是説，這些中小企業會利用一些開源的大模型，或者在線可以訓練迭代的大模型，去解決他們業務場景的問題，來構建相應的“深模型”，這也是大部分中小企業應該走的路。

觀察者網：現在佈局大模型的大多都是互聯網企業，像國內的阿里、百度、騰訊等，以及美國的微軟和谷歌，互聯網企業在做大模型方面有哪些獨特的優勢？

**丁磊：**互聯網大廠在數據積累方面肯定更有優勢，但我認為開源還是會成為整個行業的趨勢，現在國內外都有開源的大模型，使用的數據大多也都是互聯網上公開的，像OpenAI訓練ChatGPT使用的數據，大多也都是互聯網上可以公開獲得的。大公司獲取數據的速度可能會更快，獲得體量也會更大，但這並不意味着互聯網巨頭在大模型領域有絕對的壟斷優勢。我們之前分析過，實際上訓練ChatGPT這種大模型，實力雄厚的創業公司或者一些中型公司，也都有能力來做這方面的事，不一定只有大公司才能做。

觀察者網：中美在AI領域的競爭最引人關注。馬斯克不久前曾提到，中美在AI方面的差距大約在十二個月左右。而國內一些廠商稱自己的大模型部分能力已超越ChatGPT，並且很快將整體趕超ChatGPT。您如何看待中美在AI方面的差距，國內廠商能否迅速趕超美國企業？

**丁磊：**我覺得與其對比中美，不如對比訓練模型這件事跟互聯網思維模式的差別。各國企業其實沒有本質差別，都可以做訓練模型這件事，但誰能最終做出來，就需要一種新的思維方式。打個比方，包括谷歌在內的互聯網公司研發產品，採用的是“養雞模式”，公司會將“養雞”拆成不同的細分任務，多部門人員各自負責具體業務。

而訓練GPT模型是“養娃模式”，它反而不需要那麼多老師、廚師，核心人物只要少數。也就是説，它很難拆分成完全獨立的任務，必須有固定父母站在全局角度，親自教授培養孩子。所以在這種模式下，谷歌沒有最早做出產品的原因很簡單，現有體系很難在AI領域取得里程碑式的成功。訓練GPT模型本質是一個很難拆解的事，需要公司領導層在技術、業務，甚至資本層都是專家。

另一個簡單的例子就是，美國AI繪畫工具Midjourney，是由一家獨立研究實驗室開發出來的。包括創始人大衞·霍爾茲在內僅有11個人，除了他和財務、法務，核心只有8位研發人員。我也曾在IBM沃森研究中心有過一段工作經歷，IBM的沃森人工智能也曾陷入這種困境——有太多的人蔘與人工智能訓練，資源太多、研發不聚焦，造成項目沒有持續取得成績。

實際上，美國真正專注通用人工智能研發的知名公司也就兩家——OpenAI以及谷歌母公司Alphabet下設的人工智能實驗室DeepMind。就目前披露的信息看，OpenAI創始人奧特曼個人能力非常強，不僅懂技術，也懂商業運作，OpenAI在運營過程中也鮮少受股東制約。OpenAI是長在美國硅谷重視工程師地位的文化土壤裏，有着強大的“工程師文化基因”，簡單説就是工程師可以主導研發，擁有更大自主性，發揮創造性的空間更大。

但OpenAI並不能代表美國的互聯網公司。所以我認為，互聯網公司在訓練大模型這件事上，並不具有天賦基因。它們可以去學，也可以去適應，但它本身並沒有這個基因。他們適合做一件事情，就是像“養雞”這樣的事，或者説更適合做大規模的生產，但訓練模型更像是“養娃”，你不能把這個問題拆分，ChatGPT擁有1750億個參數，我們沒辦法把它拆分成100份1000份，讓不同團隊並行去做，根本做不到。

觀察者網：有沒有可能判斷一下，中美企業在大模型領域的差距，以及追趕的時間表？

**丁磊：**這個沒辦法給出明確的時間表，因為現在主要也就OpenAI一家的大模型在各方面都比較領先。但是我認為，任何一家互聯網企業，如果按照原來的運行模式，很難做出像ChatGPT這樣的大模型，無論中國還是美國企業都一樣。

觀察者網：現在人們容易討論的問題是，為什麼ChatGPT會率先誕生在美國，而中國企業湧入大模型更像是跟風，您怎麼看待這種問題？

**丁磊：**我在硅谷工作多年，非常瞭解為什麼硅谷會出現OpenAI以及奧特曼這樣的人物——是硅谷的“工程師文化基因”造就了他們。OpenAI其實也是一個異類公司，而硅谷擁有技術驅動的傳統文化，可以去忽視短期利益去做長期投入。OpenAI以及奧特曼，本身也有較強的資金基礎，使他們可以進行大規模投入，而大部分公司並不具備做這種事情的先決條件。

觀察者網：我們都知道，人工智能有三駕馬車：算力，算法，數據。在生成式AI概念中，這三駕馬車的重要性有大小之分嗎？眼下英偉達的GPU成為稀缺品，國內AIGC的發展會因為算力因素受限嗎？

**丁磊：**數據、算法和算力都很重要。但是我認為，數據現在比較容易獲得，很多數據都是互聯網上的數據，可以很容易獲得。最核心的還是算法，這關係到模型訓練的效果。

觀察者網：國內很多企業現在訓練中文模型，需要使用中文語料，而中文可使用的語料可能沒有英文那麼廣泛，這會不會導致中美大模型之間產生差距？

**丁磊：**這確實是個問題，英文高質量的語料可能比中文要多，但這其中是不是也可以考慮做一些跨語言的翻譯，然後再做模型訓練。

觀察者網：自ChatGPT爆火以來，無論是馬斯克還是OpenAI的高管，都提出要對人工智能進行監管，甚至還有逾千名專家呼籲暫停巨型AI的研發，他們在擔心什麼？

**丁磊：**我覺得有幾個方面的因素。首先是目前行業對於巨型AI怎麼應用，還沒有準備好，可能會產生一些擔心。其次可以推測，這其中不乏可能有一些商業利益的考慮，比如説我沒造出來，你也別造。第三就是對社會而言，我們要做到科技向善。對技術的發展來説，其實一定程度上是很難停滯的，尤其是提升生產力的技術，很難去暫停它的發展。

但是從政策法規角度進行適當的監管，這個是完全有必要的。比如説我們國家也出台了《生成式人工智能服務管理辦法》。因此，怎麼監管人工智能的發展是更加重要的，而不是説暫停，我認為呼籲暫停研發本身還是有一定的片面性。

丁磊新書《生成式人工智能》

觀察者網：您在《生成式人工智能》一書中提到，AGI（通用人工智能）的出現將推動社會產生極具顛覆性的發展。ChatGPT這種大模型可以被看做是AGI嗎？距離實現真正的AGI，我們還需要跨越哪些門檻？

**丁磊：**作為人工智能領域的一箇中長期目標，AGI技術要不僅能夠執行特定任務，而且能夠像人類一樣通盤理解和處理各種不同的信息，這樣才能成為具有與人類類似或超越人類智能的計算機程序。雖然ChatGPT等模型在自然語言處理方面取得了一些進展，但仍然需要進一步研究和發展，才能逐步向着AGI的方向發展。

我認為，要真正實現AGI必須滿足幾點要素。

首先是跨模態感知，我們將平時接觸到的每個信息來源域稱為一個模態，這些來源可以是文字、聲音、圖像、味覺、觸覺等等。人類天然具有跨模態感知能力，能夠對來自多種感官的信息進行整合和理解。而當前絕大部分的人工智能系統只能單獨運用其中的一項作為傳感器來感知世界，對於不同模態，需要設計不同的專有模型。

第二是多任務協作，比如説給機器人發一條指令，讓它幫忙拿一杯茶，它就會進行指令的理解、任務的分解、路線規劃、識別物體等一系列動作，現在像ChatGPT這種大模型還不具備多任務協作能力。因此，多任務協作是AGI最重要的研究方向之一，旨在讓“通用性”體現為不僅能夠同時完成多種任務，還能夠快速適應與其訓練情況不同的新任務。

第三是自我學習和適應。人類具有學習和適應能力，能夠通過不斷的學習和經驗積累來提高自己的能力。因此，研究如何讓人工智能系統具有自我學習和適應能力也是實現 AGI 的必要步驟。其中主要包括增量學習、遷移學習和領域自適應三個方向。

第四是情感理解。能夠理解並表達情感是人類最重要的特徵，它在交流協作中甚至常常影響事件的下一步走向。當前，不少生成式對話系統的工作尚且將關注點集中在提升生成語句的語言質量，忽略了對人類情感的理解。

第五是超級計算能力。實現AGI需要龐大的計算資源和超級計算能力。為了提升這一能力，人們從不同角度出發，採取多種方法不斷推進就像一輛汽車，人們不斷升級油箱的容量、提高燃料的效率，以實現更遠的行程。

觀察者網：我們能把ChatGPT理解為是一個兒童，而AGI是一個成年人嗎？

**丁磊：**我認為可以這麼理解。