專訪中科院自動化所所長徐波：構建紫東太初——全球首個三模態大模型，“類人智能”的大門正在打開

2021-07-20

【採訪/觀察者網周遠方編輯/呂棟】

人的大腦中，語義是最神秘的。

在神經科學實驗中，當看一張猴子照片的時候，大腦中視覺關聯區域神經活動會更加活躍；聽到聲音，聲音關聯區域神經活動會更加活躍。但是當大腦在想象一隻猴子的時候，大腦更大片區域都處於激活狀態。語義是人工智能技術最難表徵和最難處理的。其實，它就是人的多個感知模態相互融合、相互關聯、相互協同、相互激活的結果。

目前，這種多模態互動的認知過程，正在被人工智能學習。

7月9日，2021世界人工智能大會（WAIC）昇騰人工智能高峯論壇上，中國科學院自動化研究所所長徐波正式報告了跨模態通用人工智能“紫東太初”平台。該平台以全球首個圖、文、音（視覺、文本、語音）三模態預訓練模型為核心，並基於國產化自主AI基礎軟硬件平台（昇騰）開發實現，向更加通用型人工智能跨出一步。

在會後，觀察者網對徐波所長進行專訪，就人工智能發展的現實意義、多模態大模型的發展現狀、中外人工智能的技術對比、三模態大模型的應用案例和未來展望、通用人工智能的路徑探索等話題展開討論。

徐波指出，人工智能是一種賦能技術，未來將成為社會經濟生活無所不在的“發動機”，而“大數據+大模型+多模態”將改變當前單一模型對應單一任務的人工智能研發範式和產業範式，多模態大模型將成為不同領域的共性平台技術，是邁向通用人工智能路徑的探索。全棧國產化通用人工智能平台的實踐更對中國實現AI領域科技創新、佔領核心技術高地具有重要的戰略意義。

徐波在昇騰人工智能高峯論壇發表演講圖片來源：中科院自動化研究所

以下是專訪實錄：

觀察者網：我們看到，中國目前在人工智能技術研發投入上可謂是不遺餘力，作為人工智能行業專家，您認為持續探索人工智能技術創新之路，對整個產業和社會發展的意義是什麼？

徐波：人工智能在本質上是一種賦能技術。隨着社會的持續發展和進步，人工智能作為社會經濟生活的“發動機”，無處不在的推動着多個行業的智能化發展。人工智能在不斷與行業進行融合創新的同時，會出現多種形態的變化，呈現出百花齊放的現象。

人工智能作為新一輪技術革命和產業變革的重要驅動力，已經改變很多現有的流程、理念、生產方式、組織形式，將進一步解放和發展社會生產力，深度改變人們的思想觀念。當前，人工智能正在全方位賦能商業、教育、醫療、製造、交通和社會治理，成為不可或缺的發展引擎。但人工智能發展創新絕非一帆風順，短時間內，相關技術還將經歷一個艱難爬坡、臨界點突破再遇到新的瓶頸這樣螺旋式發展上升過程。

觀察者網：自從國外OpenAI公司的GPT3、華為公司的盤古等人工智能模型出現以來，無監督學習迅速發展，目前預訓練大模型已經發展到了什麼階段？

徐波：圖靈獎獲得者Yann Lecun曾經説過，如果智能是一塊蛋糕，那麼蛋糕的主體是無監督學習，蛋糕上的糖衣是監督學習，蛋糕上的櫻桃是強化學習。人類對世界的理解主要來自於大量未標記的信息。

“蛋糕主體”指的是無監督學習，現在很多人工智能碰到的落地上的可信和魯棒性難題，其本質問題是現有AI缺乏語義級的認知。認知如同浮在海平面上的冰山。自然語言是冰山浮出水面的部分，而理解自然語言的基礎是大量的人類常識、背景知識、領域知識等世界知識，這是冰山水面以下看不到的部分。把這些合起來統稱為“語義空間”。現有的AI系統很難把這些語義空間加以全面準確的表達。例如，“張三吃大碗”、“張三吃食堂”、“張三吃麪條”這三句話。“張三吃大碗”並不是説張三把大碗吃掉，“張三吃食堂”也不是要把食堂吃掉，這種表述背後的邏輯可能是食堂是吃飯的地方，很多人都在食堂吃飯，張三家裏可能沒做飯，所以在食堂吃飯。對人工智能來説，必須有這些相關的背景知識，才能理解“張三吃食堂”這句對人來講很容易理解的話。人工智能需要學習很多背景知識才能理解自然語言。這就是“認知冰山”問題，冰山海平面之下才是獲得認知的關鍵。有的人工智能專家把這些大量的背景知識稱作人工智能的“暗物質”。怎麼把這些“暗物質”挖掘出來放在一個系統裏？無監督學習是一條路徑。

這些的“暗物質”隱含存在於我們的圖片、日常對話和海量文本中。但是，目前的預訓練大多數還是單模態。“百聞不如一見”，可能很複雜的語義表述只需要看一張圖片就能理解。同時，人類的聲音還藴藏着情緒和感情，只有準確捕獲這些細節信息，才有可能懂得語言背後真正的含義，而不僅僅是文字表面的意思。那麼，我們如何才能同時有效把聲音、圖片和文字這些信息都整合起來呢？

這次，我們在武漢人工智能計算中心算力支持下研發的全球首個三模態大模型“紫東太初”，在實現圖、文、音的統一表達方面取得重要進展。已有多模態預訓練模型通常僅考慮兩個模態，如圖像和文本，或者視頻和文本，不但忽視了周圍環境中普遍存在的語音信息，並且模型不好兼具理解與生成能力，難以在生成任務與理解類任務中同時取得良好表現。我們首次將語音信息引入，並通過一個統一語義空間網絡表達生成三模態模型，可以把剛才提到的“認知冰山”或“暗物質”的龐大語義空間學習出來，能更加接近人類真正的感情和思考。特別的，由於側重交互功能的語音的加入，使我們的大模型一下子變“活”了，使人工智能邁向更高層次的通用型人工智能方向發展。

“紫東太初”三模態訓練模型採用了多層次多任務自監督預訓練的學習方式，論文已經公開發表。最重要的是提出來三模態數據的語義統一表達，可同時支持三種或者任兩種模態的若干數據預訓練。這個模型不僅可以實現跨模態理解，還能實現跨模態生成，做到理解和生成兩個最重要的認知能力的平衡，首次實現以圖生音，以音來生圖的功能。

三模態大模型可能把更多人類許多與生俱來的東西學習出來，把“認知冰山”水面以下的東西能進行挖掘和表達。另外，單模態預訓練模型無疑越大越好，但三模態模型的重點更在於探索如何讓它更“巧”。三模態大模型要做好還要下很多功夫，但我們已經在正確的方向上邁出了重要的一步。

觀察者網：多模態大模型“紫東太初”名稱的內涵，是不是包涵了某種開天闢地的意義？

徐波：可以這麼理解，就是相當於人工智能走向類人智能的一個混沌初開之際，也是感知智能走向通用智能重要的第一步。

一個比較有意思的話題是，人工智能領域之外的人，比如哲學、科幻領域，特別喜歡討論人工智能的一些終極問題，例如機器人可能統治人類，同時涉及一些更高層面的倫理問題。但絕大多數人工智能領域的科學家非常清楚地認知到現有人工智能距離真正的人類智能相差甚遠。

在成功研發“紫東太初”三模態模型後，我們似乎感受到比現有人工智能更為強大的通用型人工智能大門正在打開。有時候，我們甚至在思考怎麼讓人工智能依附一個好的軀體，更好地感知到自然和社會環境中的信息，把類似情緒和情感的信息做進一步的處理，AI將會有更大的發展和比較好的靈活性。這種門檻一旦突破，人工智能的發展很可能會出現指數型的增長。這是一個即將呈現爆發式增長的領域。

觀察者網：這個多模態大模型的技術水平，跟國外同行相比怎麼樣？

徐波： “紫東太初”是全球首個三模態大模型。目前，全世界研究單模態大模型（圖像、文本）的人比較多，研究語音大模型的相對少一些。我們是少有的同時具備圖、文、音研究儲備和基礎的研究機構。這次自動化研究所繫統整理收集了積累多年的多模態數據庫，並把圖、文、音三個模態統一起來，在一個共同的語義空間去做相互的轉換和統一表述，這在全球是首次。通過巧妙的構建一個多模態大模型，我們的圖像技術、語音技術和文本技術都超越了現有最好水平。過去業界習慣用有監督的學習，而我們的技術對有標註數據的依賴性較小，改變了人工智能訓練需要標註好的大數據的固有模式。

首先業界領先性能的中文預訓練模型、語音預訓練模型、視覺預訓練模型是我們三模態模型的基礎。比如，視覺的預訓練模型，首次實現超越有監督學習的性能，速度比其他的方法提高8倍，在語義分割的結果上，也超越了有監督學習的水平。在中文預訓練模型裏面提出來任務感知和推理增強的模型，性能相比比GPT-3明顯提升。語音預訓練模型，針對語音領域語種多樣、標註成本高的問題，實現了基於語音預訓練的多語言、多任務、低資源關鍵技術的突破，使我們用很少的有標註數據就可以實現語音識別的性能大幅度提升。

然後我們在統一的語義空間網絡表達上實現了模態之間的高效協同和相互轉換，在多任務上取得了更卓越的性能。在跨模態檢索和圖文語義轉換方面，都比兩個模態具有更豐富的表達跟生成能力。語音加入後，使得我們的大模型可以跟人類做自然流暢的交互。這意味着，我們人工智能技術在共性的語義空間表徵方面取得了重要進展。

觀察者網：AI應用場景的碎片化需求，正在成為AI算法落地面臨的最大挑戰。而三模態大模型能夠實現多模態對話，視頻播報，以音生圖，以圖生音，非常有意思，未來是否有可能所有問題都會通過統一的大模型來解決？

徐波：我覺得非常有可能。我們人類主要有兩種能力，一種是與生俱來的能力，到了一定的年齡，通過基本的學習就能自然的學會説話、走路。另外一種是專業技能，如果要學會彈鋼琴、水墨畫等，仍然需要長時間的專業訓練才能實現，因為這改變了人的特定知識結構。

多模態大模型為通用人工智能的研究奠定了非常好的基座。人類基本的知識、常識，看到的一些場景、物體，以及從物理世界看到的很多東西，都可以隱藏在這個大模型裏面。比如要做語音識別，現在用很小的數據量就可以了，甚至可以逐漸做到不需要有監督的數據學習。

預訓練模型作為基座模型雖然不是萬能的，但是人工智能的研究範式和產業範式也會出現一些變化。比如説，現在產業都在講算法開源，但算法的維護成本很高，尤其是現在人工智能的人才很稀缺，未來人工智能領域開放的可能是模型，客户獲得大模型的接口再稍微加一點數據就能解決問題，即“大模型+小數據”，這是我們未來希望看到的大模型對產業帶來的賦能。這個大模型技術從學術成果向產業轉化可能還需要一個過程，但我認為不會太久，未來2-4年之內這些新技術都會逐漸得到應用。

觀察者網：能不能具體講一下紫東太初這個多模態大模型以音聲圖、以圖生音的應用案例？

徐波：以圖生音為例。可以不經過文本，直接在一個共通語義空間做轉換，就是語義到語音的直接合成。以音生圖，它不是先識別語音，再做文本的檢索，而是直接在一個語義空間裏面把這個聲音轉換成圖像。所以我們為什麼説這個是通用人工智能路徑的探索，就是通過圖文音三個模態固化出一個人類非常模糊但是非常有用，只是不知道人類大腦是怎麼表達的一個語義空間的表徵。

生成語音：一架大型飛機在天空中飛翔

輸入語音：一個人在滑雪板上翻轉在空中

除此之外，我們還可以給出一個多模態大模型的互動演示，涉及到很多的語音識別，語音合成，包括對圖像的描述，中文的續寫等等，通過語義空間直接的轉換來完成。

這一系列的展示，是非常類人的多模態交互。它可以任意輸入語音、圖像或者文字，去輸出語音，圖像和文字的任意一種，真正實現三個模態之間的關聯跟協同。它們中間就是我們講的“統一的語義空間”。

這裏主要表達三個觀點，一是大數據+大模型+多模態，將改變當前單一模型與單一任務人工智能的研發模式，多模態大模型將成為不同領域的共性平台技術。其次，在目前的研究當中，有一種慣性思維是做人工智能都要用大數據，而當知識與數據混合驅動，增強模型的可信、可理解能力後，我相信隨着這些技術的發展，人工智能學習對有標註的數據的依賴性會越來越小。

此外，國產化通用人工智能具有很高的技術門檻，需要大量的資金與數據的支撐，將使得人工智能的研究規則發生重大變革，對我國實現人工智能領域科技創新，佔領核心技術高地具有重要戰略意義。以圖生音，以音生圖，效果甚至出乎我們自己的想象，這也帶給我們一項啓發，讓我們對未來的人工智能又增加的無窮的想象力。所以，多模態大模型人工智能值得我們進一步去探索，值得我們進一步探索更巧結構、更大規模、更強理解能力的模型以及相應的評估標準，也值得我們把這樣的技術跟產業需求更好的結合起來。

再舉一些生活化的例子。比如説，利用大模型可以實現歐洲盃轉播的人工智能自動解説；在影視拍攝領域，可以根據劇本的文字自動生成畫面和場景，供導演再加工；在教育領域可以根據語義內涵，自動生成畫面和聲音、甚至生成全新的音樂（而非在既有樂庫中選取），類似實現媽媽給孩子講故事等功能，讓人工智能具備初步的想象力和藝術創作力。其實這與人類大腦工作機制是比較類似的。

觀察者網：紫東太初能夠快速麪世，主要原因都有哪些？

徐波：這涉及到多方面的原因。

首先，主要得益於非常強大的基礎研究能力。通過多模態實現更加強大的人工智能一直是我們的夢想。從去年開始，在各研究團隊單模態大模型取得階段性成果基礎上，我們組織所內優勢力量聯合投入開始多模態攻關；第二，我們以中國自主的昇騰人工智能基礎軟硬件平台為基礎，運用包括昇騰芯片和全場景人工智能計算框架MindSpore來打造多模態通用人工智能平台，通過對外交流合作大大加速了這個過程。目前平台具備了三大關鍵技術（多模態理解與生成的多任務統一建模、面向國產化軟硬件的高效訓練與部署、多模態預訓練模型架構設計與優化），和六項核心能力（多模態統一表示與語義關聯、跨模態內容轉化與生成、預訓練模型網絡架構設計、標註受限自監督模型學習、模型適配與分佈式訓練、模型輕量化與推理加速）。

在這裏，要糾正一個誤區。模型並不是越大越好，大模型出來以後怎麼做輕量化和推理的加速，是攻關的重要方向之一。目前的圖文音三模態大模型，與單模態和圖-文兩模態相比，可以支撐全場景的人工智能應用，包括像視頻配音，語音播放，標題摘要，海報製作，跨模態檢索，圖像生成等等。

此外，三模態大模型跟國產軟硬件的技術合作非常關鍵。未來人工智能將成為人類社會的基礎設施，就像現在的水、電、煤一樣，必須實現此類技術的自主可控。目前，國內已經具備全棧式基礎軟硬件條件能力，要做到“從可以用”到“很好用”的成熟生態，需要多方一起合作。

觀察者網：作為人工智能領域的國家隊，中科院自動化研究所多模態大模型是如何佈局的？

徐波：中科院自動化研究所以打造新時代智能科學與技術戰略科技力量作為己任，擁有模式識別國家重點實驗室、複雜系統管理與控制國家重點實驗室兩個人工智能研究平台。依託這兩個國家級平台，已經在機器學習、圖像與視頻、語音與語言、智能機器人、智慧醫療、社會計算等領域取得了豐富的研究成果，獲得多項國家級的獎項。

我們一直在探索更強大的人工智能，通過多模態實現更加通用的人工智能是其中一條研究主線。通用智能不同於強人工智能，但它至少應該適應不同的環境和任務遷移。我們在已有語音、圖像、視頻、文本等單模態研究基礎上，重點在多模態學習基礎理論、多模態語義統一表示、大規模訓練平台、多模態數據以及評估標準等方面進行多團隊聯合攻關。

同時我們不斷加強對外合作交流。我們通過跟華為昇騰以及武漢人工智能計算中心的合作，最終使多模態大模型得以問世。通用人工智能之路需要不斷探索，而不是坐而論道。只有真正做出一些階段性成果才能對技術發展路線有更加清晰的認識，也能對未來人工智能的發展有更加清晰的認知。

武漢人工智能計算中心

觀察者網：你們在研究多模態大模型的時候有沒有考慮到AI的產業化和普惠性的問題？

徐波：這個問題仍然需要進一步探討。現在市場上有大量的音視頻處理需求，確實跟我們的多模態信息處理能力很契合。“紫東太初”剛剛誕生，在有些場景下已經開始使用。下一步，我們準備繼續優化這個平台，按照節奏規劃對外開放。同時，我們將把更多的精力聚焦在多模態大模型上面，把它做的更準確，效率更高、能耗更低。這將為現在的人工智能研發模式和產學研轉化模式帶來巨大變化。

觀察者網：最後一個問題，為什麼説研究跨模態人工智能平台是通用人工智能路徑的探索？

徐波：通用人工智能大家都比較關心，因為它將對現有的人工智能研發範式起顛覆性影響。但是，什麼是通用人工智能？是不是就是強人工智能？是不是就是跟人一樣的人工智能？這些都還沒有特別明確的定義。但是業內普遍認為，通用人工智能要有一種“泛化能力”，一定要用較少的代價去完成多任務的遷移執行。

通用人工智能一直是技術界的一個夢想，不同的專家都在從不同的路徑去探索。有的人希望通過複製人腦或者受腦啓發去實現通用人工智能；DeepMind是希望通過進化博弈的方法，最終走向通用人工智能。預訓練大模型則是基於數據自監督學習的智能探索。不同路徑解決的階段性問題各有側重，但最終一定會融合。目前走在最前面的還是多模態大模型，“紫東太初”是最新的嘗試，尤其是語義空間的表徵突破，會對人工智能實現通用化帶來非常大的變化。

無疑這扇大門正在打開。

本文系觀察者網獨家稿件，文章內容純屬作者個人觀點，不代表平台觀點，未經授權，不得轉載，否則將追究法律責任。關注觀察者網微信guanchacn，每日閲讀趣味文章。