深度求索之後,一種古老的AI方法重新獲得關注——彭博社
Shirin Ghaffary
深度求索標誌。
攝影師:安德烈·魯達科夫/彭博社深度求索的成功引發了對一種名為"專家混合"人工智能技術的重新關注。但首先…
需要了解的三件事:
• OpenAI即將完成由軟銀領投的400億美元融資• 據TD Cowen稱,微軟放棄數據中心項目• 科技巨頭與外國領導人敦促特朗普重新考慮AI芯片限制
高性價比的AI方法
如果你現在參加舊金山AI圈的晚宴對話,很有可能會聽到有人在討論"MoE"。
這個縮寫代表專家混合法,這是一種已有數十年曆史的人工智能系統構建方法,由於中國AI開發者而受到更多關注。深度求索特別指出該技術是其構建更高效R1模型的關鍵,該模型震撼了硅谷。最近,馬雲支持的螞蟻集團表示已採用中國芯片訓練出採用專家混合法的新模型,同時大幅降低了開發成本。
採用這種方法,開發者將人工智能系統拆分為不同的子網絡或"專家模塊",每個模塊針對特定任務領域進行專項優化。混合專家模型被視為提升AI計算效率的有效途徑——這對受限於高端芯片獲取的中國開發者而言尤為重要。
在混合專家系統中,只需激活與用户查詢相關的專家網絡,而非調用整個神經網絡。這使得開發者能在不增加過多算力消耗的情況下,通過增加參數數量(即決定AI模型行為與智能水平的變量)來提升模型性能。
威斯康星大學麥迪遜分校教授Grigorios Chrysos(其研究團隊曾發表相關論文)表示:“這與現實世界中專家協作的模式非常相似。就像數學專家可能同時精通其他領域,但任何人都不可能通曉所有學科。”
該技術理念可追溯至1991年題為《自適應局部專家混合》的機器學習論文,文中提出構建由多個專業子網絡組成的AI系統,每個網絡專注處理特定訓練數據。系統包含"專家網絡"和根據任務分配流量的"門控網絡"。
但該技術歷經25年才獲得廣泛關注。2017年穀歌研究團隊發表論文,將混合專家模型應用於支撐現代AI聊天機器人的大規模語言模型,並解決其與現代硬件芯片的適配問題。即便如此,由於技術複雜性,該方法並未立即在語言模型領域普及。
“由於技術較為複雜,前沿模型花了幾年時間才採用這一方法,”論文第一作者諾姆·沙澤爾表示。他離開谷歌聯合創立了Character.AI公司後又於去年迴歸這家搜索巨頭。“可以肯定的是,目前谷歌所有前沿模型都採用專家混合架構,至少從Gemini 1.5開始就是如此,”現任谷歌DeepMind工程副總裁兼Gemini聯合負責人的沙澤爾補充道。
諾姆·沙澤爾攝影師:温妮·温特邁爾/《華盛頓郵報》AI專家推測其他主流模型開發商多數也在使用該技術,只是較少公開披露。例外是法國AI初創公司Mistral,其去年發佈了名副其實的"專家混合"模型,該模型基於MoE技術路線。
“雖然無法確知所有AI實驗室的具體架構,但我推測它們都在使用某種形式的專家混合技術,”斯坦福大學計算機科學教授珀西·梁表示。
不過該方法存在侷限。開發者無法刻意編程讓模型專精於特定領域(比如地緣政治或Python編程),這些專家子網絡是在訓練過程中自然形成的,類似於神經網絡的整體發展方式。
在性能方面也存在權衡。Shazeer表示,一個僅激活部分網絡的“稀疏”混合專家模型(MoE),可能不如激活整個神經網絡的同等規模“密集”模型。“如果你有一個大腦卻只使用其中的10%,那肯定不如完全使用整個大腦來得高效。”不過MoE方法能讓大模型消耗更少的算力。在深度求索公司宣稱以美國頭部開發商極小成本構建出競爭力模型後,這種提升模型效率的潛力對硅谷的吸引力愈發凸顯。
“由於數據和計算資源的限制,我們從未想過能將這種方法擴展到如今數千名專家的規模。”Chrysos表示,“我認為未來一年學術界將在這個領域迎來爆發式發展。”
**關於AI有疑問?**歡迎郵件聯繫Shirin Ghaffary,我將在後續通訊中為您解答。
OpenAI的病毒式傳播時刻
就在谷歌發佈最新Gemini AI模型的同一天,OpenAI通過一場突襲發佈會成功搶鏡,展示了ChatGPT中更強大的圖像生成功能。該公司員工以日本著名動畫工作室吉卜力(代表作《千與千尋》)的風格生成自畫像後,網絡迅速湧現各種吉卜力風AI創作——從情侶卡通肖像到歷史名場面改編。更具爭議的是,白宮官方賬號發佈了女性被拘押的卡通圖像。
OpenAI迎來了其病毒式傳播時刻,以至於公司系統不堪重負。“我們的GPU正在融化,“首席執行官薩姆·奧爾特曼週四上午發帖表示。但在此過程中,這次發佈也再次引發了版權問題。從法律上講,AI公司能在多大程度上使用包括卡通工作室在內的獨特創意知識產權,仍是一個懸而未決的問題。一些人還重新翻出了吉卜力工作室聯合創始人宮崎駿的一段舊視頻,其中他對有人向他展示的AI輔助動畫表示厭惡,稱其"令人作嘔”,是"對生命本身的侮辱”。
本週人類語錄
“我開始看到某種泡沫的苗頭。”
蔡崇信阿里巴巴集團主席
蔡崇信警告數據中心建設可能形成泡沫,認為建設速度可能超過AI服務的初始需求。他表示,一些規劃中的項目在沒有確保"使用"協議的情況下就開始籌集資金。“當人們開始投機性地建設數據中心時,我開始感到擔憂。現在有很多人冒出來,基金湧現,籌集數十億或數百萬資金。”### 關注人物
彭博社的朱莉婭·洛夫解釋了谷歌的伊麗莎白·裏德的實驗性方法如何幫助公司應對生成式AI的挑戰者。她將與卡羅琳·海德一起出現在"彭博科技"節目中。### 深度學習
更多彭博社資訊
訂閲《科技內參》及更多彭博科技簡報:
- 《網絡公報》——揭秘黑客與網絡間諜的暗黑世界
- 《遊戲進行時》——深入電子遊戲產業
- 《開機啓動》——蘋果獨家消息與消費科技動態
- 《熒幕時間》——直擊好萊塢與硅谷的碰撞
- 《聲音片段》——播客、音樂產業與音頻趨勢報道