一場九年前的“出發”:奠基多模態,逐鹿大模型_風聞
谭婧在充电-谭婧在充电官方账号-偏爱人工智能(数据、算法、算力、场景)。-06-01 00:55
原創:譚婧

全球AI大模型的技術路線,沒有多少秘密,就那幾條路線,一隻手都數得過來。
而舉世聞名的GPT-4渾身上下都是秘密。
這兩件事並不矛盾。為什麼呢?
這就好比,回答“如何製造一台光刻機?”。
“所需要的任何數學公式、物理學定律和工作原理,都可以在任何一所理工科大學的圖書館裏找全,但是這距離製造出光刻機,完全是兩碼事,中間需要解決的工程問題是數以十萬級。”
光刻機的例子來自曾任微軟雷德蒙德研究院深度學習技術中心的首席研究員,現任京東集團副總裁、京東科技智能服務與產品部負責人的何曉冬博士。
將技術做到極致,人類智慧正在打開“機器智慧”的魔盒。
極致背後的奧秘被多位科學家以畢生之經歷數次總結。
我於2021年7月收藏了何曉冬博士在京東AI研究院內部分享的九條經驗,頻頻回顧,總有收穫。
分享得到了他的允許。
在這九條經驗中,何曉冬博士不僅再次強調了“工程能力”的重要性,而且毫無保留地將他心中的普世科研真諦遞給麾下科研人員。
如今,大模型的爆發將AI工程實踐推向了一個嶄新巔峯。在何曉冬博士看來,AI在科學原理意義上的進步,離不開工程的極致實現。
這是一個“既要”“也要”的難題。
歷史反覆證明,技術是創新的核心,但它也需要資源和管理的加持才能產生預期的成果。所以,創新不是技術的獨角戲,而是與資源與管理的合奏曲。
當今世上,一個人一支筆依然可以拿諾貝爾文學獎,但一個人就想造出有競爭力的千億參數的AI大模型,已絕無可能。

那些容易被忽略的細節,科技觀察者應該重視。
當某一技術路線蓄積爆發的力量,那麼多年前這個技術路線上奠基論文的引用數量就會突然間增長。
時隔五年,一篇完成於2018年,關於注意力機制的論文(“Bottom-up and top-down attention”)引用量,悄然增長(截至發稿前4028次引用)。
這篇論文的學術價值在於,在更高層次上提出一個比較基礎的問題:“跨模態的語言和圖像信息,在語義層次怎麼對齊?”
假如哪位讀者對多模態技術感到興奮,那“對齊”這個詞,定是“後會有期”。
稍作論文綜述與歸納就會發現,這篇論文是更早期三篇論文的“集大成者”。文中提出了一種非常創新的注意力機制。前三篇之一的論文“Hierarchical attention networks”,截至我的這篇文章發稿前,有4953次引用。一般來説,AI領域論文引用量在一千以上就算較高。
而今看來,三篇蓄力一篇發力的技藝讓這套“三+一”的論文有了里程碑式的意義。

有趣的是,過去五年,CVPR會議發表的所有論文中,“Bottom-up”這篇論文排名前二十。
更有趣的是,排名前二十的論文中,只有“Bottom-up”這一篇是有關多模態的。
要我説,排名前二十的論文中,按多模態技術排名,這篇論文排第一。(因為前19篇都是關於計算機視覺的,哈哈。)
這項多模態學術論文奠基工作來自何曉冬與京東雲言犀人工智能應用平台團隊。
CVPR在世界上所有期刊和會議文集中排名第四,有多少AI科研工作者宵衣旰食、不辭勞苦都是為了在會議截稿前爭取“一張門票”。
CVPR有一個指標(H5因子),在此發表的重要工作(不是所有工作)的科研價值已經跟科學雜誌Nature(《自然》),Science(《科學》)處於同一水平。
從2014年的第一篇發佈至今,日月不居,匆匆九年。
多模態技術之於大模型重要性不言而喻,時間會等待想法不同的人最終到達同一個目的地。
在這九年中,2018年是一個特別重要的年份。
那一年,何曉冬出任京東AI 研究院常務副院長。
那一年,何曉冬博士團隊用文生圖算法(AttnGAN)生成了一張小鳥“照片”。
可以説,這是人工智能文生圖的“古早小鳥”。

那是一隻紅羽毛白肚子的短嘴小鳥,胖憨可愛,加上兩道黑粗劍眉,神似風靡全球的遊戲“憤怒小鳥”裏的主角。何曉冬博士告訴我,他喜歡給階段性工作留下紀念品,這隻小鳥有段時間是他的手機屏保。
那一年,時光彷彿打開了一扇門。他從門縫中看到了一個更大的空間,一個從未見過的空間,他對到達那個空間充滿信心。
何曉冬博士説:“不只是我的團隊做大模型要走多模態這一條路,其他團隊也得走這條路。”
“走多模態大模型技術路線,就一定會決策要在哪個層次做多模態融合。“他強調。
顯然,這是在考驗科研團隊帶頭人的決策能力。
“這是一個科學問題。”何博士説。我補充道:“這是一個離應用非常近的科學問題。”
何曉冬博士點了點頭,表示認可。
諦聽於此,心潮澎湃。
此前我一直認為,在大模型的世界裏,多模態技術還有很大機會。
我請教何博士幾個令人興奮的技術問題:
1.要實現多模態大模型的湧現,現在的Transformer模型架構是否足夠?Transformer模型架構有沒有必要做底層改變?
何博士説,也許有必要,也許沒有必要,需要探索研究。
2.是在語義層面對齊,還是數據層面對齊?
何博士的觀點是,在語義層面,或者更低。
我認為,多模態大模型的起點是語言大模型。
也就是説從某種程度上,語言大模型的科研水平和工程能力是大模型的堅實基礎。
一開始,何曉冬與言犀團隊語言大模型的發展目標是使其具有更強的語言能力,特別是語言生成能力。這種能力很快在京東就用起來了。説白了,寫商品文案能寫得越來越好。
團隊的大模型原創性工作包括10億規模參數的K-PLUG大模型。K代表knowledge,知識。這個大模型從2019年開始推動,到2021年就成熟了。
京東畢竟是一家擅長於用技術推動零售生意的企業,基於京東雲言犀AI應用平台的基礎能力,內容審核,拍照購、商品營銷文案生成等多種應用應運而生。
比如,在京東商城裏,商品營銷文案工作量大,文案生成很有必要,且已覆蓋到商品三級類目(服裝,女裝,連衣裙),已達3000餘個三級類目。
清點一下總體工作量,K-PLUG大模型累計生成超30億字,直接帶來了至少3億元人民幣的收入。
我向團隊中的吳博士和張博士瞭解到,文案生成場景有一個有趣的地方,文案生成後要人工審核,而通過率就好比成績單,目前成績是95分(滿分100分)。因為通過率已經超過了95%。
產業場景對大模型的常態是“苛求”。
團隊發現,很多產業應用對“生成內容”的忠實度和可靠性要求極高,營銷一個商品不能一味堆砌讚美之詞,真實的讚美尤其重要。
日常推薦冰箱都會談到綠色節能製冷好,但是情況不適用於奢侈款冰箱,節能不是奢侈款冰箱的優勢。
在傳統語言模型時代,很可能會把一些詞就放上去了。對冰箱產業鏈來講,忌諱“有名無實”,把不存在的“亮點”硬塞給商品,商家完全不可能接受。
何曉冬與言犀團隊不會只做一個技術路線,大模型背後有很多嘗試工作,或者説創新本身就包含多種嘗試。
團隊的大模型原創性工作還包括一個多模態文本生成模型。也就是説,現有的兩類大模型將會是未來京東產業大模型的重要組件。
團隊對大模型的技術佈局,既是場景推動,也是產業推動。
那麼,團隊的當下聚焦與未來遠景分別是什麼?
目前聚焦AGI,第一步做通用語言大模型。
第二步做多模態大模型(在這步一定會決策在哪個層次做多模態融合)。
何曉冬博士説,接下來,團隊會從文生圖技術着手。
“文生圖會是很好的一個牽引性的應用。”何曉冬博士説,“雖然這是科學問題,但我們還是希望有一個應用來牽引。”
這也是一個非常務實的做法,對何博士來説,產業落地始終是不懈追求。
第三步,當通用智能向前進發,除了多模態技術非常關鍵之外,數字智能會走向實體世界。物理世界中的機械體,不管是手臂,機器人,還是無人駕駛汽車,將通用智能賦予機械體會是一個巨大飛躍。
未來,人均畢業於哈利·波特的母校霍格沃茨四大學院,這是不是會讓人感到害怕?
2017年美國耶魯大學的一次會議上,何曉冬博士和美國波士頓動力機器人團隊有一場令雙方興奮的交流。
何曉冬博士説,如果把多模態認知智能裝到機器狗裏去,會發生什麼?
比如,去隔壁小賣店幫我買一瓶可樂。這個對人類小孩來説是簡單任務,對機械狗來説是高難度的。複雜環境下的定位,識別,外加推理、數學、對話等“技能”。
能不能進店?
認不認識可樂?
買回來口香糖怎麼辦?
機械狗可能也會為自己犯下“花式錯誤”辯解:“起猛了,犯錯有點多。”
何曉冬博士的觀點是,比較之前的感知智能,認知智能進入到一個學習曲線更加陡峭,也就是説,更加艱難的學習過程裏。
越是難走,越無法預判出人類走出這條“山路”的時間。
難在何處呢?
到了認知智能這個層次後,學習會變得困難。而在感知智能這個層次,你可以很清晰地告訴計算機,識別錯了,改過來。打標籤就是公佈答案。反覆試驗(trial and error)這個機制很清晰。
然而,認知智能則行不通。
人們常説:“一千個人心中有一千個哈姆雷特。”在認知智能這個層次,情況變得微妙和複雜,也就是説,AI要理解事務的複雜性,涵義的寬泛性。一幅畫,每個人都有自己的理解,也許各個角度的描述都是正確的,那麼如何設計訓練?
這個問題我們遇到了,美國公司OpenAI肯定也遇到了。人類反饋是非常重要的技術。人類可能只能給出一些非常大致(general)的反饋,但是很難給出非常細節(detail)的標註。
日前,很多人對大模型無止境的算力,數據,參數量的增長,持悲觀態度,擔憂有可能形成新一輪的技術壟斷。
那些中小企業勢窮力盡也不能從零造出世界領先大模型,他們的訴求是“用”。在這一點上,何博士做了樂觀的判斷。

何博士描述了兩個台階。
第一個台階很難邁上去,踏步難度大。
在這個台階,我們製造一個通用大模型,通識能力強,異常困難,且所費不貲。
當大模型具備了信息壓縮、邏輯判斷與推理等良好能力之後,下一個台階的踏步高度就會降低。
“門檻”變低的技術原理是,大模型能力強了之後,下一步“微調”,算力成本也降低。
此時,產業受益之處就體現出來了。
產業利潤低窪地的企業,以及供應鏈上地位低的中小企業都有機會用上“大模型”。如此一來,不僅不會加大數字和技術鴻溝,還會產生普惠價值。

先拋一個問題:“我昨天在電商下單的手機今天什麼時候到?”
從技術的角度,這個問題內容簡短,意圖清晰。
只可惜,ChatGPT回答不了。
因為答案不在公共信息裏。
想回答這個問題,ChatGPT就得知道在哪裏下單,得接入電商業務系統,包括訂單、下單、倉儲、物流。
毫無疑問,一個相對獨立的“領地”,會有獨特的場景和數據。
毫無疑問,這樣的“領地”有成千上萬個。
在京東,僅靠“實驗室指標成功”和“比賽打榜第一”的技術結果,這些都遠遠不夠。
因為京東對購物體驗要求高,人類客服都不能服務差,更別説機器人了。所以,從技術走到服務這個過程必須在京東內部有非常嚴格的驗證,驗證邏輯就是直接和人類服務對比。
“服務水平”差,那個技術就完蛋了,用不了。
舉三個例子,體會“獨家難題”。
第一,京東智能客服有一個指標叫“首句掛斷率”。這很好理解,操着某某濃厚方言又不着五六的腔調的電話和你説人貨錢,你不僅不信,而且想掛斷。
人在通電話時也會被掛斷,但是,智能客服被掛斷的比率一定要接近人類客服掛斷比率。
家電大件商品配送貨的時間預約電話,接起來一聽就是機器人的冰冷聲音,電話瞬間被掛,實在很耽誤事。
第二個例子是售後。
比如用户帶着售後問題來了,得儘快把人家的問題解決掉。這時候,客服不需要“嘴甜留人”,而是儘快理解人家之所急,給一個滿意的方案,然後,就沒有然後了,服務結束,滿意而歸。
聊天時間長,閒扯能聊,這都不是對售後智能客服的要求。
用技術語言來總結就是:人機對話中,通常帶有明確目的指向,需完美解決客户售前售後諮詢、價保、交易、支付、配送、退換貨服務等各環節需求。
第三個例子是400熱線。用户來電投訴,誰也不會準備投訴的演講稿,再照稿朗誦。用户想怎麼説都行,一邊説一邊想,想停就停。
半句話,倒裝句,車軲轆話,能不能聽懂?
説錯了,再糾正,能不能理解?
旁邊有人説話,有電視聲音,能不能區分?
這些都是在語音交互裏面的難點。
第三個例子,雖然口語談話打斷習以為常,但曾經是個技術難點。比如,智能客服説完了,輪到人類發言了,人類可能在思考。
猶太諺語説:“人類一思考,上帝就發笑。”
機器人怎麼知道對方説完了?
比如,超過2秒對方就不説了,寫這麼一個規則夠用嗎?我們很難寫一個規則讓大多數人舒服。
對此,何曉冬與言犀團隊用一個多模態的話語決策模型解決。原理是,通過語音信號、停頓時間、語意完整度、語氣相關等多模態信號綜合做動態決策模型,來判斷人類是説完了還是在思考,等對方表述結束,再去接話。
恭而有禮,莫過於此。
一般人認為客服不就是對話機器人,有語言文字能力強的大模型,情況並非如此。
京東需要多模態大模型。
在京東,有400電話(聲音);有商品照片(圖片);有安裝指南(視頻);有好評如潮(文字)。
模態是一種學術詞彙,更準確而久遠的來源是和“信號”相關的。簡單理解,不同種類的數據就是“模態”。
這些多模態信息,需要多模態大模型來處理。
所以,不用好奇京東這裏會成長出什麼樣的大模型。多模態是一個順承並滿足業務場景需求的技術路線,以此類推到與京東密切相關的產業,比如零售,比如金融。
京東科技智能服務與產品部門的出現,就是因為京東日益增長的客服業務需要一支專門的技術團隊,把內部所有的客服單獨拿出來用“智能”來解決。多年以來,陸續將技術和能力沉澱成一個可用的產品能力平台,就是言犀平台。
“我們平台(京東雲言犀人工智能應用平台)有40多個獨立子系統,3000多個意圖和3000萬個高質量問答知識點。”何曉冬團隊的吳博士説。
京東全量智能服務的技術經驗,加上在京東零售、物流、健康等多類業務的多年實踐,體量做到了日均千萬次智能交互。
談笑間,那些輕量化模型任務(信息抽取、語音識別、方言語音識別、關鍵詞識別、語義識別、情感分析)早已“拿下”。
京東生意額增長,帶來“三高”要求:真實場景要求高,用户體驗要求高,大規模服務要求高。
所以,高難度的技術問題內部早已入手研發,內容生成,複雜語義理解或意圖識別,多輪對話決策推理都是重點。
何曉冬博士是自然語言處理和跨模態智能領域極具影響力的科學家。在AI2000人工智能全球最具影響力學者榜單中,同時入選三個領域(NLP、Speech、IR),為全球60人之一。
他是教授,也是IEEE Fellow,他雖然有極強的學術背景,但特別重視技術的應用前景。何曉冬團隊的技術領域的積累建立在200餘篇學術論文、近4萬次學術論文引用、5.8億用户真實場景的練兵場上。對於有能力挑戰的人來説,難度越高,能把技術水平提得更高。
2023年5月6日,第十二屆吳文俊人工智能科學技術獎正式公佈,京東雲言犀團隊憑“任務型智能對話交互關鍵技術及大規模產業應用”,斬獲吳文俊人工智能科學技術獎科技進步獎。
“產生了逾20億元的直接經濟效益和良好的社會效益,促進了零售、物流、金融、政務等相關產業的快速發展。” 組委會點評。
與此同時,何曉冬博士獲得了吳文俊人工智能科學技術獎傑出貢獻獎。
“他的耐心是一種鼓勵。”
“他擅長指明方向,總是能在討論中找到問題的本質,幫助我們打開思路。”何曉冬博士麾下的吳博士、範博士這樣評價道。
京東對人工智能大模型的佈局可以從一個個前沿酷炫的實驗室名稱中洞見。那些研究員們有些來自圖生文實驗室,有些來自基礎模型與系統實驗室,有些來自跨模態視覺生成實驗室,未來還會來自機械智能實驗室。這裏鼓勵探索,策勵探討,不歡迎施號發令、刻板短視。
回到文章開頭第一句。
在大模型的技術路線之爭這件舉足輕重的事情上,到底是Decode-Only勝出,還是Encode-Decode勝出,任誰目前也不能草率得出結論。
雖然目前走Decode-Only路線的大模型GPT-4暫時領先,可保不齊谷歌哪天逆風翻盤,大大書寫一筆《谷歌戰微軟:AI大模型反轉史》。

何曉冬與言犀團隊對發展產業大模型的三個條件是這樣理解的:
第一,看得懂,懂業務邏輯。
垂直的場景自有壁壘,懂業務,懂行業,一步步弄懂。
第二,摸得到,運營了業務才會有數據,進而餵給大模型,發展出特有的能力。
第三,數據飛輪轉起來,有反饋再優化的循環。
這三點既是本質,又是限制。大模型制高點是強者之間的遊戲,產業大模型與通用大模型的競爭優勢來自於此。
得到產業的認知規律,從來都不容易:今天有多懂,昨天就有多艱難。
在一次次的錯誤中成長,將所有的經驗導向理解與正確的結果。
每一次變革都有規律可循,從消費互聯網到產業互聯網的變革亦是如此。像京東這樣的技術企業,有供應鏈思維的企業,那些年雖有優勢但也不能保證穩勝。
京東相關內部人士也有類似觀點:
雖然我們是做零售出身的,但每一次進入零售細分領域,也是從頭學習。早期做家電,後來做生鮮(7FRESH),再次出發做大量的線下零售,摸爬滾打。零售是一個巨大的場景,每一個賽道都是不一樣的,都有單獨的解決方案。深入行業不能僅靠想象力,浮泛的議論好發卻無用。
“用通用數據把大模型常識能力訓練足夠,再用精準,少量的行業數據,最終以產業大模型的形式提供給產業。” 何曉冬博士説。
當技術和意義都存在,何曉冬與言犀團隊如何理解大模型與上層應用的關係?
數據依然在大模型的發展中佔據無以復加的重要地位,這無疑會增加產業大模型的競爭優勢。大模型是迄今為止人類最高智能的AI原生產品,有實力顛覆SaaS層現有生態。
在所有的科技企業中,京東在零售產業和零售供應鏈實力最為雄厚,他們理解零售業的高度動態極其需要敏捷推動,他們理解零售以SaaS的形式提供服務最為合適。
產業需求的共性可以提煉,數智供應鏈的能力可以複製,數百個場景都會得到賦能。
比如,農產品和電商的關係日益緊密,搜索關鍵詞“產地+特色農產品”,在京東APP消費者TOP搜索熱詞中,連續四年持續增長。
近5年,地標農產品消費金額年均增長36%,高於農產品整體增速4個百分點;地標生鮮農產品消費金額年均增長41%,高於生鮮農產品整體增速7個百分點。
銷量的增長需要高效供應鏈與先進營銷方式,這也是京東產業大模型未來落地的重點方向之一。
離需求最近的人,最有機會。京東在產業大模型的加持下,有機會生長出一個市值等同於Salesforce的龍頭企業。
從某種程度上講,Salesforce是一家定義了SaaS的公司。有了美國Salesforce,才有了SaaS。
在產業大模型上,每一個人都可以通過SaaS套件,不僅是開商店、做生意,而是把各個行業的銷售和服務做好。從貨到錢的支付物流,從後端客服到前台導購營銷,有全生命用户全生命週期管理服務。並且,不但有自己的SaaS產品(模塊),還要建一個允許第三方開發的平台。這樣才能把產業大模型的生態真正做起來。
產業隨着社會分工的發展而發展,垂直產業中成千上萬個企業未來一定會用大模型。誰來做?
良機在望,來者可追。
-結束-
