科大訊飛劉聰:假如對大模型算法沒把握,錯一個東西,三個月就過去了_風聞
谭婧在充电-谭婧在充电官方账号-偏爱人工智能(数据、算法、算力、场景)。-11-03 13:13

丨譚婧在現場
自始至終,無論是科大訊飛董事長劉慶峯,還是科大訊飛研究院院長劉聰,他們都在強調一個事實:
目前,國內與國際頂尖大模型對比還存在綜合實力、平台能力等差距,要正視差距,並且以最先進水平為目標,奮起直追。
比起在C-Eval榜單排名靠前,且把GPT-4“擠出”榜單前十,並對此特意宣傳的團隊來説,科大訊飛兩位重量級演講人都表現出開誠佈公與推誠相待。
劉慶峯董事長的原話是:“跟GPT-4比,我們還有要學習的地方,還有一個奮鬥努力的過程。”
“奮鬥努力”這件事,字越少,事越大。
而“親愛的數據”在與劉聰院長的進一步交流中,他談道:“假如對大模型算法沒把握,錯一個東西,三個月就過去了。”

在他這句表達的背後隱含着對訓練技巧關鍵所在的熟悉與瞭解。
據譚老師瞭解,因訓練週期天然屬性使然,劉聰院長談到的數字是確數,不是一個誇張的比喻。
他的話很清楚地表達出大模型訓練中的高風險,以及走錯路後要付出的高昂代價。從一個側面反映出訓練大模型的真實難度;也反映出按既定時間節點如期完成任務的挑戰性。
再則,大模型高水平實戰經驗等於直接省大錢,毫不為過。
發佈會現場,除了坦誠之外,劉慶峯董事長的演講充滿激情,顯得對明年上半年追上GPT-4胸有成竹。
(一)最先進的底座模型(LLM)
“哪有什麼百模大戰?(反問語氣)”是譚老師一直以來的觀點。
“百模大戰”是停留在新聞標題上的一個有誤導性説法。從技術角度,將底座模型(LLM),開源微調模型,行業垂直模型等不同類型大模型放在一起比較。相當於把不在一個難度級別的事物強拉在一起比較。
這種“有名字都算”的盤點辦法,讓“百模大戰”最後誰能取勝,成為一個偽命題。
殊不知,一部分模型可能是用基礎性開源模型微調而來,尤其是模型在不開放測試,或者不開源代碼,只有新聞通稿和市場發佈會的情況下。
為什麼不適合放在一起PK?
有的是歷經大語言模型構建的四個主要階段(預訓練、有監督微調、獎勵建模和強化學習)的大模型。
還有的是在開源大模型上“微調”。
從頭預訓練大模型的經驗會積累大量訓練技巧,這是持續創新的基礎,十分珍貴。而直接用現成大模型加行業數據微調,本質上,相對缺少研發過程,還是在使用別人的現成產品。
這兩種類型的大模型的較量,從技術角度講不是一個量級。
然而,不能矯枉過正的是,技術含量上雖有高低之分,但模型使用價值又是另外一回事,面對不同的市場業務需求,需要不同的對應方法。比如,訊飛聯合行業龍頭共同發佈12個行業大模型,加速產業落地。
關鍵在於,企業級技術服務服從於市場需求,僅強調技術單一維度並不可取。
現在處於穩定競爭階段,也是基座模型比拼的重要階段,我們聊回到技術。
“百模大戰”這種説法給人一種誤導,看樣子上上下下幹得熱鬧,似乎有重複建設,用力過猛,努力過剩之嫌。實際上,真正下決心和有實力“煉”大模型的廠商屈指可數。
競爭在頭部高度集中,其他選手連陪跑都算不上。
那些“號稱在煉”的廠家,有誇大自身技術實力、刷存在感的嫌疑。
更有甚者在優秀的開源大模型LLAMA2“問世”後已經默默放棄了。“百模大戰”不如説是“起名大賽”,典謨訓誥的書頁都被翻爛了。
發佈大模型廣而告之,誰放棄了會張揚?
一條少有人走的路,有人假裝在走。
而一些願意參與大模型生態的開發者,更被誤導到一條歪路上。
技術圈存在一種風氣,覺得除了“卷”大模型,此外其他東西都****沒有技術含量,沒有深度,不屑於做;
而美國的一些開發者反應快速而務實,比如大模型知名工具LangChain,將提示詞(Prompt)的管理和編排做得很好,是個“拼接”小能手,並且LangChain還有很多實用的玩法,就不一一展開。
一些輕巧創新的“小部件”推動大模型的生態向繁榮發展,並且能夠更好更快地探索大模型的用處,而大模型的用處急需各行各業的“腦洞”和“奇思妙想”。
科大訊飛董事長劉慶峯在討論大模型真正價值時候,就指出:“面向社會剛需,應用為王。”
説到底,全球範圍內比拼的是:在技術不落後於人的基礎上,大模型用處越多越好。
真正地訓練一個千億或者萬億參數規模的的國產大模型,是異常艱難的長途跋涉,尤其是在當下的外部資源條件惡劣的情況下。
混淆令那些真正在探索國產技術路線、敢於投入的人損失了應有的尊重。尊嚴倒是其次。這種誤導會增加交易成本,資源需流動到急用之處。
在這一點上,劉聰院長的觀點是,“所謂”的百模大戰,真正做通用大模型(訊飛的提法是1),再加N(大模型落地領域N)的參賽選手,肯定沒有那麼多。大浪淘沙,最後只會剩下極少數頭部玩家。
底座能力在頭部玩家中比拼。
從2023年2月開始,競爭形勢幾經變化,這個階段競爭的里程碑在哪裏?
劉聰院長給出的答案是:“從現在到年底,或者再往後推,最終會逐步產生分化。從真正的,全面對標GPT-3.5到對標GPT-4,哪家國產大模型最先做到,這是一個關鍵節點。”
他的語氣特別強調:“不是單點達到GPT-3.5的單項指標,單點到達沒有意義。”
極力提高模型能力是頭部廠商一致追求,而對大模型能力維度的理解,頭部廠商之間會有所不同。
另一家頭部廠商的“定義”則是用理解、生成、邏輯和記憶能力四大維度作為衡量指標。科大訊飛的定義是七大能力:文本生成,語言理解,知識問答,邏輯推理,數學能力,代碼能力,多模態能力。
為什麼訊飛的定義相對更詳細呢?
劉聰院長談道:“就以多語言這個維度為例,做通用人工智能,我們曾反覆強調不是隻做中文大模型。你連英文能力都不具備,那叫什麼通用?未來大模型能力肯定會拓展到其他多語種。”
從未來發展大趨勢來講,
第一個最重要是底座模型,第二個是算力,第三個是應用落地,第四個是生態。
真正的競爭,存在於真正的競爭對手之間。
(二)多模態技術路線
兩個月前的8月15日,也就是訊飛星火認知大模型V2.0升級發佈之日,代碼能力和多模態能力升級。
當時,多模態這個技術路線,很多人還沒有意識到其重要性,雖然多位業內頂級專家均表態過:多模態是通用人工智能必經之路。
而在9月25日,微軟公佈GPT-4V (ision) 的166頁技術報告,才消除一些業界爭論。大語言模型預訓練方法整體上趨於穩定,而多模態技術路線仍有很多“未解之謎”。
雖然GPT-4V (ision)給出了一些參考答案,但是若要在此後再跟進多模態技術的團隊,也徹底喪失了先機。更糟糕的是,依然面臨較多不確定性,更不要談多模態訓練數據規模可能****10倍於文本數據。
技術維度分,劉聰院長把模型類型分為四種:
第一類,認知大模型。ChatGPT先以語言大模型為核心, 從底座模型衍生出行業大模型。語義為主,視覺為輔。這類參數規模較大。
第二類,做視覺大模型,文生圖是較為廣泛的應用。參數規模不如第一類大。
第三類,語音大模型,訊飛已經在做了,會在合適的時間給大家揭曉。
第四類,説法較多,存在爭議,個別模型較為出名,比如天氣預報大模型,蛋白質結構預測大模型。這類模型的處理的數據跟前幾類數據不大一樣,比如,天氣預報數據的維度特別高。
劉聰把第四類叫做“特定任務”大模型。
這四類全部都叫大模型。
回顧訊飛的歷程,5月6日星火大模型發佈的時候,只簡單展示了一些多模態能力。而在8月15日發佈V2.0那個階段,訊飛已經形成統一框架,把多模態信息有機地組織起來。
劉聰院長談道:“星火大模型第一次發佈的時候,有人會質疑,訊飛又沒做圖像,怎麼能做得到?其實在五月份的時候就對多模態有一定預判。”
可以看到,訊飛8月15日多模態能力的發佈早於GPT-4多模態進展信息的披露。

劉聰院長的觀點在我看來,即便是10月24日這個時間段,多模態技術也還在起步階段,即使是GPT-4V(ision)擁有細顆粒度的理解能力,也有很大提升空間。
這個空間是兵家必爭之地。
可以觀察到,在多模態這一塊的佈局,訊飛較早起步,並且預判準確。多模態技術給星火大模型帶來效果和能力的加持。
(三)算力和算力平台
大模型對算力極為依賴。
雲計算是一種選擇,國產AI芯片也是一種選擇。但無論選擇哪種形式,“大算力”是確定性的。

在這方面,劉聰院長談道:“客觀來説,一兩千張卡不夠,訓練GPT-4需要3000-4000P的算力,也就説萬卡級別。
這是准入門檻。
因此,這體現出和跟華為共同發佈這個飛星一號平台的一個重要意義”。
劉慶峯董事長則對訊飛與華為攻關團隊親切稱呼——聯合特戰隊。
他還談到一些雙方團隊合作的細節,兩支團隊高強度同期配合,通宵徹夜加班也是同步,成了真正意義上的“並肩作戰”;
華為團隊久在合肥支援,訊飛直接把員工家屬接到合肥團聚……
所以,才這次有基於昇騰生態的“飛星一號”平台正式發佈。
頭部玩家一定會按照既定目標向更大參數規模前進。

並且,算力平台作為大模型基礎設施是保障。合作分工上,華為負責底座能力層面,而科大訊飛則更多投入於應用和算法。
預訓練新範式興起,大模型新的軟件棧正在形成之中,而算力平台是承上啓下的重要一層。
早期尤其需要專門的算力團隊提供保障性服務,能為整個研發進程,加速提效,這種合作是非常難得的。
譚老師直言而論,誰和華為合作的早,誰就越早擁有這種優勢。
並且,華為新一代昇騰芯片性能參數,星火大模型訓練和推理的效率值均屬於商業機密,市場上也並無公開參考的先例和數據。
國產算力平台從不好用到好用需要過程。劉慶峯董事長談道:“算法在新硬件上跑,需要驗證結果。”他認為:“如果誰都不往前走一步,且沒有能堅定地提供底座的廠商,那始終無法自立自強。”
訊飛對這一投入拿出了一種“非幹不可”的態度。
大模型訓練到達某個階段,才有資格迎接下個階段的挑戰,而不是以前的直接複用上一階段的核心經驗,有些難題只有遇到了才知道。
並且,更好效果的小一些的模型會來自大模型的Scale Down。
顯然,人工智能老牌玩家在人才和組織研發方面的經驗是長期積累而來的,主力研發團隊穩定,相互探討,高效配合,有着精進技術的氛圍。
劉聰院長談到這一點時,頗為輕鬆,“研究院一千多號人裏面有算法、平台、工程,還有一些資源相關的團隊,各個方向之間的協同性很好,大家沒有內耗。這個東西我覺得它不是短期形成的,是長期的,是訊飛十幾年以來積累和傳承。”
回到大模型的真正價值點應用上。
這一次,科大訊飛進一步升級智能編程助手iFlyCode2.0,代碼能力超越ChatGPT;向科研人員推出了星火科研助手;在擅長的教育領域,發佈心理夥伴“小星”,關愛青少年心理健康應用;發佈啓發互動式英語AI答疑輔學訊飛AI學習機;發佈訊飛星火醫療大模型,訊飛曉醫APP為個人和家庭提供AI健康助手。此外,訊飛機器人超腦平台升級,並推出大模型+具身智能的人形機器人。
(完)

《我看見了風暴:人工智能基建革命》,作者:譚婧

