回國6年幹出一個AI芯片準獨角獸,專訪中昊芯英創始人楊龔軼凡_風聞
时代周报-时代周报官方账号-记录大时代,读懂全商业。1小时前

靠GPU賺得盆滿缽滿的英偉達,正在遭受反撲。
從谷歌的TPU、蘋果的M1和M2、微軟Maia 100和Cobalt 100、Meta的MTIA、亞馬遜的Trainium和Inferentia、特斯拉的Dojo,到英特爾的FPGA系列、AMD的MI300系列……巨頭們一次次衝擊着英偉達的帝國圍牆。
近期,蘋果在一篇技術論文中表示,支撐其人工智能系統AppleIntelligence的兩個人工智能模型,是在谷歌設計的雲端芯片上進行預訓練的。
谷歌設計的芯片是TPU(Tensor Processing Unit,張量處理單元),這是谷歌專門為加速機器學習應用中的矩陣運算而設計的一種定製化DSA(Domain Specific Architecture,領域特定架構)芯片。自2015年推出以來,谷歌的TPU已經發展到第六代,成為了對標英偉達AI芯片的強力替代方案之一。
在中國,在AI競速的大時代裏,芯片自研的迫切感更重。國產GPU、AI芯片從業者和科技廠商們無不在找尋突破口。
中昊芯英(杭州)科技有限公司(下稱“中昊芯英”)是其中一員。創始人楊龔軼凡曾在谷歌TPU核心研發團隊參與過TPU v2/3/4的設計與研發工作。
2017年,楊龔軼凡見證團隊研發的TPU芯片訓練出了Transformer框架。TPU和Transformer為自然語言處理(NLP)領域帶來了革命性的變化,也開啓了現代大規模預訓練模型的時代。
楊龔軼凡從中看到AI的未來,也看到了作為AI基礎設施AI芯片的價值:“以前的計算是一塊芯片上跑一個應用或多個應用,現在是一個應用跑在一千塊甚至上萬塊芯片上,這是人類計算歷史上的大變革。該變革給了所有技術迭代的空間及機遇。”
2018年,楊龔軼凡歸國組建中昊芯英的核心創始團隊,並於2020年落地杭州,產品線主要圍繞人工智能芯片,特別是TPU芯片展開。歷經了近五年的研發,2023年下半年,基於全自研GPTPU架構的高性能TPU人工智能芯片剎那®實現量產。2024年被杭州市創業投資協會認定為杭州市準獨角獸企業。
中昊芯英也是初創芯片公司中,少數已實現盈利的。2023年,中昊芯英的整體銷售額達4.85億元,歸母淨利潤為8132.64萬元。據瞭解,中昊芯英目前的客户以政府、運營商、企業為主,多為合作共建智算中心。近日,中昊芯英又宣佈與上市公司艾布魯旗下子公司星羅智算科技(杭州)有限公司達成了戰略合作。目前,中昊芯英已經完成了Pre-B、Pre-B+輪融資。
但是,在GPU處於絕對壟斷地位的當下,GPU的通用性和生成式AI上的強大性能已經過廣泛驗證。對比之下,TPU主要針對機器學習和深度學習任務,對於如圖形渲染、物理模擬等計算任務並不擅長。
TPU能否成為GPU的替代方案?如何構建和優化圍繞TPU的軟件生態系統?TPU有可能成為國產AI芯片的新機遇嗎?帶着疑問,時代週報記者走進中昊芯英,與創始人及CEO楊龔軼凡進行了面對面訪談。


TPU,AI芯片新解法?
時代週報:GPU和TPU各具優勢,中昊芯英為何會選擇專注在TPU賽道上跑?
**楊龔軼凡:**GPU 具有大量結構較為簡單的並行處理單元,適合處理高度並行的任務,如圖形渲染和科學計算,因此被廣泛應用於計算機圖形學、遊戲開發、視頻編碼/解碼、深度學習訓練和推理。
TPU特別適合於處理矩陣乘法等常見於神經網絡的操作,主要用於機器學習和深度學習模型的訓練和推理,特別是使用 TensorFlow 框架的任務。
早先,非深度學習模型如GBM(Gradient Boosting Machine)和Random Forest等,在GPU上展現出的性能更好,這是因為TPU的通用計算能力有限,它的設計更針對深度學習任務,所以早年的表現不是很突出。然而,近年來,無論是AI小模型還是AI大模型,幾乎無一例外地轉向了深度學習,尤其是那些以Attention機制和矩陣乘法(MatMul)作為核心運算的模型,這恰恰是TPU所擅長的領域。
隨着技術的發展,TPU在相同製造工藝、能耗和芯片尺寸下,相比GPU能提供3到5倍的性能提升。這意味着,在相同的條件下,TPU架構能夠以更高的效率完成模型訓練,從而顯著提升性價比。在AI領域,尤其是深度學習模型的訓練和部署,性價比是決定模型能否廣泛落地的關鍵因素。
因此,從長遠來看,TPU比GPU在AI賽道上更具競爭力。雖然未來的AI模型也許不完全遵循現有的Transformer解碼器架構,甚至可能出現新的基礎運算會取代MatMul,但深度學習無疑仍是AI領域的主導力量。深度學習的某個分支將承載着未來100%的AI應用,這一點是毋庸置疑的。


生態難題能解?
時代週報:如今,主流的AI框架都提供了GPU加速的支持,但是TPU之前是谷歌專門為TensorFlow和自身的雲平台設計的,其硬件和軟件的可用性可能不如廣泛支持各種深度學習框架和平台的GPU,中昊芯英打算如何解決這一問題?
**楊龔軼凡:**TPU的概念在國外正在獲得關注與普及,並未侷限於谷歌的圍牆內。許多初創企業雖未直接冠以TPU之名,但其設計理念與TPU頗為相似。例如,專注於開發高性能AI芯片的初創公司Groq所開發的LPU(Language Processing Uni),從其技術白皮書中可以看出,其芯片架構與TPU異曲同工。全球範圍內,TPU及其類似技術的公司如雨後春筍般湧現,不斷推動着技術的邊界。
另外,軟件棧也不是一成不變的。曾經,CUDA與流行的開源機器學習庫PyTorch緊密相連,為GPU提供高性能計算能力。然而,隨着TPU等非GPU架構的興起,軟件棧開始適應多平台需求,PyTorch 2.0及後續版本已將TPU作為標準分類納入支持範圍,這意味着開發者在使用PyTorch時,可以無縫切換至TPU。
隨着軟件棧的不斷更新與優化,以及硬件領域的持續革新,我認為整個行業對TPU的接納程度將日益提高。
時代週報:英偉達構建了一套全棧式解決方案,結合硬件、軟件和服務,形成閉環的生態系統,覆蓋從邊緣設備到數據中心的各種應用場景。未來中昊芯英是否將構建自己的全棧式的TPU產品和技術?
**楊龔軼凡:**在AI賽道,芯片企業一定是向着全棧解決方案邁進的,而且是軟硬件一體協同。
當前,業界普遍支持PyTorch框架,因其低遷移成本吸引了大量用户。然而,隨着用户基數的擴大和行業解決方案的深化,軟硬件一體化公司的優勢開始凸顯,能夠提供從基礎模型服務、開源模型、到模型預訓練的全面支持。
未來,軟硬件一旦達到高度協同,芯片的性價比將有望實現2到3倍的飛躍。
時代週報:此前業內認為,除去產品本身,生態才是英偉達最大的護城河。英偉達又利用CUDA平台建立了龐大的開發者生態系統,這是難以“突圍”英偉達的原因。您認為該如何破局?
**楊龔軼凡:**我從另外一個角度去回答這個問題。何為軟件生態?目前軟件棧AI的框架最流行的是PyTorch,CUDA是在PyTorch下面一層。如果使用GPU, PyTorch就必須鏈接到CUDA接口上,選擇GPU,必須支持CUDA。
隨着時間的遷移,在PyTorch2.0以後,TPU已經是個標準的分類了,在 PyTorch裏面也已經有了很好的支持了,而且TPU相對簡單,不必像GPU那樣承擔繁重的CUDA兼容性負擔,反而可以採取更為簡潔和高效的軟件棧。
據估算,TPU的軟件生態構建工作量僅為CUDA的三十分之一,這不僅降低了人工成本,還使得其解決方案在支持度和通用性上更具優勢。
現在大家都支持PyTorch,因為PyTorch平台用户的遷移成本較低。但當用户獲取量越來越多,開始深入行業解決方案的時候,這就會變成是我們的強項了,核心在於我們是真正的做軟硬件一體化的公司,我們能夠提供行業大模型的基礎模型服務、基礎模型的開源、基礎模型預訓練,當我們把模型的整個軟件棧框架搭好後,那麼行業客户就可以基於自身行業數據,在我們的這個框架上調用接口,就可以完成模型的二次訓練。這樣就可以把模型應用在具體場景裏面去替代生產力了。

商業路徑幾何?
時代週報:我們瞭解到中昊芯英在金融、醫療、教育等領域佈局了預訓練大模型,作為一家芯片公司,為何入局大模型?
**楊龔軼凡:**我們希望實現軟硬件的一體化協同,通過訓練基礎模型,並將其開源,同時配套完善相應的軟件框架,如此一來,我們為客户提供了完整的解決方案。這一過程被比喻為“鑰匙工程”:客户準備和整合自身數據,通過我們交付的接口即可啓動模型訓練。
這些開源模型不僅僅是技術上的突破,更是芯片公司的核心資產。類似於CUDA這樣的軟件生態系統,是芯片公司技術護城河的重要組成部分。CUDA為英偉達的GPU構建了一個強大的軟件開發平台,使得開發者能夠輕鬆利用GPU的計算能力進行AI應用開發。但如今,CUDA在AI軟件生態中的統治地位正在受到挑戰,PyTorch框架與微軟的合作,正致力於在其內部開發替代CUDA的底層架構,這意味着CUDA在AI領域的影響力正在逐漸減弱。
因此,芯片公司通過培育開源模型,構建自己的軟件生態系統,能夠吸引開發者圍繞這些模型進行應用開發和優化,進一步鞏固和擴大自己的市場地位。
時代週報:當下很多芯片公司還處於虧損,為什麼中昊芯英能夠在相對短時間實現盈利,模式是怎樣的?
**楊龔軼凡:**首先是因為我們創始團隊對於做AI芯片有一種信仰,這也是我們創業的核心的原動力。
當時我們創業可以選擇在硅谷,也可以選擇在中國。我們那時在硅谷隱約感受到了中美未來科技博弈的不可避免,在國內研發國產化自主可控的AI芯片,不僅能帶動經濟效益,還能帶動社會效益。
彼時,AI企業只能運行較小規模的模型。擺在芯片廠商面前的選擇,一是做用於推理場景的“小芯片”,如果做“大芯片”,則多數廠商會選擇做GPU,因為GPU的通用性很強,更受推廣。
而由於我們一直集中在AI芯片TPU的賽道,如今AI賽道的爆發,對TPU而言就是核心市場的爆發。我們會將所有的優勢資源、研發能力和精力集中在這一塊,推動整個大模型的落地和行業發展。
2023年下半年我們的產品落地,當年整體銷售額達4.85億元,歸母淨利潤達8132.64萬元。
目前,我們已與青海·海東“絲綢雲谷”低碳算力產業園、中國聯合網絡通信有限公司深圳市分公司、新華三集團等各地政府、運營商、企業合作。其中,2023年,中昊芯英與青海億眾數字能源科技有限公司聯合簽約,在青海·海東“絲綢雲谷”產業園中推動設立“唐古拉”AI算力實驗室,為項目搭建AI計算底座,該項目總投資約230億元,分兩期建設,是國內首個完全定位於“大算力+大模型”形態的大型人工智能計算中心。
記者丨郭美婷
編輯丨林銘銘
值班丨森 森
-END-