三年三款芯片,燧原科技完成AI拼圖_風聞
半导体行业观察-半导体行业观察官方账号-专注观察全球半导体最新资讯、技术前沿、发展趋势。2021-12-08 11:07
2012年,在深度學習開山鼻祖之一的Geoff Hinton的學生Alex Krizhevsky成功訓練出了深度卷積神經網絡AlexNet,並憑藉該網絡在圖像分類識別領域大幅提升性能之後,人工智能“混戰”拉開帷幕。
如大家所看到的,這個角逐不但出現在應用領域,在上游的芯片市場,也是百家爭鳴。大家似乎都想通過自有的解決方案在人工智能市場撼動英偉達用巨資和時間打下的穩固江山。
但正如燧原科技創始人兼COO 張亞林先生在接受半導體行業觀察採訪的時候所説:“在十多年的人工智能發展歷史裏,英偉達通過成千上萬的研發工程師和全世界成千上萬的客户積累了大量的經驗。我們要尊重科技的DNA和本質,我們剛剛起步不久,科技產品沒有任何的捷徑,每一步都必須趟過去。”
燧原科技創始人兼COO 張亞林先生
他進一步指出,經過多年的發展,真正的用户或者商業化公司不僅僅強調AI芯片本身,而是強調AI系統化應用。“AI芯片要落地,除了要關注AI芯片之外,還要重視AI的軟件,互聯、以及部署和運維,必須形成完整的解決方案。”張亞林強調。
這也正是燧原科技過去幾年來一直堅持的產品開發理念。為了實現公司的目標,在推出了兩代雲端訓練芯片、雲端訓練加速卡、第一代雲端推理加速卡和軟件計算及編程平台外,近日,燧原推出了一款專注於雲端推理的“邃思”芯片,完成了公司的AI拼圖。
必不可少的芯片
在與張亞林交流期間他指出,**對於燧原這樣的AI芯片公司,必須要提供一個推理和訓練系統的生態。**首先,因為訓練再推理本身就是客户的閉環生態;其次,訓練和推理本質上是不太一樣的。只有推出訓練和推理協同化的產品,才能在差異化需求上面滿足客户在訓練和推理更加精確的不同要求。
基於這樣的思考,燧原科技推出了針對推理場景進行優化的新一代雲端AI推理芯片“邃思”,這也是燧原科技成立3年來,繼邃思1.0和邃思2.0後推出的第三顆自主研發芯片。
這顆芯片採用12nm工藝製造,基於全新升級的、聚焦推理優化的二代GCU-CARA架構設計,集成了200億晶體管。通過架構升級,燧原科技大大提高了芯片單位面積的晶體管效率,從而實現了與目前業內7nm GPU相匹敵的計算能力。而從整個芯片的定義和性能上看,這也是一顆完全對標國外領先廠商旗艦的芯片。
首先,這是一顆業界領先的全精度芯片,能支持從單精度浮點FP32到整型INT8的全精度算力,實現了從高精度推理到低精度推理的全方位覆蓋。
“因為全面支持INT8,所以可以通過精度以及量化方式,讓更復雜的模型能夠更好在INT8的精度上進行推理,這是非常關鍵的。”張亞林告訴半導體行業觀察記者,“此外,我們這顆芯片還支持浮點張量TF32的精度。”張亞林進一步指出。
其次,和前兩顆訓練芯片一樣,燧原堅持走高性能芯片的路線。在這顆新推出的推理芯片,其算力依然非常強勁,這主要得益於其極高的存儲帶寬。
“我們在‘邃思’上採用了業內最先進的HBM2E的存儲方案,能提供819GB/s的存儲帶寬。我們還在GCU-CARA的架構上特別針對推理進行了優化,更加註重處理的延時,同時還加倍注重了其存儲性能。”張亞林表示。
能在大家都公認摩爾定律放緩的時候持續推出幾代高性能芯片,並且芯片的代間性能提升還能做到那麼優越,這得益於燧原科技在芯片封裝方面有深入的理解。
在發佈邃思2.0的時候,燧原有提到,截止發佈當日,那還是中國最大的AI計算芯片,採用2.5D封裝的極限,這正是燧原獨特的優勢之一。“燧原早已掌握了這種完全自主設計的2.5D封裝技術,實現了從interposer到package的設計,再到把它跟主芯片和HBM2E整合在一起,燧原目前發佈的三顆芯片都是2.5D的封裝。”張亞林強調。他進一步指出,燧原一定會持續擁抱先進封裝, 2.5D只是公司的第一步。
“從2.5D開始,不管是走chiplet這樣的封裝形式還是往上走到更好的3D,燧原都有這個能力。燧原也將會在未來的第三代、第四代芯片上呈現更多的封裝形式。”張亞林説。
正是因為擁有如此強大的內存和封裝設計能力,燧原才能很好地平衡芯片的帶寬和算力,打造出如此優越的一顆芯片。值得一提的是,在全新推理芯片面世以後,燧原科技成為了國內唯一同時擁有第二代雲端訓練和推理產品的人工智能企業。
面面俱到的方案
如果説擁有一個性能強悍的芯片是擁有了進軍數據中心市場的資本,那麼表現出色的加速卡則讓企業在數據中心市場擁有昂首挺胸的底氣。這也是燧原科技從訓練加速卡到推理加速卡的傳承。
從之前的報道我們看到,伴隨着“邃思1.0”和“邃思2.0”的發佈,燧原科技帶來了兩代高性能的訓練加速卡。在新一代推理芯片發佈之際,公司也一如既往地帶來了基於該芯片打造的第二代雲端人工智能推理加速卡“雲燧i20”。
**據介紹,這個採用PCIe全高3/4長接口設計的加速卡擁有遠超行業同類產品水平,迄今為止也是業內最大的AI加速卡,存儲帶寬高達819 GB/s。這幫助其大幅提升了推理性能,為各類雲端推理業務提供高吞吐、低延時的性能,保障其準確、平穩、高效的運行。**數據顯示,雲燧i20的單精度浮點算力可以做到32 TFLOPS,半精度浮點/單精度張量浮點也達到128 TFLOPS,整型算力更是高達256 TOPS。在與上一代的“雲燧i10”相比時,新加速卡將其浮點算力提升了1.8倍,整型算力提升幅度更是高達3.6倍。
“我們的雲燧i20在與市場旗艦和次旗艦推理卡的模型性能對比時,也不落下風。”張亞林告訴記者。從燧原提供的數據來看,與Nvidia T4相比,雲燧i20在很多模型性能上領先2.5倍到3倍。
性能只是雲燧i20的優勢之一,功耗優化則是該推理加速卡的另一大優勢。
據介紹,燧原通過對芯片的功耗Power 2.0的架構優化,使得整個處理器在AI負載加載上的動態性得到了更好的管理,從而讓整個處理器在跑模型的時候負載更加均衡,功耗分佈也更加均勻穩定,不會出現高瞬時的情況。
“這是非常重要的功耗優化指標,因為一旦功耗均勻穩定的時候,就不會出現瞬時峯值,也不會出現瞬時的功耗電流,帶來額外的功耗浪費。新一代雲端AI推理芯片‘邃思’在這個方面做了非常大的改進。”張亞林告訴記者。
他同時還指出,燧原科技在新產品的系統性功耗調整上也加強了DVFS(Dynamic Voltage and Frequency Scaling),“我們的DVFS可以根據芯片上的任務負載,結合實時功耗信息,對於電壓和頻率進行調整。在保證系統穩定性的同時,獲得更好的性能及能效比。”張亞林強調。
此外,燧原科技還通過在軟件上投入,進一步實現功耗的優化。如大量的內部存儲就能夠緩衝更大的模型,給功耗提升帶來很大的幫助;把很多前後本來要串起來的AI算子融合在一起,也獲得了比分離算子更好的功耗表現。
為了提升產品的易用性,提高客户的生產效率,燧原還進一步升級了自主知識產權的計算及編程平台“馭算”。
燧原科技方面表示,升級後的“馭算TopsRider”軟件棧,在性能、開發效率和模型覆蓋面上得到大幅提升。通過引入通用高層圖優化和大規模算子融合技術,充分釋放了大容量片內存儲和高帶寬存儲的利用率,將模型平均性能提升3.5倍,硬件算力利用率平均提升2倍;通過升級的編程模型以及算子自動分片、自動生成技術,自定義算子開發效率翻倍,模型遷移成本大大降低;此外,馭算增強了對動態性的支持,使雲燧i20在檢測、語音識別、語義理解等場景更具競爭力。
此外,基於虛擬化和多實例加速技術,雲燧i20能夠實現單卡多用户,同時支持6個業務互不干擾、安全隔離運行,讓更多雲端推理應用同時享受專有的算力加速,為客户業務架構帶來輕耦合、靈活可靠的實現方式,顯著提升資源利用率與投入產出比。
“經過多次迭代,公司的工具鏈得到了進一步完備和加強,並全面提高了功能調試和性能調優的能力。我們的工具鏈還能匹配客户開發習慣,讓客户易於遷移,降低客户遷移成本。”張亞林告訴記者。
張亞林總結道:“對於客户來説,芯片只是他們涉及的整個系統裏面的一部分,它與軟件、加速卡、集羣和雲端的各種生態部署以及工具等構成了整個全系統的生態,這才是客户真正用户面所觸達的。”
在貫徹執行上述軟硬件運營思路後,燧原在客户端獲得了越來越多的認可,日趨完善的產品線也讓公司對未來有了更多的想象空間。
觸手可及的現在
過去幾年,關於AI芯片企業的應用落地有很多討論。但在張亞林看來,這在燧原科技是一個水到渠成的結果,歸根到底則得益於公司從產品定義開始的時候就貼近客户。按照他的觀點,AI芯片的性能參數固然重要,但更快地觸達客户,更快地收集到廣泛的客户需求進行迭代則更為重要。
基於第一代產品,燧原科技在機器視覺、語音、自然語言翻譯、強化學習決策和推薦等一系列場景中,與來自互聯網、垂直行業、政府和產業的客户都建立了合作,公司也希望與這些賽道上的客户儘可能迅速地實現由點到線,由線到面的發展。
通過合作收集了更多客户的需求後,燧原科技將其總結放到第二代產品上去,使得二代產品獲得比一代產品更高的泛化性、易用性以及更好的模型性能,這也讓其應用性能獲得了大幅度的提升。
燧原科技在“雲燧i20”上,**提升了模型覆蓋和泛化支持能力,瞄準泛互聯網、傳統行業和新基建等賽道,作為算力基礎設施和生產力工具,提供對視覺檢測跟蹤分類,語音識別與合成,及自然語言處理等多種場景的廣泛支持,**助力人工智能廣泛落地,為數字中國提供動力,也符合自主可控的宏觀政策要求。
面向當前火熱的智能駕駛市場,燧原科技也正在評估,“燧原有獨立的訓練集羣,有訓練的軟件棧,我們有能力以智能車大腦訓練為抓手去開發這個市場。”張亞林表示。最近比較火熱的數字孿生則是他看好的另一個AI應用方向,因為在這個場景下,需要用到大量的大數據訓練和推理,以構建一個純粹的虛擬的孿生城市、孿生工廠以及孿生世界,這也是燧原所專注於服務的。
此外,張亞林還看好自然語言翻譯和融合媒體的未來。在前者,隨着大模型不斷增強顯示出更大的智能化,這個領域也一定會持續向更加智能化的方向發展;至於融合媒體,則通過整個描述生成多媒體短視頻、音頻以及音視頻的融合。
為了更好地服務這些市場,燧原科技的首要任務是持之以恆地提升公司芯片的性能。
張亞林告訴記者,燧原科技在芯片迭代方面精準遵循了英特爾所提出的Tick-Tock鐘擺式的原則——一代改工藝,一代改架構,工藝和架構不要同時變更。所以説燧原科技雖然從第一代到第二代產品都採用12納米,但因為公司在芯片架構上做了大幅度的升級革新,因此產品仍然獲得了至少3倍的能效比。正是堅持這樣的升級思路,因此讓公司第二代產品能快速迭代和發佈。
“燧原科技的第三代產品,則到了鐘擺的另一面——Tock,屆時燧原會小幅度提升架構,大幅度改進工藝,請大家拭目以待。”張亞林指出。據他透露,燧原的第三代芯片會在2023年面世。
“燧原科技的願景和使命一直是做數據中心的基礎設施提供商,所以在未來3到5年時間內,我們將專注在數據中心,提供全方位的支持。除了計算之外,我們還會進入別的相關數據領域,提供更全面的系統解決方案。”張亞林強調。
在提升自有芯片性能和深化自身佈局之餘,燧原還計劃和更多的合作伙伴攜手,更好地服務數據中心的客户。
張亞林表示,數據中心未來會是組件化、模組化、標準化的。所謂的組件化和標準化,是指數據中心基於標準互聯,採取組件式方式連接,也就是説在未來的數據中心裏面存儲、AI計算加速、視頻視覺計算加速、數據卡、DPU甚至CPU都可能會以一種組件化的方式提供,而不是現在服務器整機方式提供。而這光靠燧原科技本身,是很難提供完整服務的。
而事實上,面對這種發展趨勢,已經手握兩代產品,有兩代產品市場化的方向的燧原現在已經開始在深入跟其他組件公司進行深度聯合開發。例如在近來非常熱門的DPU產品方面,燧原已經與相關公司進行深度連接,這將有助於燧原儘早形成數據中心全鏈打通的方案。
“燧原一定會朝着數據中心的方向去走,佈局整個互聯的標準以及功能。”張亞林告訴記者。
志存高遠的未來
在問到對燧原科技的未來有怎樣的展望時,張亞林首先指出,目前AI還是一個蓬勃發展的領域,機會也同樣還在。與此同時,人工智能的芯片架構還在變革,國內外企業也都在探索,並不像已有的CPU和GPU那樣,擁有很高的專業壁壘和業務壁壘。
其次,中國客户非常希望能得到更多的本土支持、定製化以及儘快適應他們。這讓中國AI公司在這個方面具有得天獨厚的地域優勢,這也是外國公司難以企及的。
第三,從市場產品獨立競爭上看,國際大廠更加面向全世界AI的應用和產品,所以它的泛化性和通用性是最廣的。但國內公司在一開始並不太需要瞄準全世界最廣泛的市場,可以有針對性的泛化,而這些泛化正是國內公司的利基場景。這讓我們有機會把利基場景的性能和性價比打磨好。
由此張亞林認為,從這三個方面看來,在未來5到10年內,全球AI芯片市場應該是百花齊放的,大家都有機會。而且因為這個市場足夠大,屆時每一個廠商都能夠在這個市場上贏得自己獨立的存在,這也是科技市場良性競爭的一種體現。
燧原科技CEO趙立東也指出:“當前,我國芯片產業正處於激烈的成長與蜕變時代,燧原科技以‘做大芯片,拼硬科技’為時代使命,基於原始創新的軟硬件架構,正在不斷加速技術創新與產品迭代。性能趕超業內旗艦GPU的雲燧i20正是我們的關鍵成果之一。”
“在國內AI大芯片賽道上,燧原科技希望能夠在未來三到五年內成為頭部企業之一,作為領軍企業為中國的數據中心服務。這是我們的初心和願景,我們也走在正確的道路上。”張亞林最後強調。