國產大模型震驚海外,360周鴻禕怎麼看?_風聞
你相信光吗-爱比丽屋12分钟前
來源:周鴻禕
前幾天中國六代戰機曝光,外網鬧翻天了。這還不夠,這兩天中國大模型又出了新版本,致使海外 AI 社區刷屏。國內AI 創業公司 DeepSeek發佈了新的開源大模型,其參數量為6000多億,性能趕上了 GPT - 4o和Facebook的羊駝,但訓練成本比它們降低了10倍,價格僅為它們的10%。**該模型推出後,明顯能感覺到海外 AI 技術人才對中國 AI 技術的進步,處於半震驚半懵狀態。**網友評論整齊劃一,都在問中國人是如何做到的?Meta 的一位科學家驚歎,DeepSeek 的訓練像是黑科技。OpenAI 的一位創始團隊成員稱,以前達到 DeepSeek 這種級別能力通常需16000個 GPU,而現在 DeepSeek 只用2000個 GPU,計算量減少了11倍,這證明 AI 算法還有很大優化空間。
大家可能不太瞭解 DeepSeek 這家公司,雖然我們有合作,但我對其瞭解不深,於是用納米 AI 搜索查詢了一下。DeepSeek 中文名為深度求索,如名字所示,該公司一直低調行事,卻早有名氣。**在硅谷,DeepSeek 被稱為來自東方的神秘力量。**其背後是量化私募的巨頭幻方公司,2021 年為做量化交易囤了一萬張英偉達 A100,當時 ChatGPT 尚未出現,大模型也未發佈,如同 Meta 為搞元宇宙囤卡一樣,都機緣巧合趕上了 AI 浪潮,所以在其他巨頭鬧卡荒時,DeepSeek 手中有卡心中不慌。這家公司首次被人記住是因其發佈 2.0 開源模型時提供了史無前例的性價比,模型推理成本降至每百萬個 token 約一元,約為 LLaMA的1/7、GPT 的1/70,故而 DeepSeek 被稱為 AI 界的拼多多,掀起國產大模型價格戰,字節跳動、騰訊、百度、阿里紛紛降價。如今開發者能享大模型福利,DeepSeek 功不可沒。
為何今日要提及此事?過去我常説中美 AI 核心差距不大,約半年左右,主要差距在算力。因核心算法公開,多為工程化方法,模型也是開源的,差距實則不大,可很多人不信,一些專家還帶節奏,稱論 AI 實力美國領先,中國最多第二梯隊,美國遙遙領先,我對此不敢苟同。**有人妄自菲薄還讓眾人灰心,長他人的志氣滅自己的威風,對中國 AI 產業發展無益。**如今 DeepSeek 發佈的模型有力回擊了這些言論。微軟、臉書、谷歌都在朝着10萬卡集羣做大模型訓練時,DeepSeek 僅用2000個 GPU,花費不到600萬美金和兩個月時間,就做出一個與全球頂尖大模型能力對齊的開源大模型。有人質疑説,新推的大模型是用國外模型知識蒸餾而來,但知識蒸餾方法人人可用,為何他人未做到?此次效率大幅提升,肯定是在底層架構上有不同於其他巨頭的創新,DeepSeek 定有不為人知的訓練方法和工程實踐方法。過去只有美國 AI 公司具備這種獨有能力,如今中國公司也逐漸掌握了。有人會説 DeepSeek 只是個例,缺乏説服力,能否説出更多先進國產大模型?當然可以。比如阿里的通義千問,其推出的千問2.5系列大模型,其中的700億參數版本,在視覺推理、數學和科學問題表現上與國外大模型相比毫不遜色,慢思考能力也逐漸提升。此外,王小川的百川智能近期推出的金融大模型在專業能力上超過了 GPT - 4o,這也證實了我之前對專業大模型的判斷,即在通用大模型基礎上結合專業領域知識訓練,專業大模型能力可超越通用大模型,我們稱之為領域增強。360 在o1出現前就實現了慢思考能力,只是實現方法略有不同,360 打造的安全行業大模型能力也遙遙領先於 GPT - 4o。總之,希望觀看這篇文章的各位相信中國 AI 發展並不弱,不要被某些專家言論誤導。過去我們是模仿者和追隨者,他人擅長從零到一,我們擅長從一到 n,如今情況正轉變,中國科技領域原發性創新已讓全世界看到,過去是 “Copy to China”,以後可能是 “Copy from China”。
DeepSeek 公司表現出色,開了個好頭,今後我國 AI 創新定會更加活躍。借 DeepSeek 這個版本,我談幾點大模型發展的看法。第一,無需再爭論開源與閉源好壞,DeepSeek 是開源的,開源模型正趕超閉源模型。在人類技術發展趨勢中,開源可使大模型技術不被少數巨頭壟斷,唯有開源才能讓大模型真正走入各行各業,讓各級政府和企業低成本在開源基座模型上打造行業應用,推動生產力飛躍。所以 DeepSeek 的進步對推動中國 AI 產業發展是極大利好。更令人振奮的是,中國正引領全球大模型開源浪潮,開源是互聯網精神的直接體現,也是美國科技發展的源泉與機制。然而,現在中國最強的兩個模型通義千問和DeepSeek 是開源的,美國最強的兩個模型Claude和GPT 卻是閉源的.可見美國走向閉源,中國走向開源,這預示着科技發展天平向中國傾斜,一旦中國開源生態建立,這種創新機制將助力中國加速 AI 科技發展,掌握先機,實現從追趕者到引領者的華麗轉身。第二,DeepSeek 3.0版本用2000塊卡做到了萬卡集羣才能做到的事,這表明我們在一定程度上打破了西方對我們的算力封鎖,堪稱奇蹟。當前美國想盡辦法對我們進行小院高牆式的封鎖,遏制中國 AI 產業發展,禁止高端算力芯片流入中國。只有強大對手才能逼出最強的自己,若針對中國 AI 芯片的禁令,最終使中國大模型在算力受限情況下找到更高效解決方案,那這種適得其反的結果影響將更廣泛。此外,用這種極致訓練方法訓練專業大模型,算力成本會進一步降低,促使中國 AI 在專業、垂直、場景、行業大模型上更快普及。第三,有人會問,如此一來我們是否還有必要建萬卡集羣?不要誤解,我並非説中國 AI 發展不需要高端算力芯片,巨頭們囤顯卡建算力集羣依舊必要,因為目前預訓練算力需求或許沒那麼大,但像慢思考這類複雜推理模型對推理算力需求大,文生圖、文生視頻的應用也需消耗大量算力資源,巨頭們提供 AI 雲服務,構建龐大算力基礎必不可少,這與 DeepSeek 降低訓練算力需求是兩回事,兩者並不矛盾。建萬卡集羣實際是個工程問題,做過一次便一通百通,所以馬斯克從 OpenAI 挖人建十萬卡集羣,小米挖 DeepSeek 的天才少女,都是為獲取工程化的萬卡集羣訓練訣竅。作為科技行業的從業者,看到 DeepSeek 推出如此厲害的模型,中國 AI 公司憑藉原發性技術創新震驚世界,讓曾經輕視我們的外國開發者同行驚愕,各位是否感到暢快、自豪與感動?這絕對是中國 AI 產業發展的里程碑事件,我相信以後中國 AI 發展此類新聞會越來越多。大家應對中國 AI 產業發展充滿信心。