DeepSeek是否碾壓ChatGPT,吊打英偉達?_風聞
h2002-观念与年龄无关,与学历无关,与思想有关。43分钟前
摘自網絡兩篇文章《DeepSeek和國運有啥關係》、《揭秘DeepSeek-V3“物美價廉”的背後:蒸餾技術存在天花板,依賴合成數據訓練有風險》,致敬原作者。兩篇原文有精簡及合併,特此説明。
1月27日,DeepSeek應用登頂蘋果美國地區應用商店免費APP下載排行榜,在美區下載榜上超越了ChatGPT。隨即引發了資本市場的震盪,DeepSeek被形容為“英偉達的最大空頭”,英偉達的股價大幅下跌,所謂“DeepSeek碾壓ChatGPT,吊打英偉達”的神話就此誕生。
DeepSeek橫空出世,成功破圈。破圈之後,照例就是借題發揮。美方某些人士把DeepSeek視為技術威脅以及指責剽竊,背後充斥着技術霸權思維與商業利益驅動的雙重標準;而國內有不少人則把DeepSeek渲染為“中美爭霸”的一擊制勝的利器,自我感覺極為良好。
DeepSeek和ChatGPT之間的關係:兩者的師承關係源於“蒸餾技術”,這是DeepSeek快速崛起的技術路徑。
以前的大模型訓練相當於使用題海戰術,在大量的數據中訓練;而蒸餾就相當於讓在題海戰術裏磨練過的優秀大模型充當新模型的老師,篩選出有效題目,再讓新的大模型訓練。因此前一個模型在業界常被稱為“教師模型”,後一個模型常被稱為“學生模型”。
通俗地説,“蒸餾技術”就是用一個較為成熟的“教師模型”訓練“學生模型”,這一過程類似低度酒蒸餾加工為高度酒。具體操作方式是,“學生模型”每分鐘上百萬次高頻提問,從“教師模型”中汲取數據、學習邏輯,然後在人工干預下優化算法,最終形成獨特的個性。ChatGPT就是DeepSeek的“教師模型”,或許不是唯一的,但肯定是主要的。因此説ChatGPT是DeepSeek的老師,不過分吧?
“蒸餾技術”不是近年來的新發明,發明者不是中國人也不是美國人,而是曾獲得2018年圖靈獎和2024年諾貝爾物理學獎的英國科學家傑弗裏·辛頓在2015年提出的。(附註:傑弗裏·辛頓教授曾在英國、美國、加拿大的大學任教,後任谷歌副總裁近7年,但在2023年從谷歌辭職。辭職原因,一是感覺自己已75歲,也應該退休了;二是對人工智能的發展感到有不可控的憂慮,AI可能會對人類構成嚴重威脅。傑弗裏·辛頓就像二戰後期美國原子彈曼哈頓計劃的“科技總監”奧本海默一樣,對自己的部分工作感到後悔。)
然而當時“蒸餾技術”只是純理論的屠龍技 —— 壓根就沒有成熟的“教師模型”,沒法蒸餾。直到ChatGPT這種成熟大模型相繼投入實際應用,“蒸餾技術”才有了實際應用的空間,因此“先有ChatGPT,後有DeepSeek”也是無法否認的事實。顯然,DeepSeek不是孫悟空從石頭縫裏蹦出來,而是站在巨人肩膀上的後續衍生產品。後來者應該坦然接受先行者的成功,尊重先行者的智力勞動成果。而如果搞“選擇型記憶,選擇型講述”,那就叫做“貽笑大方”。
實事求是講,蒸餾技術存在一個缺陷,那就是通過蒸餾訓練的模型(即“學生模型”)總是受到其“教師模型”能力的限制,這會產生一種隱形天花板效應 —— 無論蒸餾過程多麼複雜,都無法真正超越原始模型的能力。
更深層次看,它可能導致研究者更傾向於走捷徑而非尋找根本性解決方案,使問題的解決途徑“變味”。當需要將能力擴展到新領域或應對以前從未見過的挑戰時,這種限制就愈發成為問題。
當然,也不能因為DeepSeek是蒸餾技術的產物,就否認其原創性,蒸餾不等於盜竊、抄襲。要是能一抄了之,哪裏輪得到DeepSeek?在蒸餾技術的賽道上,有名有姓的玩家少説也有上百家。DeepSeek能出圈,是有幾把刷子的。“蒸餾”大同小異,人工干預的算法優化則是各顯神通,簡潔高效的算法是DeepSeek的成功關鍵,頗有別具一格的特色。
人工智能三大要素——算法、算力、數據,中國長於算法,美國重視算力。這種“偏科”傾向在各家的人工智能大模型百舸爭流的初期就已經顯現了,比如昔日以商湯為代表的視覺系AI“中國四小龍”,就是以算法著稱。
市場需要性價比高的人工智能技術,而這些企業研發則滿足了市場需求。各種奇思妙想在開放的市場中競爭、試錯,實現從量變到質變的昇華。蒸餾技術從純理論的紙上談兵,到有了ChatGPT這樣的成熟大模型開道後,這才變成真正落地,自然而然,水到渠成,不需拔苗助長。
但這並不意味着DeepSeek已經“碾壓ChatGPT,吊打英偉達”。比如,DeepSeek到底使用了多少英偉達芯片?目前網傳的説法就有三個版本:分別是五萬、一萬和兩千多,越傳越少。DeepSeek創始人梁文峯本人在採訪中説過,在2021年前後就已經囤積了一萬塊GPU。當然,無論是一萬塊還是五萬塊GPU,比起動輒幾十萬芯片的大廠產品,都是數量級的降低,值得稱讚。
在應用端,DeepSeek成功實現免費開源模式,大幅推進了人工智能的普及應用,也會產生巨大的算力需求增長。別輕看小微企業和個人用户,本地部署的聚沙成塔是巨大的潛在需求增長,如此看來,DeepSeek不是“英偉達終結者”,而是英偉達的財神爺。因此,英偉達對DeepSeek的態度非常積極,給了權威背書 ——“DeepSeek-R1是最先進的大語言模型”。
但是也應該指出的是,DeepSeek的算法優化“省芯”,並不會使人工智能領域的算力需求降低。因為實事求是地講,“蒸餾技術”和算法優化是做減法,以簡化的方式提高效率,而且蒸餾技術的技術天花板到底有多高,現在也很難判斷,未來能否實現性能全面超越,並沒有清晰的預期,因此不必刻意強調DeepSeek的原創性、創新性。師承ChatGPT的蒸餾技術、使用英偉達GPU都是無法否認的事實,又何必遮遮掩掩?“微創新”的一小步,也可以是人類科技事業的一大步。瓦特並沒有發明蒸汽機,而是改良了前輩的創作,這並不妨礙瓦特蒸汽機叩開了工業化的大門。
DeepSeek最大的優勢是性價比,算法賦能大幅降低了算力成本。省錢永遠是商業競爭的王道,絕大部分個人用户並沒有很高的專業需求,免費開源的DeepSeek更有吸引力,這是人工智能商業化應用的成功。
DeepSeek的成功完全是計劃外的市場產物。一家初始註冊資金並不高的小公司,規模不太大,也沒有“星辰大海”的高遠目標,沒有中美爭霸的宏大敍事,只有現實的市場邏輯和水到渠成的科技路徑 —— DeepSeek的初始目標是專攻金融交易,就是國內一些網民非常反感的“資本工具”。這樣一家“起於草莽”的小民企,打造了一款成功的人工智能產品,不經意間改變了整個產業,這才是科技產業發展的正常模式。
一款好產品本身,足以説明一切。DeepSeek無疑是一款好產品,至於是否具備“劃時代”的意義,無需“口頭加冕”,時間會説明一切。
又及:在越訓練越出色的人工智能面前,人類需要的是協作而非對抗,建立共贏的技術治理框架。目前和今後,面對AI倫理、AI安全這些問題(這也是身處AI時代必須警惕的問題),比如由AI生成的文字內容,以及圖片和視頻(有不少AI生成的圖片以假亂真),它們與真實信息相混合,難分彼此。其危害不只是造成社會恐慌和擾亂網絡傳播秩序,更在於對信息生態的污染和破壞。所以,人工智能的深度學習得益於多國科學家的接力突破,人工智能大模型的健康持續發展需要全球人類智慧共同澆灌。