中國AI初創企業深度求索（DeepSeek）備受期待的R2模型引發網絡熱議 | 南華早報

Ben Jiang

2025-04-29

中國初創企業深度求索正在社交媒體上引發瘋狂猜測，外界對其下一代開源人工智能(AI)模型充滿期待。在中美科技戰愈演愈烈的背景下，該公司持續讓業界對其進展保持猜測。關於深度求索-R2——今年1月發佈的R1推理模型的繼任者——的最新猜測在週末浮出水面，包括產品即將發佈以及據稱其在成本效益和性能方面設定的新基準。這反映出在2024年12月底至2025年1月期間，深度求索因連續發佈兩款先進開源AI模型V3和R1而獲得全球關注後，網絡關注度顯著提升。這兩款模型的構建成本與算力僅為科技巨頭開發大語言模型(LLM)項目的零頭。LLM是支撐ChatGPT等生成式AI服務的基礎技術。據中國股票交易社交媒體平台九陽公社的帖子稱，R2據稱採用所謂混合專家(MoE)架構開發，總參數量達1.2萬億，構建成本比OpenAI的GPT-4o。混合專家（MoE）是一種機器學習方法，它將AI模型劃分為獨立的子網絡或專家——每個專家專注於輸入數據的一個子集——以共同完成任務。據稱這能大幅降低預訓練期間的計算成本，並在推理時實現更快的性能。

在機器學習中，參數是AI系統中訓練期間存在的變量，它們幫助確定數據提示如何產生期望的輸出。

02:51

韓國稱深度求索未經同意將數據發送至字節跳動在中國的服務器