中國AI初創企業深度求索(DeepSeek)備受期待的R2模型引發網絡熱議 | 南華早報
Ben Jiang
中國初創企業深度求索正在社交媒體上引發瘋狂猜測,外界對其下一代開源人工智能(AI)模型充滿期待。在中美科技戰愈演愈烈的背景下,該公司持續讓業界對其進展保持猜測。關於深度求索-R2——今年1月發佈的R1推理模型的繼任者——的最新猜測在週末浮出水面,包括產品即將發佈以及據稱其在成本效益和性能方面設定的新基準。這反映出在2024年12月底至2025年1月期間,深度求索因連續發佈兩款先進開源AI模型V3和R1而獲得全球關注後,網絡關注度顯著提升。這兩款模型的構建成本與算力僅為科技巨頭開發大語言模型(LLM)項目的零頭。LLM是支撐ChatGPT等生成式AI服務的基礎技術。據中國股票交易社交媒體平台九陽公社的帖子稱,R2據稱採用所謂混合專家(MoE)架構開發,總參數量達1.2萬億,構建成本比OpenAI的GPT-4o。混合專家(MoE)是一種機器學習方法,它將AI模型劃分為獨立的子網絡或專家——每個專家專注於輸入數據的一個子集——以共同完成任務。據稱這能大幅降低預訓練期間的計算成本,並在推理時實現更快的性能。
在機器學習中,參數是AI系統中訓練期間存在的變量,它們幫助確定數據提示如何產生期望的輸出。
02:51
韓國稱深度求索未經同意將數據發送至字節跳動在中國的服務器
韓國稱深度求索未經同意將數據發送至字節跳動在中國的服務器