DeepSeek新模型開源發佈,參數量達6710億
【環球網科技綜合報道】5月1日消息,DeepSeek於4月30日在AI開源社區Hugging Face上正式發佈了一款名為DeepSeek-Prover-V2-671B的新模型。
據悉,DeepSeek-Prover-V2-671B模型參數規模高達6710億,或為去年發佈的Prover-V1.5數學模型的升級版本。該模型採用了更為高效的safetensors文件格式,並支持多種計算精度,使得模型在訓練和部署過程中更加迅速且資源消耗更低。在模型架構上,DeepSeek-Prover-V2-671B繼承了DeepSeek-V3的先進設計,採用了混合專家(MoE)模式,擁有61層Transformer層和7168維的隱藏層,極大提升了模型的複雜處理能力。

尤為值得一提的是,DeepSeek-Prover-V2-671B支持超長上下文處理,最大位置嵌入達到163840,這一特性使其能夠輕鬆應對複雜的數學證明任務。此外,模型還採用了FP8量化技術,有效減小了模型體積,同時提高了推理效率,為AI在數學領域的應用開闢了新的可能。(純鈞)