百川智能發佈一站式大模型商業化解決方案

2024-10-31

【環球網科技綜合報道】10月31日消息，百川智能推出一站式大模型商業化解決方案，即1+3產品矩陣（全鏈路優質通用訓練數據，Baichuan4-Turbo、Baichuan4-Air兩款模型和全鏈路領域增強工具鏈），旨在幫助企業以最低成本實現效果最佳的私有化部署。

眾所周知，儘管大模型具備良好的泛化能力，但由於每個企業都有自身獨特的專業知識和應用場景，直接應用通用模型無法達到理想效果，必須對模型進行定製化優化使其適應特定領域和場景需求，而優化後模型在多場景下的可用率是評估其價值的關鍵標準。

為此，百川智能將自用的優質預訓練數據、SFT微調數據、強化學習中的通用訓練數據，以及自研的超參自動化搜索和調優技術、數據動態自適應配比技術等統一封裝，打造了一套全鏈路優質通用訓練數據方案。

據悉，成本是影響企業應用大模型的另一個重要因素，不同場景階段，企業對模型性能和成本的要求各不相同。為更好滿足行業用户的多樣化需求，百川智能對兩個模型進行了差異化定位。

具體而言，Baichuan4-Turbo的文本生成、知識問答、多語言處理等核心能力相比Baichuan 4均有顯著提升，只需2卡4090的算力即可完成部署。而Baichuan4-Air則更適用於已經驗證過的較大規模流量的場景，其效果與Baichuan 4基本持平，推理成本為Baichuan 4的1%，百萬Token只需0.98元。

此外，兩款模型的響應速度也均提升顯著，相比Baichuan 4，Baichuan4-Turbo首Token速度提升51%、Token流速提升73%；Baichuan4-Air的首Token速度提升77%、Token流速提升93%。

值得一提的是，作為百川智能的首個MoE（Mixture of Experts）模型，Baichuan 4-Air首創了PRI（Pyramid、Residual、Interval）架構。與標準的MoE架構相比，Baichuan4-Air保持了MLP（多層感知機）和Attention（注意力機制）的內部結構不變，僅對混合專家MLP層的配置方式進行優化，通過合理配置專家數量和激活策略，能夠更好地平衡計算負載，減少計算量，提高推理速度。

企業在部署模型過程中還面臨着專業算法人才稀缺，模型調優技術門檻高等阻礙。面向這些痛點，百川智能打造了簡單易用的全鏈路領域增強工具鏈。該工具鏈集成了數據抓取、數據清洗、數據增強、模型訓練、模型評測、模型壓縮和模型部署等諸多工具，企業可以根據自身需求自由選擇相應工具，對模型進行加密部署和訓練。

此外，百川智能還通過大量適配工作解決了不同硬件的適配問題，目前能夠高效適配多種主流芯片。