豆包視覺理解模型正式發佈,比行業價格便宜85%_風聞
市象-市象官方账号-研究真问题,书写真洞察。36分钟前
繼大語言模型價格以釐計算之後,視覺理解模型也宣告進入“釐時代”。
在12月18日舉辦的火山引擎 Force 大會上,字節跳動正式發佈發佈豆包視覺理解模型,為企業提供極具性價比的多模態大模型能力。豆包視覺理解模型千tokens輸入價格僅為3釐,一元錢就可處理284張720P的圖片,比行業價格便宜85%,以更低成本推動AI技術普惠和應用發展。
豆包大模型全面升級
研究顯示,人類接受的信息超過80%來自視覺。視覺理解將極大地拓展大模型的能力邊界,同時也會降低人們與大模型交互的門檻,為大模型解鎖更豐富的應用場景。
據火山引擎總裁譚待介紹,豆包視覺理解模型不僅能精準識別視覺內容,還具備出色的理解和推理能力,可根據圖像信息進行復雜的邏輯計算,完成分析圖表、處理代碼、解答學科問題等任務。此外,該模型有着細膩的視覺描述和創作能力。

圖:火山引擎總裁譚待
此前,豆包視覺理解模型已經接入豆包App和PC端產品。豆包戰略研究負責人周昊表示:“豆包一直在努力,讓用户的輸入更快更方便”。為此,豆包產品非常注重多模態的輸入和打磨,包括語音、視覺等能力,這些模型都已通過火山引擎開放給企業客户。
會上,豆包3D生成模型也首次亮相。該模型與火山引擎數字孿生平台veOmniverse結合使用,可以高效完成智能訓練、數據合成和數字資產製作,成為一套支持 AIGC 創作的物理世界仿真模擬器。
豆包大模型多款產品也迎來重要更新:豆包通用模型pro已全面對齊GPT-4o,使用價格僅為後者的1/8;音樂模型從生成60秒的簡單結構,升級到生成3分鐘的完整作品;文生圖模型2.1版本,更是在業界首次實現精準生成漢字和一句話P圖的產品化能力,該模型已接入即夢AI和豆包App。
即夢Dreamina張楠認為,生成式AI技術可以把每個人腦子裏的奇思妙想快速視覺化,“像做夢一樣”。即夢希望成為“想象力世界”的相機,記錄每個人的奇思妙想,幫助每個有想法的人輕鬆表達、自由創作。

圖:即夢Dreamina 張楠
大會正式宣告,2025年春季將推出具備更長視頻生成能力的豆包視頻生成模型1.5版,豆包端到端即時語音模型也將很快上線,從而解鎖多角色演繹、方言轉換等新能力。譚待表示,豆包大模型雖然發佈較晚,但一直在快速迭代進化,目前已成為國內最全面、技術最領先的大模型之一。
大模型應用加速落地
數據顯示,截至12月中旬,豆包通用模型的日均tokens使用量已超過4萬億,較七個月前首次發佈時增長了33倍。大模型應用正在向各行各業加速滲透。
據悉,豆包大模型已經與八成主流汽車品牌合作,並接入到多家手機、PC等智能終端,覆蓋終端設備約3億台,來自智能終端的豆包大模型調用量在半年時間內增長100倍。
與企業生產力相關的場景,豆包大模型也獲得了眾多企業客户青睞:最近3個月,豆包大模型在信息處理場景的調用量增長了39倍,客服與銷售場景增長16倍,硬件終端場景增長13倍,AI工具場景增長9倍,學習教育等場景也有大幅增長。
譚待認為,豆包大模型市場份額的爆發,得益於火山引擎“更強模型、更低成本、更易落地”的發展理念,讓AI成為每一家企業都能用得起、用得好的普惠科技。
在公佈豆包視覺理解模型超低定價的同時,火山引擎升級了火山方舟、釦子和 HiAgent 三款平台產品,幫助企業構建好自身的 AI 能力中心,高效開發 AI 應用。其中,火山方舟發佈了大模型記憶方案,並推出 prefix cache 和 session cache API,降低延遲和成本。火山方舟還帶來全域 AI 搜索,具備場景化搜索推薦一體化、企業私域信息整合等服務。
雲原生是過去十年最重要的計算範式,大模型時代則推動着雲計算的變革。火山引擎認為,下一個十年,計算範式應該從雲原生進入到AI雲原生的新時代。
基於AI雲原生的理念,火山引擎推出了新一代計算、網絡、存儲和和安全產品。在計算層面,火山引擎GPU實例,通過vRDMA網絡,支持大規模並行計算和P/D分離推理架構,顯著提升訓練和推理效率,降低成本;存儲上,新推出的EIC彈性極速緩存,能夠實現GPU直連,使大模型推理時延降低至1/50、成本降低20%;在安全層面,火山將推出PCC私密雲服務,構建大模型的可信應用體系。基於PCC,企業能夠實現用户數據在雲上推理的端到端加密,而且性能很好,推理時延比明文模式的差異在5%以內。
譚待説:“今年是大模型高速發展的一年。當你看到一列高速行駛的列車,最重要的事就是確保自己要登上這趟列車。通過AI雲原生和豆包大模型家族,火山引擎希望幫助企業做好AI創新,駛向更美好的未來。”