豆包視覺理解模型正式發佈，比行業價格便宜85%_風聞

市象-市象官方账号-研究真问题，书写真洞察。36分钟前

2024-12-18

繼大語言模型價格以釐計算之後，視覺理解模型也宣告進入“釐時代”。

在12月18日舉辦的火山引擎 Force 大會上，字節跳動正式發佈發佈豆包視覺理解模型，為企業提供極具性價比的多模態大模型能力。豆包視覺理解模型千tokens輸入價格僅為3釐，一元錢就可處理284張720P的圖片，比行業價格便宜85％，以更低成本推動AI技術普惠和應用發展。

豆包大模型全面升級

研究顯示，人類接受的信息超過80%來自視覺。視覺理解將極大地拓展大模型的能力邊界，同時也會降低人們與大模型交互的門檻，為大模型解鎖更豐富的應用場景。

據火山引擎總裁譚待介紹，豆包視覺理解模型不僅能精準識別視覺內容，還具備出色的理解和推理能力，可根據圖像信息進行復雜的邏輯計算，完成分析圖表、處理代碼、解答學科問題等任務。此外，該模型有着細膩的視覺描述和創作能力。

圖：火山引擎總裁譚待

此前，豆包視覺理解模型已經接入豆包App和PC端產品。豆包戰略研究負責人周昊表示：“豆包一直在努力，讓用户的輸入更快更方便”。為此，豆包產品非常注重多模態的輸入和打磨，包括語音、視覺等能力，這些模型都已通過火山引擎開放給企業客户。

會上，豆包3D生成模型也首次亮相。該模型與火山引擎數字孿生平台veOmniverse結合使用，可以高效完成智能訓練、數據合成和數字資產製作，成為一套支持 AIGC 創作的物理世界仿真模擬器。

豆包大模型多款產品也迎來重要更新：豆包通用模型pro已全面對齊GPT-4o，使用價格僅為後者的1/8；音樂模型從生成60秒的簡單結構，升級到生成3分鐘的完整作品；文生圖模型2.1版本，更是在業界首次實現精準生成漢字和一句話P圖的產品化能力，該模型已接入即夢AI和豆包App。

即夢Dreamina張楠認為，生成式AI技術可以把每個人腦子裏的奇思妙想快速視覺化，“像做夢一樣”。即夢希望成為“想象力世界”的相機，記錄每個人的奇思妙想，幫助每個有想法的人輕鬆表達、自由創作。

圖：即夢Dreamina 張楠

大會正式宣告，2025年春季將推出具備更長視頻生成能力的豆包視頻生成模型1.5版，豆包端到端即時語音模型也將很快上線，從而解鎖多角色演繹、方言轉換等新能力。譚待表示，豆包大模型雖然發佈較晚，但一直在快速迭代進化，目前已成為國內最全面、技術最領先的大模型之一。

大模型應用加速落地

數據顯示，截至12月中旬，豆包通用模型的日均tokens使用量已超過4萬億，較七個月前首次發佈時增長了33倍。大模型應用正在向各行各業加速滲透。

據悉，豆包大模型已經與八成主流汽車品牌合作，並接入到多家手機、PC等智能終端，覆蓋終端設備約3億台，來自智能終端的豆包大模型調用量在半年時間內增長100倍。

與企業生產力相關的場景，豆包大模型也獲得了眾多企業客户青睞：最近3個月，豆包大模型在信息處理場景的調用量增長了39倍，客服與銷售場景增長16倍，硬件終端場景增長13倍，AI工具場景增長9倍，學習教育等場景也有大幅增長。

譚待認為，豆包大模型市場份額的爆發，得益於火山引擎“更強模型、更低成本、更易落地”的發展理念，讓AI成為每一家企業都能用得起、用得好的普惠科技。

在公佈豆包視覺理解模型超低定價的同時，火山引擎升級了火山方舟、釦子和 HiAgent 三款平台產品，幫助企業構建好自身的 AI 能力中心，高效開發 AI 應用。其中，火山方舟發佈了大模型記憶方案，並推出 prefix cache 和 session cache API，降低延遲和成本。火山方舟還帶來全域 AI 搜索，具備場景化搜索推薦一體化、企業私域信息整合等服務。

雲原生是過去十年最重要的計算範式，大模型時代則推動着雲計算的變革。火山引擎認為，下一個十年，計算範式應該從雲原生進入到AI雲原生的新時代。

基於AI雲原生的理念，火山引擎推出了新一代計算、網絡、存儲和和安全產品。在計算層面，火山引擎GPU實例，通過vRDMA網絡，支持大規模並行計算和P/D分離推理架構，顯著提升訓練和推理效率，降低成本；存儲上，新推出的EIC彈性極速緩存，能夠實現GPU直連，使大模型推理時延降低至1/50、成本降低20%；在安全層面，火山將推出PCC私密雲服務，構建大模型的可信應用體系。基於PCC，企業能夠實現用户數據在雲上推理的端到端加密，而且性能很好，推理時延比明文模式的差異在5%以內。

譚待説：“今年是大模型高速發展的一年。當你看到一列高速行駛的列車，最重要的事就是確保自己要登上這趟列車。通過AI雲原生和豆包大模型家族，火山引擎希望幫助企業做好AI創新，駛向更美好的未來。”