從燒錢到落地,大模型到了該“驗收”的時候_風聞
DoNews-1小时前

撰文 | 文 林
編輯 | 楊博丞
題圖 | IC Photo
繼通用大模型的價格以釐計算之後,字節再次將多模態大模型帶入“釐時代”。
在2024年12月18日舉辦的火山引擎 Force 大會上,字節跳動正式發佈發佈豆包·視覺理解模型。同時公佈其售價為千tokens輸入0.003元,相當於一元錢就可處理284張720P的圖片。
對比claude 3.5 Sonnet的0.021元/千tokens,qwen-vl-max的0.02元/千tokens,GPT-4o的0.0175元/千tokens,豆包視覺理解模型比行業價格便宜85%。
而在此之前的5月份,字節跳動發佈的豆包大模型,其主力模型在企業市場的定價為0.0008元/千Tokens,0.8釐能處理1500多個漢字,比行業便宜99.3%,讓大模型從以分計價到以釐計價。
這一操作迫使阿里雲的三款通義千問主力模型再次降價,最高降幅達90%。百度智能雲更是直接宣佈,文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費。
不到一年半的時間,字節是如何做到在AI大模型市場後來居上?多模態大模型又發展到了哪一步?未來大模型技術在應用側的新趨勢會是什麼?
一、“卷王”豆包後來居上?
2023年是國產大模型“大爆發”的一年。
自去年3月起,眾多大廠及創新型企業紛紛亮出自研大模型產品:阿里通義千問1.0、騰訊混元、360智腦、華為盤古、科大訊飛星火、商湯日日新、百川大模型以及智譜AI的GLM等,均誕生於這一年。
作為AI起步較晚的選手,字節在去年1月才成立大模型研發團隊,8月才發佈“雲雀”大模型和對外測試AI對話產品“豆包”。

國內大模型發展時間線 圖源:第一新聲
儘管來得晚,但架不住人家漲得快。
據量子位智庫數據顯示,截至11月底,豆包2024年的累計用户規模已超過1.6億;11月平均每天有80萬新用户下載豆包,單日活躍用户近900萬,僅次於OpenAI的ChatGPT,位列全球第二、國內第一。
而今年5月發佈的豆包通用大模型,據字節跳動對外公佈的數據顯示,截至12月中旬,豆包通用模型的日均tokens使用量已超過4萬億,較七個月前首次發佈時增長了33倍。
“豆包”能有這樣增長,離不開字節這個“卷王”的大力推動。
首先就是卷流量。
據App Growing統計,截至11月15日,Kimi、豆包、星野等國內十款大模型產品,合計已投放超625萬條廣告,投放金額達15億元。其中,Kimi和豆包是投放最瘋狂的兩個產品,分別投放了5.4億元和4億元。

圖源:App Growing
當下,花錢投流買量是AI產品啓動一個最直接快捷的方式。而在各家的投放渠道中,基本都離不開字節的巨量引擎(字節跳動旗下廣告投放平台,涵蓋今日頭條、抖音、西瓜視頻等營銷資源)。
這使得背靠字節的豆包將流量池的優勢發揮到了極致。在抖音上,字節幾乎屏蔽了除豆包以外所有AI應用的投放,只留給自家的豆包。儘管重金投流能否換來超級應用無法確定,但至少目前給豆包帶來了肉眼可見的用户增長。
其次是卷產品。
從聊天助手、視頻工具,到娛樂應用、辦公領域,字節陸續推出了十幾個 AI 應用,覆蓋了幾乎所有主要 AI 產品方向。字節今年10月還推出了能與豆包語音對話的 Ola Friend 耳機,近期還在研發 AI 眼鏡。
這樣飽和式的研發,一方面能讓豆包大模型依託諸多AI應用加速迭代,另一方面則是期待AI硬件終端能拓寬豆包大模型使用場景,進而實現整個“豆包+”產業鏈閉環。
此外,豆包也在卷場景,以期在應用層面多點開花。
據瞭解,豆包大模型已經與八成主流汽車品牌合作,並接入到多家手機、PC等智能終端,覆蓋終端設備約3億台,來自智能終端的豆包大模型調用量在半年時間內增長100倍。而最近3個月,豆包大模型在信息處理場景的調用量增長了39倍,客服與銷售場景增長16倍,硬件終端場景增長13倍,AI工具場景增長9倍,學習教育等場景也有大幅增長。
可以説,豐富的內部生態、持續的資源投入、龐大的優質數據和應用場景,且都全面接入AI並相互打通,這才是豆包能成為行業“卷王”的秘訣。
二、下半場開始比拼多模態
自 OpenAI 推出 Sora,讓“一句話生成視頻”變成可能;谷歌發佈 Gemini ,可以泛化並無縫地理解、操作和組合不同類型的信息,國內主要公司就開始陸續跟進、佈局視頻、音樂、語音等多模態 AI 應用。
例如,今年5月開始,生數科技Vidu、快手可靈、字節即夢、智譜清影、商湯Vimi等都相繼發佈文生視頻模型;9月,MiniMax正式發佈視頻模型video-01、阿里雲在雲棲大會上發佈通義萬相全新視頻生成模型、美圖宣佈MiracleVision大模型完成視頻生成能力的升級;到了11月,騰訊混元大模型正式上線視頻生成能力,月之暗面旗下Kimi則被爆出正在內測AI視頻生成功能“Kimi創作空間”……多模態的“多”正在成為新的發展方向。

通過騰訊元寶APP-AI應用-AI視頻即可使用該功能 圖源:騰訊優圖實驗室
而此次火山引擎發佈的豆包·視覺理解模型,據介紹,主要能力包括:
**更強的內容識別能力:**不僅可以識別出圖像中的物體類別、形狀等基本要素,還能理解物體之間的關係、空間佈局以及場景的整體含義。**更強的理解和推理能力:**不僅能更好地識別內容,還能根據所識別的文字和圖像信息進行復雜的邏輯計算。**更細膩的視覺描述能力:**可以基於圖像信息,更細膩地描述圖像呈現的內容,還能進行多種文體的創作。
繼 GPT-4 在語言方向的里程碑式突破之後,業界普遍認為“視覺”是下一個爆發的賽道。畢竟人類的五感之中有 80% 是視覺信息,未來的大模型也應該充分利用更多種類的感官,以此探索實現 AGI 的路徑。
火山引擎總裁譚待也在採訪中表示,推出視覺理解模型相當於解鎖了一個很大的場景,同過去只有文字對話形式的AI相比,聊天功能與深度推理的、圖像視覺理解等能力的融合,能讓模型有能力處理好真實世界大量綜合性的信息,輔助人類完成一系列複雜工作。
比如,在旅遊場景中,幫助遊客看外文菜單、講解照片中建築的背景知識;在教育場景中,為學生優化作文、科普知識;在辦公場景下,除了識別內容,模型還能幫助用户分析圖表中的數據關係,處理代碼邏輯。

豆包·視覺理解模型教育場景應用案例 圖源:火山引擎 Force 大會
此外,火山引擎除了推出視覺理解模型之外,還發布、升級了多個其他模型。比如,豆包通用模型pro已全面對齊GPT-4o;音樂模型從生成60秒的簡單結構,升級到生成3分鐘的完整作品;文生圖模型2.1版本接入即夢AI和豆包App……
可以看出,儘管相比於市場同類產品,豆包系列大模型發佈的時間並不算早,但一直保持着較快速度的更新,並且將最新能力通過即夢AI、豆包App等應用,迅速開放給了普通用户使用。
而當下,AI 市場關注的重心正逐漸從“大模型”轉變到“大模型+”。除了常規的 AI 文本對話類應用,多模態的“多”正在成為新的方向。
三、大模型到了該“驗收”的時候
在2024世界人工智能大會上,百度創始人李彥宏在演講中提到,“2023年國內出現了百模大戰,其實造成了社會資源的巨大浪費,尤其是算力的浪費。”的確,無論是技術上的研發成本,還是應用上的運行成本,大模型的成長每一步都少不了真金白銀的支持。
在行業迴歸理性的今天,越來越多的AI企業意識到卷參數量、卷Token數、卷集羣規模、卷價格,其實都意義不大,大模型的商業化落地才是最需要關注的問題。
而按終端用户類型,AI大模型的商業模式可分為to C、to B。
to C:即面向個人消費者,包括免費和付費訂閲模式。免費模式如騰訊元寶、百度的文心一言(3.5版本);付費訂閲模式如百度的文心一言(4.0版本)、OpenAI的ChatGPT(4.0版本);to B:即面向企業,包括API調用授權、SaaS模式。API調用授權模式中,企業客户可在自己的應用程序或服務中集成AI功能,通常基於調用次數或數據量來計費,如阿里通義千問、智譜AI;SaaS模式中,大模型企業為客户提供軟件服務,客户無需安裝和維護軟件,如Google Cloud AI。在實際應用中,大模型企業通常混合使用多種商業模式。

圖源:AI繪圖
當下多模態大模型競爭火熱,將帶動諸多行業重塑生產環節,勢必會在以下幾個領域引發新一輪的升級與角逐:
**影音創作:**當大模型由單模態生成轉向多模態生成,AIGC應用降低了專業創作門檻,這將改變影音傳媒行業的生產模式,塑造全新內容生產範式,實現創作效率提升、創作空間拓展及作品質量提升的目標。**情緒智能:**基於最新的AI模型如GPT-4o和Gemini 1.5 Pro,未來AI陪伴將通過流式語音識別、多模態AI和情感計算等技術極大地提升互動體驗。這意味着多模態大模型將賦予機器情感價值,並通過深度分析用户的情感和行為,滿足用户的多元化陪伴訴求。**工業智造:**未來多模態大模型有望與當前普遍使用的專用小模型互補融合,深度賦能工業製造的各個環節,並隨着場景數據的整合和積累,進一步升級感知和理解能力,以滿足生產製造中的個性化需求,從而推動工業產業變革。
總之,現如今AI領域的競爭核心,已經從大模型的“有無之戰”變成了“應用之戰”。在這個階段裏,比拼的不再是宏觀概念,而是落地能力和商業化的進展。
隨着國內大模型持續迭代與升級,疊加國內GPU供應問題逐步緩解、政策牽引等,國內大模型訓推算力需求有望逐步釋放,這不僅將為大模型的落地應用進一步提速,也將給AI時代帶來新的行業機遇。