豆包模型上新,字節繼續卷性價比_風聞
直面派-直面派官方账号-讲述值得讲述的真实故事,直面生活、命运和内心33分钟前

這兩天,字節又出手了,一口氣放出一堆大貨。
豆包大模型1.6、豆包·視頻生成模型 Seedance 1.0 pro、豆包·語音播客模型,豆包·即時語音模型…全家桶式上新,看着熱鬧。
如果你只是掃一眼上述產品,可能覺得就是大廠又來了一波例行升級,沒什麼特別的。現在AI圈更新節奏這麼快,新模型、版本號、榜單名次一大堆,確實不太容易提起興趣。
但稍微往下看一看,會發現這次字節的做法不太一樣。它並沒有靠一兩個參數或者演示視頻來搶風頭,而是開始把模型能力做成一整套“能直接跑起來”的應用,從文字、圖像、視頻,到語音、操作系統,全都串在了一起,而且不少是直接掛進了豆包APP、火山方舟這些已經在用的產品裏。
我們就從兩個核心產品説起。
Seedance 1.0 Pro 實測表現:穩定、成型,但仍有邊界
如果只看熱度,這幾個產品中Seedance應該是被關注度最高的了。
它剛上線就登上了第三方榜單Artificial Analysis的文生視頻和圖生視頻兩項第一,超過了可靈2.0和谷歌的Veo 3。榜單怎麼評的我們可以再討論,但至少説明在業內標準下,Seedance的生成效果已經達到了主流模型中的較好水平。

我們來看下這個模型的基本情況。
**Seedance 1.0 Pro支持文字和圖片輸入,能生成10秒左右的1080p視頻,支持2-3個鏡頭切換。**它的主要特點,是強調鏡頭之間的連貫性和內容的穩定性。

這點在之前的視頻生成模型裏,確實是個短板。很多模型雖然能出圖像,但內容連不起來,主角突然消失或者背景抖動都很常見。
Seedance解決這個問題的方式,是把每個鏡頭的內容用文字描述得更細,官方叫「精準描述模型」。它先生成一段描述,然後再根據這個描述訓練視頻。這種方式能讓模型更好地知道該生成什麼內容,也更容易控制住動作和細節。
Seedance能生成的視頻風格也比較多樣,可以支持航拍、第一人稱、動畫、水墨等多種風格。這點其實各家模型都有類似能力,只是Seedance在這方面的完成度和一致性更高一些。
生成速度方面,5秒的1080p視頻只需大約40秒,這個速度屬於目前行業中等偏上的水平。
來看一下我們實測的成果(每個維度我們都測試了多個case,篇幅限制只展示其中的一個):
鏡頭語言
prompt:夜晚的加油站,一個男人戴上頭盔騎上摩托車,發動,駛出油站,鏡頭跟拍他的背影穿過街道,途中掠過霓虹招牌和迎面駛來的車輛。
這段主要是測試Seedance的快速運動+連續鏡頭能力,看它有沒有剪輯感,能不能Hold住快節奏。
結果還是可以的。騎上摩托車時是一個典型的近景靜態鏡頭,畫面很乾淨。發動的瞬間光影有了變化,鏡頭在車啓動後跟着往前推進。
Seedance 在鏡頭語言這塊,能理解基本拍法;節奏上有控制,不會一頓快切、也不會死板地不動;鏡頭轉場不是很生硬堆疊,但是它對複雜軌跡、非線性鏡頭的理解還不夠穩定。
物理運動
prompt:雨中,一個穿風衣的男子奔跑穿過狹窄的街道,踩過水坑,雨水四濺,鏡頭從後側跟拍。
看動作+環境干擾下的運動穩定性。結果比較穩。奔跑時人物姿勢正常,地面確實有積水反光,踩到水坑的時候,地面有明顯的水花濺起,鏡頭也給了點前搖的動態。雨水本身是做出來了,但稍微有些貼圖感,也就是説是視覺效果,但沒有明顯的深度和飄動軌跡。
但整個奔跑過程中人物沒崩,衣服也不是貼在身上的那種塑料感,而是有輕微飄動,這就已經説明Seedance在動態建模上的一致性控制能力比較強了。
人物表演
prompt:拳擊手被擊倒,努力掙扎着站起來,臉上滿是汗水和倔強。
Seedance 1.0 Pro在情緒這一塊沒有做到極致,但比起過去同類模型,它已經邁出了一大步。表情控制能力還在進化中,細節依然有侷限,比如嘴角和眼角的肌肉反應不夠細膩,面部變化也不總是連續的。但它確實可以表現出“笑、憂慮、驚恐、緊張、堅定”這些基礎情緒,而且不是固定臉譜,而是能隨着上下文變化表現方式。
這次模型發佈之後,Seedance已經接入了即夢(視頻3.0 Pro)和豆包APP(底部的「照片動起來」),用户可以直接使用,也可以通過火山引擎API接入自己的業務。在價格上也比較低,每千tokens只需1分5,相當於每條5秒視頻大概3.67元。在大批量視頻需求下,這個成本屬於比較可控的範圍。
不過**,Seedance目前仍然有一些限制。**比如生成時長基本控制在10秒以內,鏡頭切換雖然支持了2-3個,但還沒看到更復雜腳本的能力。生成也不是很穩定,想要得到滿意的視頻,無法擺脱多roll的命運。。
豆包1.6:
在多模態和操作上邁了一步
再來看豆包1.6,這是這次發佈中更偏向通用模型的更新。它主要更新了三個版本:主力版(doubao-seed-1.6)、深度思考版(doubao-seed-1.6-thinking)和極速版(doubao-seed-1.6-flash)。豆包1.6整體能力進入第一梯隊,在多項權威評測中得分提升明顯,尤其是數學和推理相關任務。

具體來看,**這一代模型加強了邊想邊搜和DeepResearch能力。**現在你可以從火山引擎的AI體驗中心試用。


用户可以直接請求它完成某些複雜任務,模型可以拆分任務、搜索資料、提煉內容,最後生成報告。這類功能我們在GPT-4和Claude裏也能看到,不過豆包的方式更適合國內用户,點開即用,不需要熟悉複雜操作流程。
豆包1.6最強的還是多模態的實用能力。不是説能識圖、能看視頻就算多模態,而是把這些能力落到具體場景裏。
這類任務不只依賴語言生成,而是能把圖像、動作、提示詞之間的信息整合起來,而豆包1.6確實在這個方向上做了一些實用嘗試。
另一個值得一提的點是操作能力。AgentKit現在支持圖形界面操作,可以打開網頁、填寫表單、瀏覽圖片、下單預定。
比如輸入“打開豆瓣電影,找今天在北京正在上映的電影,選擇一部評分最高的,打開購票頁面並截圖停留。”它會依次打開網站、查找電影、篩選條件,最後再確認下單。這種功能的完成度已經不低,適合做一些流程重複、邏輯明確的輕任務。

**價格方面,豆包1.6也重新定了策略。**現在所有任務都採用統一定價模型,不管是文字生成還是圖像分析,價格按輸入長度劃分,最常見的0-32K區間是輸入0.8元/百萬tokens,輸出8元/百萬tokens。和豆包1.5thinking比起來,綜合成本降低了大約63%。簡單説,價格更接近豆包1.0,但能力是它的多倍。

OpenAI 卷能力,字節在卷什麼?
這次更新背後,其實是字節模型策略的一種延續。它並沒有在單一模型參數上卷得特別兇,而是強調組合能力和產品落地。
在To C端,豆包已經在做APP化,用“聊天+工具”的形態把模型包裝起來;而在To B端,它依託火山引擎提供一整套AI服務,從基礎模型API到完整解決方案。字節大模型的更新節奏不是盲目提速,而是配合業務工具一起同步走,比如最近更新的PromptPilot(提示詞調優工具)、AgentKit(智能體開發平台)、多模態工作台、甚至是視頻生成場景的Seedance,都和模型不是割裂的,而是集成式設計。
這和OpenAI、百度的路線相比,是有差異的。**OpenAI繼續把重點放在通用性極強的超級模型上,**比如GPT-4o就把語音、圖像、文字合成成一個統一的輸入輸出邏輯,目標是成為人類界面;百度雖然也做了很多產業鏈整合,但仍保留較多平台化概念,部分場景需要開發者二次拼裝。
字節已經不是在卷模不模型的事情了,而是在卷能不能用起來的事情。
在這點上,它有點類似微軟Copilot那一套邏輯,但又有自己的中國式打法。微軟的優勢是Office生態綁定企業,而字節的打法是基於內容+工具的雙生態:一邊用內容業務抖音等檢驗模型生成能力,另一邊用火山引擎輸出服務,把能力變成服務,最終變成一個系統級產品。
而且,從內部資源分配來看,字節的策略也很清晰:模型團隊不單打獨鬥,很多模塊直接協同產品線出需求,比如語音播客、視頻生成、搜索推薦,這樣模型迭代就不是閉門造車,而是從一開始就和實際場景掛鈎。
大廠AI模型開始加速奔跑
聊到這裏,其實繞不開的一個問題就是:現在這些大廠在AI這件事上,到底捲到什麼程度了?
從阿里、騰訊到字節,確實都在提速,而且每家的方向有點不一樣。
阿里的重心放在模型規模和通用能力,比如Qwen家族主打大上下文和工具鏈,目標是拉齊OpenAI那一套能力,尤其強調開源這一點
騰訊更多強調業務融合,Agent部署做得早,重點是To B場景,比如政務、企業服務等,推出了元器這種產品
而字節這邊,很明顯是以內容和多模態作為核心陣地,從豆包模型、Seedance視頻、再到語音播客,都是圍繞內容生成和產品應用來做的。
它們走的路線不太一樣,但節奏都快。你會發現,這一年裏,模型迭代不再是每半年一次,而是每兩三個月就來一波。有的是版本更新,有的是新產品掛鈎。但共同點就是,大家都已經不是在比有沒有,而是在比用得起、用得上、用得快。
而且有個趨勢也挺明確的:**AI已經不是實驗室裏跑分的東西了。**你發佈一個模型,別人不再只關心你的推理速度和BLEU分,而是問一句——能不能掛到網頁上?能不能在手機裏跑?價格怎麼樣?是不是能直接接到現有系統裏?
從這個角度看,字節這波模型更新雖然沒有太多行業第一的技術噱頭,但確實做得比較紮實。不管是Seedance的視頻質量,還是豆包1.6的多模態能力,起碼給到了一些可以拿去用的東西。對於開發者也好,中小企業也好,現在更在意的是這些東西能不能用、成本怎麼樣、部署複雜不復雜,而不是你參數多大。
所以到頭來,大廠在AI這場競爭裏,其實比的不是誰先造出最強的大模型,而是誰先把模型做成產品,誰先讓用户真正用起來,誰能在不增加使用門檻的前提下,撐住規模和成本。
現在這個階段,大家都還在跑,但已經能看出幾個不同方向的勢能了。接下來要看的,也許不是誰先出GPT-5級別的模型,而是誰能真正把AI塞進每一個具體應用場景裏,讓它像水電網那樣成為基礎設施。誰做得越快、越穩,就越可能在這場AI基礎設施競賽裏,走得更遠。
【直面派】原文 -- 講述值得講述的真實故事,直面生活、命運和內心