體驗完字節所有的 AI 產品,殺手級 AI 應用可能比想象中更遠_風聞
极客公园-极客公园官方账号-30分钟前

字節跳動在 AI 時代的動作非常堅決,正在以火力覆蓋的方式尋找下一個超級應用。
作者 | 連冉
編輯 | 鄭玄
字節的豆包,悄悄成了國內用户最多的原生 AI 應用。
最近一場活動上,字節跳動產品和戰略副總裁朱駿透露:5 月中,豆包的月活已經達到 2600 萬。目前,豆包 APP 下載量超 1 億,平台上創建的智能體數超過 800 萬。從月活來看,豆包已經超過了今年以來大火的 Kimi Chat 和百度文心一言。
雖然字節的豆包大模型(原雲雀大模型)去年 8 月才推出,但不到一年時間,無論是從模型層還是應用層的發佈來看,字節跳動都已經成為發佈數量最多的公司——據極客公園不完全統計,到目前,字節跳動已經有 11 款 AI 產品。
與以往在 XR、地產、教育、SaaS 等領域啓動新業務線的「高調」不同,在生成式 AI 爆火的一年半里,字節跳動的打法可以用一個古代行軍打仗的成語來形容:就是**「銜枚疾進」**。
一方面,字節搭建了有着全明星陣容的技術中台,並推動各個業務線嘗試擁抱 AI,還組織多個新團隊探索各個領域的原生 AI 應用。另一方面,與投入的力度相比,字節在 AI 領域的發聲卻極其低調。在今年 5 月之前,只有飛書發佈了一個智能體相關的新應用。而據極客公園瞭解,去年字節曾有多個團隊希望發佈 AI 產品,但都被高層壓了下來。
低調不代表沒有實力,實際上在不少行業人士眼中,字節就被認為是國內最有可能在這波技術浪潮裏做出殺手級大模型或原生 AI 應用的國內大廠。原因至少有四:
字節在AI領域有很強的積累,其本身是全球最早將 AI 技術大規模用於信息分發,並在過去幾年裏積累了海量的 GPU 算力資源。
作為移動互聯網時代的連續依靠今日頭條、抖音等產品突破國內 BAT 天花板的創業公司,字節有着國內最頂尖的產品研發和運營團隊。
作為今日頭條、飛書、抖音、番茄小説等產品的母公司,字節跳動擁有龐大的用户基礎和內容生態,積累了海量的優質數據。
後者的重要性不言而喻,它是推動 AI 技術發展和應用的關鍵"燃料"。
最後也是最重要的一點:
**背靠抖音的字節有着國內甚至全球最優質的流量池。**很多創業者夢寐以求的百萬千萬日活,對字節來説「輕輕」推一下就能達成。
這就像當年遊戲行業的騰訊,字節不用擔心流量,只需要做出好產品即可。
毫無疑問,字節是國內原生 AI 應用的種子選手,這或許也是字節選擇「銜枚疾進」的原因。而進入 5 月,隨着豆包大模型的發佈,字節的 AI 戰略顯然要進入下一階段。在這個時間節點,極客公園梳理並體驗了目前字節所有已經公佈的 AI 產品,希望通過這種方式探究這些產品背後的思維方式,並藉此窺見字節全盤 AI 戰略的一角。
01
火力覆蓋:不錯過
任何一個品類
窮則精準打擊,富則火力覆蓋。後者用來形容字節在 AI 應用領域的戰略再恰當不過。
據極客公園不完全統計,去年 8 月至今,字節跳動在 AI 領域一共推出了 8 款大模型、2 個智能體開發平台,和接近 20 個原生或基於現有產品的 AI 應用。
如下圖所示,極客公園對字節跳動目前的 AI 產品進行了分類整理:

整體來看,字節的 AI 產品體系覆蓋了最基礎的模型層、開發 Agent 的中間層,以及落到產品層面的應用層。其中模型層和中間層都比較常規,應用層則呈現出非常明顯的多元化,可以説是百花齊放。
根據極客公園的統計來看,在已經公佈的產品中,字節已經覆蓋了聊天、社交、圖像/視頻、教育、音樂等領域,其中既有 Dreamina、CodeGen 等偏生產力的工具型產品,也有貓箱(原話爐)、豆包這種更 ToC 的應用。
在產品層面,字節基本上不會錯過任何市面上比較熱門的品類,上述產品基本都可以在市場上找到對標。比如 AI 對話類產品豆包,有 ChatGPT、文心一言和 Kimi;AI bot 開發平台釦子,則對標 GPTs;「貓箱」(原「話爐」)對標的是 MiniMax 的「星野」;教育產品 Gauthmath,類似的有猿輔導的數學學科產品;還有海綿樂隊,海外的 Suno 和國內崑崙萬維的天工都是同類產品。
可以看出,在過去一年,字節正在復現移動互聯網時代「App 工廠」的魄力,技術和產品團隊一直在迅速前進。
02
產品體驗:
字節想做什麼?
極客公園按圖索驥,體驗了一圈字節的產品。這裏我們挑選了三個比較有代表性的產品和大家重點聊一下:分別是豆包****、****「貓箱」和剪映「即夢 Dreamina」。
豆包
豆包是字節跳動基於豆包大模型(原雲雀大模型)開發的 AI bot,可以看到豆包有輔助寫作、圖像生成、AI 搜索、PDF 問答、翻譯、網頁摘要等諸多基礎功能。下載桌面版後,還可以開通設置權限,讓桌面上的每一個應用都接入 AI。

豆包使用頁面|圖片來源:極客公園
在豆包上,可以自行創建各式各樣的智能體。字節跳動產品與戰略副總裁朱駿此前在發佈會上提到,團隊成員在豆包上捏了一個英語老師的智能體。除了用自然語言定義了「這個老師需要用英文對話,並且在對話中隨時指正用户的語法錯誤」這個功能,也定義了該成員自己喜歡的聲音和形象。平時在路上和「他」用語音消息的方式對話,回到家還會用實時通話模式來模擬英語口語對話。
從筆者個人的使用體感來看,字節跳動的豆包與百度的文心一言並沒有太大區別,只是目前,豆包的使用還是免費的,這在一定程度上降低用户的嘗試和使用成本,而文心一言則已經需要付費才能調用文心大模型 4.0 並解鎖高級功能,

文心一言的會員價格|圖片來源:極客公園
進一步的體驗中,豆包的 TTS 語音技術令筆者眼前一亮。在創建智能體時,只需朗讀一小段文字,即可即刻生成與自己聲音別無二致的智能體。

在對話中,豆包上的智能體在回覆時會在括號里加點語氣詞來模擬真人的説話語氣,互動更自然。

這一點背後是字節跳動很早對很大力度優化語音交互體驗的投入,包括基於大模型的 ASR 和超自然的 TTS 音色,這些都是為了儘量做到類似和真人對話的感受。
豆包幾乎是國內最早確立語音交互入口作為默認交互界面的大廠,後來其他公司陸續跟進了這一功能。
貓箱
「話爐」是一款以 AI 角色為核心的社交應用,同樣由抖音豆包大模型驅動,和豆包數據互通。4 月 11 日,「話爐」改名為「貓箱」。
「貓箱」的特點在於其高自由度的互動內容和由用户決策影響的故事走向,這給了用户一種全新的社交娛樂方式。
在貓箱的體驗中,一進入應用,筆者就被推薦了一系列 AI 角色,他們各具特色,讓筆者迫不及待想要開始對話。
「貓箱」支持文字和語音兩種輸入方式,這讓交流變得更加自然和便捷。在與 AI 角色的對話中,筆者發現筆者的每一個決策都會影響故事的發展,這種參與感讓人彷彿置身於一個真實的故事世界中。每一次選擇都可能導致不同的故事走向,這種體驗起初讓筆者感到樂此不疲。
如果用户對當前的虛擬角色感到乏味,「貓箱」提供了一個簡單而直觀的解決方案:只需輕輕一劃,就能刷新出全新的虛擬夥伴。這種類似抖音上下滑動短視頻的設計,「以前刷短視頻 現在刷智能體」,讓筆者體驗到了從言情到玄幻、從猜謎遊戲到日常閒聊的多樣化聊天樂趣,每一次刷新都是一次全新的探索。
但新鮮感很短暫。初見各具特色的 AI 角色,對話下來發現大同小異,它們的回答和反應模式逐漸顯露出一種機械化的重複性,缺乏真實人類交流中的複雜性和不可預測性。儘管語音輸入是比打字省事多了,但講話講久了,不自覺期待一些其他的玩法。很遺憾,現在還沒看到。
儘管「貓箱」的語音輸入功能確實為交流帶來了便利,讓筆者能夠更自然地與 AI 角色對話,但長時間的交流後,筆者開始渴望更多的互動方式,期待能夠通過更多元化的玩法來豐富這種交流體驗,遺憾的是,在目前的版本中,更有新意的功能還未出現,這讓筆者對這款 APP 的長期吸引力產生了疑問。
人真的有這麼多話可以説嗎?在跟一個純粹虛幻的 AI 產品對話的過程中,得到的快感有多少?這樣的產品吸引力能持續多久?
疑問過後筆者強迫自己多刷了好一會兒,可能因為在霸總頻道停留的時間略微久了一點,「貓箱」給筆者推薦的霸道總裁越來越多了。

「貓箱」裏的霸總|圖片來源:極客公園
這一點跟抖音的個性化推薦別無二致,但區別在於,「貓箱」並不能查看各個 AI 角色的互動數據,比如點贊、轉發和評論數。而這些互動機制是抖音平台設計的一部分,讓用户能夠發現和觀察內容的熱度,也讓平台能夠了解哪些內容受歡迎,並據此進行內容推薦。

「貓箱」使用頁面除了可以查看聊天記錄,再有就是點擊心形符號對角色進行收藏,分享渠道也相對簡單|圖片來源:極客公園
雖然也支持對外分享,但目前頁面設置來看,一方面,「貓箱」似乎更傾向於私人化體驗,用户可能無法看到其他人在玩什麼,社交性不足,交流有所受限,但這樣的設計也減少了社交影響,讓用户的注意力能夠更集中在互動本身;另一方面,相比用户之間的社交互動,「貓箱」可能更強調用户與 AI 角色的互動,這種設計看起來是在進行一些 AI 原生的人機交互探索。
在這樣的前提下,要讓用户愛上使用這個產品,想來就更考驗 AI 角色本身的交互性以及內容的創造性了。
即夢 Dreamina
前段時間,字節旗下 AI 創作平台「即夢 Dreamina」的視頻生成功能也開放測試。筆者上手體驗了一下。
可以看到「即夢 Dreamina」的頁面非常簡潔,主要有 AI 作圖、AI 視頻兩大功能分區。

不過從側邊欄看,AI 工具有:圖片生成、智能畫布、視頻生成以及尚未開通的故事創作四項。
筆者這次主要體驗了視頻生成功能,先試文本生視頻,輸入了一段簡短的文字:

可以看到有隨即運鏡、推進、拉遠、順時針旋轉以及逆時針旋轉 5 種鏡頭運動,16:9、4:3、1:1、3:4、9:16 5 種視頻比例以及慢速、中速、快速 3 種運動速度。

生成視頻需要 12 積分,系統每天會贈送 60 個免費積分。
等待了約兩分鐘後,「即夢 Dreamina」給筆者生成了一個 3 秒的視頻。在這短短的三秒中,畫面中的金色短髮女生看起來是通過轉頭、嘆氣以及眼角似有若無的淚水錶達了傷心以及思考。
可以看到在生成視頻下方有三個創作選項:再次生成、重新編輯和延長 3 秒。再次生成同樣需要花費 12 積分。延長 3 秒要開通 69 元的月度 VIP 才可以。

69 元的會員權益包括單月 505 積分,下載無水印視頻以及延長視頻生成時長、第多種音色以及視頻對口型。
由於筆者先沒有開通會員,只是又花了 12 個免費積分重新生成了一個 3 秒的視頻:
這一次生成的視頻自動從側面轉向正面,但是視頻中女主的右眼雙眼皮好像有點不利索,眨巴的速度輕微落後於左眼,感覺還不如第一次生成的符合預期?
充個會員看看給出的效果能不能好點?
這是筆者輸入的文字提示詞:春江花月夜,一個身穿旗袍的盤發女子,正走在蘇州河畔,她好像迷路了,正好有人走過,她走上前問路,那人卻不耐煩地推開了她。
這是筆者花了 69 元開了會員,使用了延遲 3 秒以及對口型(需要花費 36 積分)等會員功能後生成的視頻,總體還是怪怪的不説,後半句的文字內容也沒有呈現出來。
從目前生成的效果來看,「即夢 Dreamina」能吸引到的可能也就是那些對視頻創作感興趣但可能缺乏專業技能的用户羣體。平台通過積分系統和會員服務,提供了一個激勵機制,試圖鼓勵用户進行創作併為增值服務付費。但從現在生成視頻質量的穩定性與精細性來看,「即夢 Dreamina」背後的 AI 算法還需要不少優化。
03
「人盯人防守」下,創新還未出現
從去年 8 月推出豆包大模型(原雲雀)以來,不到一年時間,字節跳動已經推出了 11 款 AI 產品,覆蓋 Agent 定製、聊天、社交、圖像/視頻、辦公、教育、電商內容創作、音樂、教育以及代碼生成等領域,基本覆蓋了當前應用層創業的主流方向——可以説,目前所有的產品範式,都有字節參與的身影,幾乎是採用了「人盯人防守」的打法。
同時,字節內部很可能也存在一個國內國外雙輪驅動的產品發展戰略:即通過在海外市場先行測試產品,驗證 PMF 和提升產品與技術的匹配度,以利於在國內推出更成熟的 AI 應用,保持市場競爭優勢。目前在國內市場上,字節跳動依託自主研發的「雲雀」大模型提供技術支撐,而在國際市場上,則至少部分採用了基於 GPT 的技術服務。
比如 AI 對話類產品豆包,海外版為 Cici ;對標 GPTs 的 AI bot 開發平台釦子,海外版為 Coze;AI 角色交流工具「話爐」,海外版為 BagelBell;AI 工具合集「小悟空」,海外版本為「ChitChop」……
字節跳動的優勢在於它在移動互聯網時代,積累下的最多的數據,最多的流量,以及較多的算力,但它目前並沒有展現出與 OpenAI 所不同的明確看準的下注方向,而在全面的確保不掉隊,能跟上。
同時,作為產品大廠,字節在產品上也在探索 AI 原生功能,比如「貓箱」目前似乎更傾向於私人化體驗,用户可能無法看到其他人在玩什麼,在設計上可能更強調用户與 AI 角色的互動,而不是用户之間的社交互動。
幾輪體驗下來,可以感覺到現階段,這些產品整體並不成熟,這點在我們與業內人士的交流中也得到了印證。換句話説,儘管這些產品或服務在概念上具有創新性,但實際的吸引力卻並不如預期。一些智能體給出的場景設定或許有趣,但反饋多依託於用户的聊天技巧,如果用户不能很好地設置或者調動智能體,使用體驗感多會低於預期。
從用户的角度來看,目前市場上「貓箱」這類的 AI 對話產品在功能上看起來頗為相似,無論是角色扮演還是對話交流,大多數都依賴於文本或多模態交互。
在與這些 AI 產品交流時,感覺似乎是在進行一場單向馬拉松,不斷地輸入內容,卻只能得到單維度的回應。這種「高交互、低媒介」的模式,要求用户投入大量的精力,卻不一定能得到同樣豐富的反饋。
如果產品繼續沿着這一路徑發展,其潛在的用户規模將受到限制。這是因為大多數用户要麼不願意投入太多努力,要麼缺乏通過多輪對話來展開有深度內容的能力。
從對話歷史記錄中可以看出,如果想要獲得更好更有趣的回覆,用户需要具備一定的聊天技巧,比如在對話中加入動作表情或描述性詞彙。然而,大多數用户並不具備這樣的表達或陳述能力。
但目前的這種形態也正是用户最易於接受的,用户不太可能直接與一個複雜的大模型互動,或者僅僅通過一個簡單的對話框就能充分體驗 AI 的功能。必須得給用户一個有基本設定、有情感代入、有基礎形象的一個產品形態,用户才能夠上手。
未來,如果 AI 對話產品想要擴大其用户基礎和市場影響力,就需要考慮如何降低用户與產品交互的門檻,同時提升媒介的互動性和反饋質量,從而吸引更廣泛的用户羣體。
而豆包等產品上的智能體,雖然通過強大的語言處理能力和持續學習特性,為用户提供了從知識獲取到文本創作的全方位服務,甚至已經後來者居上,月活一度超過文心一言,但該產品同樣面臨着行業內普遍存在的挑戰,即如何在同質化中突圍找到核心競爭力,畢竟類似的產品實在太多了。而找到屬於自己的核心競爭力,同樣是字節跳動在 AI 時代面臨的課題。
這對廣大的 AI 創業者來説,可能也是一個好的消息:即使是字節這樣的大廠,今天在 AI 應用領域也只是摸索階段,距離做出抖音、頭條這種殺手級的應用還需要更長的時間。
但面對大廠在 AI 領域的「盯防」策略,創業者可能也必須在創業第一天就去思考,渡過了產品的 0 到 1,在 1 到 10,10 到 100 的階段,什麼才是自己產品真正的核心競爭力,讓有流量、資金的大廠無法輕易模仿和取代。
每個新的技術時代都會有創新者衝破上個時代的天花板,當年的字節跳動衝破了 BAT 的天花板,曾經也被看作是不可能的,但是任何大廠都有自己的「大」帶來的絕對優勢,也一定有「大」帶來的天生弊病,即便是字節跳動也無法避免。
對於 AI 時代的創業來説,正值當打之年的字節跳動毫無疑問是絕對無法忽視的重要變量,唯一的希望在於,AI 的時代剛剛展開,做出的所有努力,也只是在跟隨和探索,未來尚未被書寫,向前走就對了。
*頭圖來源:視覺中國
本文為極客公園原創文章,轉載請聯繫極客君微信 geekparkGO