要想富,先修路!火山引擎在AI時代修了一條“高速路”_風聞
智谷趋势-智谷趋势官方账号-新中产的首席财富顾问。微信500强。1小时前
是等待泡沫破碎,還是從實際場景應用中尋找新生?
這個天命之問終於輪到了大模型。
全球科技公司每年投到大模型基礎設施的花費約2000億美元,但最多隻能產生750億美元的收入……
然而這一問題似乎在中國正接近得到一個答案。
“你好,請幫我製作一個長10秒左右的產品宣傳視頻,中秋節氛圍,國畫風,屏幕比例為4:3……”
想象一下:
節前一個星期,老闆要求你一天內拿出一套完整的產品推廣視頻方案。接到任務的你無需召集團隊開會、討論、加班、熬夜,而是氣定神閒地喚醒電腦上的人工智能,對它講出開頭那句話,視頻方案便自動生成。拿給老闆。
這樣的“美夢”,馬上就要成真了。
9月24日,2024火山引擎AI創新巡展深圳站上,新發布的豆包·視頻生成模型,給所有寫視頻腳本寫的禿頭的打工人送來一陣春風。新模型精準的語義理解能力、大師級別的鏡頭美學和強大運鏡,以及兼具自由個性化的多風格多比例選擇,不僅拯救了你的髮際線,還讓“AI打工,我領工資”的夢想照進了現實。
當然,視頻生成模型是這次AI創新巡展深圳站的重頭戲,但絕不是獨角戲。加上豆包·同聲傳譯模型、豆包·音樂模型,以及豆包·語音合成模型和豆包·文生圖模型的兩大升級,火山引擎正在把AI“種”進企業業務經營的具體場景裏。
國產大模型躬身入局,而且正在這條路上越走越遠。

新模型,新的生意可能性
當今人工智能取得的所有成就,都可以回溯到那個激盪人類半個多世紀的靈魂一問:1950年,圖靈在論文《計算機器與智能》中拋出一個本源性問題——機器能思考嗎?
此後70餘年,大大小小的科技公司都在努力證明這一點。
這已經無需再辯駁。今天,中國的科技企業對於機器的思考能力能如何作用於我們的工作和事業,表現出濃厚的興趣。
深圳站新發布的三大模型和兩大更新,基本代表了火山引擎的思考。
首先,三個新模型告訴我們,尋找場景絕不能拍腦袋。
1. 視頻生成,營銷策劃人的福報來了
現實中,我們接觸過很多理工直男的創業者,好些年前,他們經常會來傾訴:“我們想做宣傳,想對外拓展,但我們請不起明星,也不知道怎麼在媒體上投放廣告,怎麼辦?”
換做人工智能還沒流行起來的那幾年,我會説:“請不起明星代言有什麼辦法,你們一年賺的還不夠大明星的一次出場費”。
不過,放現在這根本不是問題,“要什麼代言人,自己捏不香嗎?”
最新出爐的視頻生成模型,有高度準確的語義理解能力。形象上,綜合“迪冪孟扎”,絕不耍大牌,即使是想要“五彩斑斕的黑”這種地獄級要求,它都能做到“有求必應”。
當年GPT文生圖模型讓世界驚掉眼球,但在新的視頻生成模型面前完全不夠看,這麼説吧,你下指令,視頻生成模型可以讓你享受到電影的流暢,更可以實現動作的連續多拍和與多個主體交互。
簡單來説,用視頻生成模型生成的“代言人”,不再只是會點頭微笑的“美麗花瓶”,而是能跟隨指令,完成眼神切換、低頭皺眉……動作連貫、邏輯自洽,那感覺就好像你在監視器中,指揮準影帝們去演繹電影劇本。

要做視頻,除了畫面連續,還得要懂鏡頭美學。視頻生成模型的作品,鏡頭切換時毫無痕跡,還可以搭配上各種運鏡且不會手抖,以及大師級的色彩和光影佈局,不説達到學院派的專業水平,但也超過了一般草台班子的水準。

看到這裏,我的第一反應是,電商人,福報來了;廣告公司,該顫抖了。
今天的電商,既要卷產品,卷價格,卷服務,還得卷營銷。一年之內,大大小小的促銷活動十幾二十個,每次大促都需要大量關於商品展示和配合營銷節點的視頻素材,而且各個電商平台的視頻素材尺寸不同。
往往一次大促就要整個營銷團隊至少一週的時間準備,製作和人力成本都是大頭開支。但是,文生視頻作為新的AI視頻製作工具,不僅能提質增效,還能在確認版權合規的前提下,實現各種天馬行空的創意落地。

而我們要做的,就是坐在電腦面前,組織好語言,輸入指令,花幾分鐘喝杯茶,等待AI大作。
妥妥的四兩撥千斤啊。
2. 同聲傳譯,幾百萬的生意怎麼談得這麼輕鬆
今天的企業,信奉的信條之一是:不出海,就出局。
這毋庸置疑,海外的廣闊市場等着中國老闆們去大浪淘金。但前提是,各位老闆們,咱會説外語不?
沒關係,不會説外語,不是老闆的錯,老闆永遠沒錯。針對出海不懂英語的問題,中國老闆有自己的解決思路:第一,談判、參展的時候找個日薪5000的專業同傳;第二,買個同傳軟件APP;第三,請個月薪3000的英專生做跨境電商的線上直播。
這已經覆蓋了大量需要雙語交流的業務場景了。但問題是,日薪5000的專業同傳太貴,月薪3000的英專生只能賣貨,市面上傳統的同傳軟件要先進行自動語言識別,再進行機器翻譯,很容易就會犯錯。而且傳統同傳系統因為要做到低延時,通常只用了性能較差的小模型,在更復雜多變的商業場景裏顯得有點雞肋。
不過,要是我説,同聲傳譯模型已經能做到高質量實時翻譯了,老闆們驚不驚喜,意不意外?
相比傳統同傳軟件,同聲傳譯模型幾乎可以邊説邊譯,實現全方位無死角的跨國熱聊,老闆們不用再面對等待機器翻譯的冷場和尷尬時刻了。
另外,同聲傳譯模型不僅能用在跨國商業談判和貿易溝通,這種需要討價還價的場景裏,在門檻更高的法律和教育場景,同聲傳譯模型甚至超越人類同傳水平。相當於花了點小錢,得到了一個精通多國語言、會砍價、情商高、懂法律、金融等專業知識的複合型人才。
更絕的是,同聲傳譯模型還支持跨語言同音色翻譯。無論是性感磁性嗓,還是霸氣御姐音,都能一比一還原。而且,只還原音色,不還原口音。所以,各位老闆們不必擔心自己的中式英語會在海外客户面前露怯,對方聽到的,就是純正歐美腔。
在海外消費者眼裏,這純純加分項啊。
3. 音樂製作,誰還登不上格萊美了
你有沒有過這種經歷:
明明在發呆,突然腦子裏就莫名出現一陣旋律,但奈何自己不是專業製作人,想唱唱不出來,想記也記不下來,白白看着靈感一閃而過。
如果你也經歷過這種遺憾,那麼請注意,接下來有一個好消息。

新公佈的音樂模型,你只需要簡單寫一句或者幾句話,或者上傳一張圖片,就可以輕鬆生成一首包含旋律、歌詞和演唱的1分鐘高品質音樂作品。
什麼?你説你想要朋克和搖滾、嘻哈都來一遍?
那也沒問題。音樂模型支持10餘種不同的風格和情緒,只要你敢寫,沒有它不敢唱的。
當然,這麼專業的工具要是隻用來閒暇時捕捉靈感,倒有些大材小用。在更廣闊的音樂創作和廣告營銷場景,音樂模型有更大用武之地。
比如,企業需要迎合國慶節點策劃一首宣傳歌曲,就可以使用音樂模型,直接上傳圖片或者幾句話,就可以生成一首和內容匹配的歌曲。演唱上還能根據歌曲風格匹配適合的音色演唱,真實呈現氣口和真假音轉換,簡直是豆包版的初音未來。
現在好了,企業不僅不需要請明星代言人了,連宣傳片裏的ost也用上AI演唱了,實力壓根不輸歌壇天王天后,又省了一筆鉅款。

三個更,突破落地難
此次深圳巡展,的確能讓我們直接感受到中國大模型到底有多卷。
不過,豆包大模型家族提到的三個“更”——更強模型,更低價格,更易落地,可不只是卷那麼簡單,它試圖讓AI早點擺脱炫技階段,找到足夠多的場景,落地生根,和企業一起成長。
先説效果。
加上此次新發布的三個新模型,豆包大模型家族擁有了更多重量級選手,能適配多種業務場景,既可以一鍵幫打工人做PPT,又能自動幫設計師改圖、P圖,解放雙手。
但今天的模型競賽不是攤大餅式的無限擴張,豆包不僅模型家族更豐富,模型性能也進化得更強。
在剛剛結束的AI創新巡展深圳站上,火山引擎公佈了豆包通用模型pro的最新成績,數據顯示升級後的豆包大模型綜合能力提升25%,數學能力提升36%、專業知識提升35%,模型效果領先行業。
用户側方面,據官方消息,目前豆包大模型日均Tokens使用量超過1.3萬億,日均生成圖片5000萬張,日均處理語音85萬小時,堪稱大模型屆的頂流。
數據只是表象,我們來看看,“更強”的豆包大模型戰力究竟如何?
以新升級的兩款模型,語音合成模型和文生圖模型為例,語音合成模型打破了語音合成的音色數量限制,支持數百種音色自由DIY,以前我們感嘆配音演員的天生好嗓子,現在想要什麼樣的角色配音,都可以自己調試。
文生圖模型則提升了模型的推理效率和整體性能,對數量、屬性、大小、高矮胖瘦和運動靜止狀態有更深刻的理解;還提高了大模型的美學素養,你想象中玄幻小説裏精彩的武打場面和各種創意設計都能被大模型還原出來。
那麼這些更強模型要怎麼落到企業實踐裏去呢?創維酷開已經吃到了第一批螃蟹。
作為OTT行業頭部企業,酷開科技通過AI生產的海量短視頻矩陣解決了短視頻帶長視頻的推薦需求,大幅提升了長視頻的推薦效果。全新酷開AIOS融合豆包大模型還可以根據不同用户喜好,通過全流程AI精準推薦,生成千人千面的智能桌面,讓用户打開電視的這一刻,每一個頁面都是按照個人喜好和習慣專屬定製的。
而且對企業來説,AI生成的短視頻,可以保證穩定的視頻生產質量,提高分發效率的同時還提升了用户的點擊轉化率。再配合上豆包的語音模型,既能精準識別,又能準確回覆,聽得懂各地方言,也聽得懂小孩不成熟的語言體系,解決了老人和小孩不會用遙控器的問題,同時通過語音還能生成AI故事繪本給小孩講故事,讓大模型改變了日常生活。
另一方面,模型戰力變強了,價格卻還是那個價格。主打的就是甭管別人怎麼看,我説只賣一塊就一塊。
很長一段時間裏,企業不用大模型的原因除了不會用、不敢用,還有一個不捨得用。成本太高,用量太大,回本週期太長,彼時的大模型對企業來説實在不是一筆劃算的投入。
但當大模型價格戰開打後,火山引擎成為國內第一家把成本降到每千Tokens低於一釐錢的企業,帶動了一大批企業接入大模型,激活了眾多AI應用。
而隨着AI應用的爆發和市場培育的成熟度提高,大模型價格已經不再是妨礙企業創新的阻力了,AI應用上量的關鍵又變回了模型性能。

換句話説,市場發展到中間階段,大模型企業的競爭賽點成為了,誰能在更低價格的基礎上提供更強性能的模型,不僅要讓企業用得起,還得用得好大模型。
這一市場情況下,豆包大模型為客户提供的業內最高標準的初始TPM(每分鐘Tokens)和RPM(每分鐘請求數),每分鐘處理Tokens的最高限額達到同梯隊模型的數倍。好比你用低了一半多的電價,買到了幾倍多的電力資源。
而超低價和超強性能疊加,意味着使用豆包大模型的客户會越來越多。而當客户業務體量增大,流量瞬時突增,很容易造成使用中斷或算力緊缺。這個時候,火山引擎旗下的大模型服務平台,火山方舟可以提供充沛算力資源和極致調度能力,50-120s內完成數千卡GPU部署,90s內實現離在線潮汐調度,支持企業業務在流量高峯期也能穩定、流暢運行,避免因業務中斷損失企業利益。
也正是有火山方舟、釦子專業版、HiAgent和AI全棧雲,這些技術產品工具的保駕護航,火山引擎才打通了AI落地企業的最後一公里。
在更強性能和更低價格的“誘惑”下,企業離用上大模型還差最後一個關鍵問題——要怎麼用?
對大量企業而言,在落地大模型應用之前都會陷入這些困境:企業沒有AI專業人才,我要不要招一個?用別人的大模型,我的數據不會泄露嗎?同行都有自己的專屬應用,我要怎麼也開發一個……
這些問題在今天來看,都能從火山引擎提供的技術工具裏找到答案,也已經有企業吃到了火山引擎的外溢紅利。

比如,在火山引擎消費行業團隊和海爾卡泰馳合作的智能尋車器項目上,火山引擎幫助卡泰馳着重梳理了AI場景並規劃AI整體佈局,聯合海爾集團IT部門共同搭建AI應用平台,落地了多個智能體應用。以AI尋車器為例,以前消費者購車最少要去不同4S店線下比價、線下諮詢,但AI尋車器可以依據用户需求篩選出符合預算、品牌、型號、上牌時間等條件的車輛,降低用户選車門檻,提升交易效率與選車體驗。
對很多企業來説,他們會擔心自己沒有專業AI人才,就算買來大模型也是中看不中用。但其實不管是火山引擎和海爾卡泰馳的AI合作,還是豆包大模型在海底撈上的落地,企業從AI門外漢到實際受益人,都有火山引擎的手把手教學。
而且火山引擎旗下的HiAgent允許企業用自然語言來開發自己的模型應用,只要聊聊天,説清楚需求,就能搭建起一個智能體,都不需要寫代碼,甚至不需要教學,就可以拿來即用。
再比如,有的企業會擔心把機密數據放在別人的大模型上訓練,信息安全得不到保障,也擔心自己的業務量太大,算力資源跟不上,要購買大量算力,大模型看上去便宜,實際長期投入的代價太大。
但火山引擎找到了解決這些後顧之憂的捷徑。
一方面,火山引擎持續升級全週期安全可信方案,構建起大模型的安全“堡壘”。
為了打消企業害怕自己的身份被盜號或者數據遭泄露的顧慮,火山引擎施行了更嚴格的身份認證、更好的環境隔離、數據雙層加密、用户對話自動銷燬以及向客户開放日誌審查五道安全鎖,把“無痕上網”和“動態僅自己可見”從瀏覽器和朋友圈搬到了大模型上來。
另一方面,火山引擎AI全棧雲可以提供超高性能網絡,支持3.2Tbps RDMA網絡,時延優化最高達75%,文件存儲vePFS支持2TB/s吞吐並行存儲和3000萬IOPS,而且GPU的利用率提升到100%+,不僅可以保障計算資源穩定運行,還能讓每一塊算力芯片都物盡其用,絕不浪費一點,絕不多花一分錢。
畢竟要讓企業用更低的價格用上更強的模型,有幾把便攜易用的“工具鏟”還是必不可少的。

AI時代,未完待續
中國有句老話,叫“要想富先修路”。
大基建時代,高鐵、高速公路年年創紀錄,中國人架橋鋪路的信念就來自於,財富的流向會隨着路的方向延展,直至走進深山、走上高原,最後無數人的命運將被一條路改變。
**AI時代,大模型和人工智能就是改變命運的那條路。**誰先開放、先擁抱AI,誰就更先走近未來的財富源泉。因為技術革命的最大受益者,或許不是技術發明家,但一定是最先用上新技術的人。
但就像高鐵技術一度被德國西門子卡脖子、年年虧錢的高速公路一樣,在AI時代修一條路同樣面臨新挑戰:如何找到技術與實際應用環環相扣的支點,這關係到AI和大模型的潛力能釋放到什麼程度。
這不是一條容易的路。關於AI的開發,國際上有一個專門收錄已經死亡或者停止運行項目的網站叫“AI墳墓”,截至2024年6月收錄數已經達到738個,其中不乏明星大廠的。
而要找到撬動技術與應用相向而行的支點,需要企業的主動開放,更需要科技企業的積極探索和不斷實踐。
在這一條未完待續的AI公路上,火山引擎手握重重利器,走在了前面。