OpenAI還沒發佈的視頻對話,又被國產廠商先做出來了_風聞
知危-知危官方账号-1小时前
在三個月前的 OpenAI 發佈會上,相信大家多少已經見識過了 GPT-4o 那跟真人一樣絲滑的視頻對話能力了。
還有谷歌緊跟着推出的 Project Astra ,實力看着也絲毫不輸 GPT-4o 。

那段時間,幾乎全網都在感慨 AI 的交互能力進化得有多強,但 GPT-4o 的視頻通話功能是一拖再拖, Project Astra 也是好幾個月也沒見着個影子,連內測都不見有。
不過,AI 圈好像有個定律,就是好東西不能讓人等太久。比如 Sora 遮遮捂捂大半年,結果可靈、Luma AI、智譜清影都冒頭髮布了。
這兩天,我們發現智譜清言 App 突然又來了波大的更新,**上線了那個傳説中的 AI 視頻通話功能。**功能推出之後,知危編輯部也在第一時間申請到了內測資格。

之前 GPT-4o 之所以被説得天花亂墜,很重要的一個原因,就是它對視頻的理解能力非常強悍。
所以,我們首先測試了一把清言的視頻理解能力。
我們給清言掃了一眼編輯部平時腦暴的會議室,看它能不能根據周圍的環境猜出來我在做什麼,還特意晃了晃鏡頭,沒有保持視頻畫面的完全靜止。
坐在會議室的桌子旁倒是沒説錯,桌上的紙杯、遙控器,旁邊的電視也都描述得挺準確。
再把鏡頭往後期同事的電腦上一放,也能看出來這是在剪輯視頻。
這種對周圍整體環境的感知能力,我們之前只在 OpenAI 和谷歌的 Demo 上見過,今天親自體驗到,還真有點科幻照進現實的意思。
而且,清言跟 GPT-4o 演示的一樣,在對話的過程中隨時都可以打斷,時不時還會整點 “ 哎呀 ” “ 嗐 ” 的語氣詞,説話之前呵呵笑一下,就跟真人聊天差不多。
接着,我又試了試具體的物體識別功能。
從最簡單的工位掃描開始,白色鍵盤、黑色鼠標還有顯示器這些大件,基本沒有遺漏,物體前後左右的方位也描述得清清楚楚,就連插線耳機、玻璃杯上的卡通人物這些細節,也沒放過。
了。
而且清言還有個畫圈識別的功能,把同事那台大音響給圈起來,品牌、型號,甚至連具體用途它都知道。
另外我還發現,清言對物體的識別不只是停留在簡單的類別上。
就比如這個遊戲手柄,你問到底是索尼的還是微軟的,它能根據手柄的外形設計分析出來這是微軟的 Xbox,而不是單純告訴你這是一個遊戲手柄,又或者乾脆糊弄過去説不清楚。
還有這台古早的功能機,諾基亞、具體型號是 N95、2007 年經典款這些細節完全不在話下。
後邊兒我們又讓清言識別電腦系統、看託尼照片猜年齡、看名人照片猜人名,雖然免不了偶爾抽風的情況,但大多數情況下認得都挺準。
當然了好玩歸好玩,像視頻通話這種形式其實有很多實用的場景。
比如家長最頭疼的作業輔導,以前的 AI 交互還是拍照上傳題目那一套,但如果換成視頻通話,就變成了線上家教一對一的邏輯。
我們試着讓清言做了一些低難度的數學題,小學和初中一些簡單的代數題勉強可以拿下。
在解題的時候,清言也不會一股腦把過程全説出來,而是一個步驟一個步驟引導着來,有一個思考的過程。
除了數學以外,語文和英語我們也簡單試了試,清言不能説是資深教師級別,但平時寫寫作業、記記單詞、背背古詩,夠用了。
而除了作業輔導以外,清言也可以充當一個初級版的生活小百科。
第一次做飯沒經驗、房間燈泡壞了、不知道怎麼養綠植。。。如果你在生活中遇到類似的事情又不知道該咋辦,都可以問問它。
比如,很多小朋友可能暫時還分不清電池的正負極,我們就假裝把計算器電池裝反,清言一兩句話就 get 到問題出在哪,還是很有生活常識的。
而且這小玩意兒還特別能提供情緒價值,讓它講故事、講笑話,也句句有回應。
跟朋友玩 21 點,它甚至還能當裁判。
而且,與 GPT-4o 相似的時,智譜的視頻通話功能也是帶有一定記憶功能的,當我們測試完 21 點在找它聊別的事情時,它還會問我們 “ 剛才 21 點玩的怎麼樣 ”。
説實話,這次清言的大升級還是給我帶來了不少驚喜,但小瑕疵仍然不少,有時候會説話嘴瓢、認錯東西、輸出一些胡言亂語,不過概率不大。
就比如 21 點的裁判,有一次把 9 認成了 4,黑桃認成了梅花。玩剪刀石頭布,一個出石頭一個出剪刀,它會判定出剪刀的贏。。。
槽點不少,我們在這也就不一一列舉了。
不過,就憑搶在 OpenAI 和谷歌之前,先讓國內用上 AI 視頻通話這一點,已經是很不錯了。
在這方面,知危編輯部還是抱着一貫的態度:用不到的概念品是 0 分,當下能用到的就是 10 分。
有些人可能覺得,視頻對話與圖文對話相比,看起來只是形式的變化,視頻對話能做的都能用圖文對話解決,這樣意義不是很大。
但我們認為,AI 視頻對話這種交互形式,越往後走應用場景的想象空間也就越大,因為它更接近人類的 “ 視覺+對話 ” 的原生交互方式。
比如把 AI 裝到眼鏡、項鍊上,以後可能連手機都不需要了,或者裝到盲人的枴杖上,讓 AI 幫忙引路,又或者是跟具身智能結合,讓機器人真正理解所看到的東西。
借用智譜 CEO 張鵬的那句話:“ 至少我們現在還沒有看到(AI)技術的天花板 ”。
未來的 AI 會進化到何種程度,又會創造出哪些價值,大家也不妨開個腦洞想想。