比GPT-4o更早!最強實時多模態模型來了,8人團隊6個月搞定_風聞
乌鸦智能说-1小时前
6月底,GPT-4o宣佈跳 票,語音 功能推遲一個月發佈。 沒想到,成果卻突然被別人“截胡“了。
昨天,來自法國A I實驗室kyutai放 出首個實時原生多模態Moshi,不僅效果堪比GPT-4o,還是開源模型。
從效果演示來,Moshi可以隨時聆聽和實時交談,表達自然、流暢,甚至還能模仿快樂、悲傷等**70種不同情緒和説話風格。**不僅如此 ,Moshi還可以進行角色扮演,能用海盜身份給你講一個冒險故事。
更厲害的是,這個開源實時語音多模態模型是8人團隊,僅僅花了半年的時間訓練出來的。Moshi各種炸裂演得到了LeCun、Karpathy等AI大佬的轉發。
到底Moshi有多強?快來一起看看吧!
/ 01 / 表達超自然,情感理解能力強
從官網進入(https://moshi.chat/?queue_id=talktomoshi),設置默認,不需要驗證,僅輸入一個郵箱,用户就可以開始體驗。
當你進入到對話界面,5分鐘的限時計時就開始了!是的,Moshi單次對話的限制為5分鐘。但你可以隨時暫停對話,Moshi也會暫停計時,然後開啓對話後繼續計時。它會記錄下它自己所説得一切,並支持你下載對話視頻或語音。
在實際體驗中,我嘗試了各種日常的話題以及不同的情緒和Moshi聊天。
體驗下來,一個很明顯的感受是,Moshi的反應真的很快,像極了一個真正的人。它可以隨時聆聽,自然、流暢、充滿表現力地和你交談。
比如,當我問Moshi幾個關於夢和做飯的問題時,Moshi的狀態熱情,生動描述了自己的夢境。
同時,Moshi也精通多種語言,模擬場景和角色的扮演的能力很好。比如,它可以用法語念一首關於巴黎的詩,甚至還帶着法國口音。
▲網友驚歎Moshi做出了法國口音
**除了表達自然外,Moshi還有着豐富的情緒,能模仿快樂、悲傷等70種不同情緒和説話風格。**就在上面的話題裏,Moshi表示自己在夢裏能感到“快樂和温暖”,甚至表達出“算你問着了”的欣喜。
Moshi情感豐沛的特性在這個例子裏會更明顯。一位X網友吐槽,Moshi對他傾訴説 :“a bit frustrated(有點沮喪)”。當網友追問原因,Moshi進一步説道:“對即將到來的計算機科學課的考試感到很緊張”。網友恍然大悟,原來Moshi在扮演一個還在上學的妹子。
不僅能夠模仿情緒,Moshi理解人類情感的能力也很強。在我佯裝生氣的時候,Ta會適時頻繁地道歉。在我心情好一些的時候,Ta會察言觀色,鬆了一口氣一般地給我講冷笑話。
雖然有很多優點,不過Moshi也不完美。比如,Moshi的狀態很不穩定,有時會表現冷漠、敷衍,有時又會異常興奮,等不及我把話説完(提示詞未結束),就侃侃而談起來。
▲測獨立開發者Raktim Bora在官方視頻下面質疑Moshi搶拍問題(來源:X)
再比如,在上面關於夢的話題裏,我和Moshi相談甚歡,但在另一個對話中,同樣的話題得到了滿屏的敷衍…就像是一個我身邊不開心時自閉的朋友……
另外,可能由於語料不多,或者訓練度有限,Moshi對不熟悉的話題,會逃避交流。比如,Moshi會在聊到寵物時重複“I’m not a big fan of cats”這樣的話來敷衍話題,即便我後面再用這個話題去測試Ta,也是得到了一樣的回應。
在全部的聊天中,Moshi始終會幫你記錄聊天內容,還會在最後支持下載語音或視頻。另外,Moshi官方特別提示,用户要對AI語音的內容持“懷疑態度”,這個模型的信息可靠性是還需要加強的。
以下是烏鴉君使用Moshi的體驗總結:
總得來看,Moshi的優點是顯而易見:相比其他語音對話Bot,Moshi更接近人,不僅即時性很好,反應快速,表現力方面也很豐富。與GPT-4o相比,Moshi沒有GPT-4o的多語言處理的能力。目前,Moshi的核心生成部分不如Llama3 8B好,但大概可以與RAG一起使用,或微調以執行特定任務。
總之,Moshi讓我真正看到了人工智能和人類自然交流的可能性。支持更多的音色和語言也許只是時間問題,其作為教練、同伴或角色扮演以及各種應用的潛力,讓我很期待。
/ 02 / 8人精英團隊,成為歐洲AI發展的新勢力
Moshi,來自法國AI實驗室kyutai。這是歐洲首個致力於人工智能開放研究的私人倡議實驗室,由 iliad 集團、CMA CGM 集團和 Schmidt Futures 於 2023 年 11 月共同創立,初始資金近 3 億歐元。該實驗室還獲得億萬富翁Xavier Niel的投資。
作為一個非營利性 AI 研究機構,Kyutai實驗室高度強調開源開放。他們在官方簡介中承諾:所有開發的模型都是為了能免費開放共享。
這支小而精的歐洲團隊,成員都擁有紮實的大模型研究背景,還有前谷歌DeepMind研究員這樣的應用開發經驗人士。
Kyutai CEO Patrick Pérez在計算機視覺和機器學習領域擁有30+年經驗,其他人也在大語言模型、自然語言處理、壓縮域搜索算法、應用數學、密碼學等領域有着豐富的經驗。
其中,團隊中的首席執行官Patrick Pérez、首席擴展(scaling)官Edouard Grave、首席科學官Hervé Jégou都是谷歌Scholar被引量高達40000+的學術大牛。
除了自己的研究團隊外,Kyutai還有着豪華的顧問團隊。其中,包括自然語言處理和計算機視覺領域專家、韓國科學家Yejin Choi,Meta首席人工智能科學家、法國研究員Yann LeCun,機器學習領域的德國研究員Bernhard Schölkopf,每一個都是國際知名人工智能專家。
在技術路線上,kyutai重點關注多模態技術。Moshi模型設計的初衷就是為了理解和表達情感,能夠支持聽、説、看,可以用70種不同情緒和風格説話,甚至隨時打斷。
隨着Moshi的發佈,Kyutai正在被看作是歐洲人工智能發展的重要力量。
iliad 集團董事長兼創始人 Xavier Niel 表示:「歐洲擁有贏得人工智能競賽所需的一切。通過在巴黎創建人工智能開放研究實驗室,我們進一步加快了步伐。Kyutai 將為我們提供超高性能、可靠的人工智能模型,整個歐洲人工智能生態系統都將能夠從中受益。」
