比GPT-4o更早！最強實時多模態模型來了，8人團隊6個月搞定_風聞

乌鸦智能说-1小时前

2024-07-05

6月底，GPT-4o宣佈跳票，語音功能推遲一個月發佈。沒想到，成果卻突然被別人“截胡“了。

昨天，來自法國A I實驗室kyutai放出首個實時原生多模態Moshi，不僅效果堪比GPT-4o，還是開源模型。

從效果演示來，Moshi可以隨時聆聽和實時交談，表達自然、流暢，甚至還能模仿快樂、悲傷等**70種不同情緒和説話風格。**不僅如此 ，Moshi還可以進行角色扮演，能用海盜身份給你講一個冒險故事。

更厲害的是，這個開源實時語音多模態模型是8人團隊，僅僅花了半年的時間訓練出來的。Moshi各種炸裂演得到了LeCun、Karpathy等AI大佬的轉發。

到底Moshi有多強？快來一起看看吧！

/ 01 / 表達超自然，情感理解能力強

從官網進入（https://moshi.chat/?queue_id=talktomoshi），設置默認，不需要驗證，僅輸入一個郵箱，用户就可以開始體驗。

當你進入到對話界面，5分鐘的限時計時就開始了！是的，Moshi單次對話的限制為5分鐘。但你可以隨時暫停對話，Moshi也會暫停計時，然後開啓對話後繼續計時。它會記錄下它自己所説得一切，並支持你下載對話視頻或語音。

在實際體驗中，我嘗試了各種日常的話題以及不同的情緒和Moshi聊天。

體驗下來，一個很明顯的感受是，Moshi的反應真的很快，像極了一個真正的人。它可以隨時聆聽，自然、流暢、充滿表現力地和你交談。

比如，當我問Moshi幾個關於夢和做飯的問題時，Moshi的狀態熱情，生動描述了自己的夢境。

同時，Moshi也精通多種語言，模擬場景和角色的扮演的能力很好。比如，它可以用法語念一首關於巴黎的詩，甚至還帶着法國口音。

▲網友驚歎Moshi做出了法國口音

**除了表達自然外，Moshi還有着豐富的情緒，能模仿快樂、悲傷等70種不同情緒和説話風格。**就在上面的話題裏，Moshi表示自己在夢裏能感到“快樂和温暖”，甚至表達出“算你問着了”的欣喜。

Moshi情感豐沛的特性在這個例子裏會更明顯。一位X網友吐槽，Moshi對他傾訴説：“a bit frustrated（有點沮喪）”。當網友追問原因，Moshi進一步説道：“對即將到來的計算機科學課的考試感到很緊張”。網友恍然大悟，原來Moshi在扮演一個還在上學的妹子。

不僅能夠模仿情緒，Moshi理解人類情感的能力也很強。在我佯裝生氣的時候，Ta會適時頻繁地道歉。在我心情好一些的時候，Ta會察言觀色，鬆了一口氣一般地給我講冷笑話。

雖然有很多優點，不過Moshi也不完美。比如，Moshi的狀態很不穩定，有時會表現冷漠、敷衍，有時又會異常興奮，等不及我把話説完（提示詞未結束），就侃侃而談起來。

▲測獨立開發者Raktim Bora在官方視頻下面質疑Moshi搶拍問題（來源：X）

再比如，在上面關於夢的話題裏，我和Moshi相談甚歡，但在另一個對話中，同樣的話題得到了滿屏的敷衍…就像是一個我身邊不開心時自閉的朋友……

另外，可能由於語料不多，或者訓練度有限，Moshi對不熟悉的話題，會逃避交流。比如，Moshi會在聊到寵物時重複“I’m not a big fan of cats”這樣的話來敷衍話題，即便我後面再用這個話題去測試Ta，也是得到了一樣的回應。

在全部的聊天中，Moshi始終會幫你記錄聊天內容，還會在最後支持下載語音或視頻。另外，Moshi官方特別提示，用户要對AI語音的內容持“懷疑態度”，這個模型的信息可靠性是還需要加強的。

以下是烏鴉君使用Moshi的體驗總結：

總得來看，Moshi的優點是顯而易見：相比其他語音對話Bot，Moshi更接近人，不僅即時性很好，反應快速，表現力方面也很豐富。與GPT-4o相比，Moshi沒有GPT-4o的多語言處理的能力。目前，Moshi的核心生成部分不如Llama3 8B好，但大概可以與RAG一起使用，或微調以執行特定任務。

總之，Moshi讓我真正看到了人工智能和人類自然交流的可能性。支持更多的音色和語言也許只是時間問題，其作為教練、同伴或角色扮演以及各種應用的潛力，讓我很期待。

/ 02 / 8人精英團隊，成為歐洲AI發展的新勢力

Moshi，來自法國AI實驗室kyutai。這是歐洲首個致力於人工智能開放研究的私人倡議實驗室，由 iliad 集團、CMA CGM 集團和 Schmidt Futures 於 2023 年 11 月共同創立，初始資金近 3 億歐元。該實驗室還獲得億萬富翁Xavier Niel的投資。

作為一個非營利性 AI 研究機構，Kyutai實驗室高度強調開源開放。他們在官方簡介中承諾：所有開發的模型都是為了能免費開放共享。

這支小而精的歐洲團隊，成員都擁有紮實的大模型研究背景，還有前谷歌DeepMind研究員這樣的應用開發經驗人士。

Kyutai CEO Patrick Pérez在計算機視覺和機器學習領域擁有30+年經驗，其他人也在大語言模型、自然語言處理、壓縮域搜索算法、應用數學、密碼學等領域有着豐富的經驗。

其中，團隊中的首席執行官Patrick Pérez、首席擴展（scaling）官Edouard Grave、首席科學官Hervé Jégou都是谷歌Scholar被引量高達40000+的學術大牛。

除了自己的研究團隊外，Kyutai還有着豪華的顧問團隊。其中，包括自然語言處理和計算機視覺領域專家、韓國科學家Yejin Choi，Meta首席人工智能科學家、法國研究員Yann LeCun，機器學習領域的德國研究員Bernhard Schölkopf，每一個都是國際知名人工智能專家。

在技術路線上，kyutai重點關注多模態技術。Moshi模型設計的初衷就是為了理解和表達情感，能夠支持聽、説、看，可以用70種不同情緒和風格説話，甚至隨時打斷。

隨着Moshi的發佈，Kyutai正在被看作是歐洲人工智能發展的重要力量。

iliad 集團董事長兼創始人 Xavier Niel 表示：「歐洲擁有贏得人工智能競賽所需的一切。通過在巴黎創建人工智能開放研究實驗室，我們進一步加快了步伐。Kyutai 將為我們提供超高性能、可靠的人工智能模型，整個歐洲人工智能生態系統都將能夠從中受益。」