深度對話未來智能CTO王松:小米阿里引爆智能眼鏡,AI耳機還是個好賽道嗎?

在AI浪潮席捲硬件的當下,小米、阿里、百度等傳統科技巨頭紛紛押注智能眼鏡,而脱胎於科大訊飛的“未來智能”,卻選擇深耕AI會議耳機賽道。儘管起步坎坷,其第一代iFLYBUDS耳機因基礎體驗問題遭遇用户批評,但AI會議錄音的核心場景價值卻被清晰驗證。
從“邊罵邊用”到頭部玩家,未來智能完成了艱難的蜕變,團隊深刻總結出“5+X”法則。
正是憑藉在垂直場景的深度耕耘、對藍牙底層協議的優化,以及基於“viaim大腦”的硬件重構理念,未來智能在巨頭環伺中構築起差異化的“護城河”,同時也吸引了資本的目光,該公司已完成包括啓明創投領投的Pre A+輪在內的多輪融資。
近期,在世界人工智能大會(WAIC 2025)現場,觀察者網與未來智能CTO王松進行了深度對話。
這場對話,探討了未來智能如何從場景出發,以AI+硬件的深度融合,在激烈的競爭中開闢屬於自己的航道,並堅定看好AI耳機在未來人機交互中的關鍵地位。
展望未來五年,王松也給出了鮮明判斷:智能眼鏡受限於供應鏈成熟度、人體工學設計以及開放式耳機在噪音場景的固有短板,短期內無法取代具備深度降噪等核心能力的耳機。

以下是對話實錄:
觀察者網:眾所周知,硬件是AI落地的重要載體。今天,我們邀請到了國內AI會議耳機頭部企業未來智能的CTO王松,請他與我們共同探討AI終端的未來發展趨勢。
**王松:**大家好,我來自未來智能。這是我第二次創業,對我而言,這是一次全新開始。我此前的技術背景主要集中在軟件領域,這次創業則讓我踏入了硬件領域,這與我之前的經歷形成了鮮明對比。因此,我非常榮幸能受邀與大家分享我的創業歷程以及行業最新進展。
觀察者網:你們團隊中許多成員都來自軟件領域,之前與科大訊飛也有一定聯繫,為何選擇獨立創業並進入AI硬件領域?
**王松:**我們團隊最初在科大訊飛內部,最開始做的是一個名為靈犀的語音助手,這是一款純軟件的語音助手,始於2013年。當時,科大訊飛在國內語音領域處於領先地位,而Siri自2011年推出後,我們2013年開始做軟件語音助手,也算是較早的嘗試。
在此期間,我們嘗試了通用語音助手,也涉足了多個垂直領域的語音助手,包括點歌、導航,甚至撥打電話等功能,與現在車機中的雲助手相似。當時,已有部分用户在汽車中使用我們的產品,儘管那時汽車行業尚未像如今的電動車那樣發達。在這個過程中,我們形成了一個判斷:未來人機交互的主要方式將是語音交互,我們對此深信不疑。
ChatGPT的出現進一步堅定了我們的想法。基於這一判斷,再加上當時科大訊飛已在一些垂直領域,如翻譯機、錄音筆等產品上嘗試用AI賦能硬件,雖然當時還未涉足耳機領域,但我們認為可以嘗試將AI與耳機結合。此外,耳機本身與語音有着天然的強關聯,不易被手機替代,甚至我認為它永遠不會被手機取代,或許未來會被眼鏡替代,但那是另一個話題。綜合以上三點,我們最終選擇了AI與耳機結合的賽道。
觀察者網:AI可以跟很多硬件結合,但你們率先選擇耳機,是不是最看好耳機這個賽道?
**王松:**這也要從我們團隊經歷説起。2017至2018年,我們在科大訊飛內部開始着手耳機項目,當時產品名為莫比斯耳機,如今仍可檢索到相關信息。該項目並不成功,原因在於當時整個供應鏈尚未成熟。我們試圖在耳機中集成過多功能,甚至加入了心率傳感器,但受限於當時的技術條件,導致產品整體不夠成熟。直至2019年,我們才正式開啓iFLYBUDS系列的研發工作。從那時起,我們便開始積累相關技術經驗。2019年,我們着手研發第一代耳機,但實話實説,當時的產品也並不成功,用户在使用過程中確實提出了很多批評。由於第一代耳機存在諸多基礎性問題,比如藍牙連接不穩定、單邊耳機無聲等,用户體驗並不好。究其原因,我們在耳機研發方面經驗不足,導致這些問題頻發。然而,耳機所搭載的AI功能卻受到了用户青睞,因為它切實解決了用户的一大痛點,讓用户對其愛不釋手。
用户在使用過程中,確實是邊用邊罵。因此,從產品本身的角度來看是不成功的。但從驗證使用場景角度來看,它卻非常成功,讓我們清晰地看到了未來的發展方向。當時,很多用户在開會時使用這款耳機進行會議錄音,通過第一代產品的驗證,“辦公會議”這一使用場景已經變得非常清晰。因此,我們在後續的產品研發中,針對這一場景不斷髮現問題並加以改進。
觀察者網:當時產品可能並不理想,用户反饋對你們後續改進有哪些深刻的影響嗎?
**王松:**用户在使用過程中反饋了許多問題,尤其是在開會時使用耳機進行錄音和記錄。在這個過程中,出現了諸如數據丟包、藍牙與手機之間的數據傳輸鏈路等問題。基於這些反饋,我們判斷這是核心的技術挑戰,因為其他耳機廠商通常不會遇到這種情況,只有我們在嘗試將耳機用於此類場景時才會碰到。因此,我們圍繞這一點進行了深入研究和改進。我們專注於藍牙技術,優化藍牙底層通信協議,並與手機進行更好的配合,調整手機和藍牙耳機上的編碼解碼方式,以確保數據鏈路的高效和穩定。通過這些努力,第二代產品在這些問題上取得了顯著改善,變得更加穩定,基本解決了第一代產品中出現的丟包、斷聯、無聲等問題。
觀察者網:當時總結起來還是要先把耳機本身做好?
王松: 我們總結了一個重要的經驗,稱之為“5+X”經驗。未來硬件產品都遵循類似的邏輯,只是不同的硬件產品前面的“N”可能不同。對於耳機來説,這五個基礎要素是:音質、續航、降噪、佩戴和設計,缺少任何一個,耳機都很難在市場上取得成功。後面的“X”是我們所説的AI功能。只有當這五個基礎要素具備後,耳機作為一個基礎產品才能好用。再加上後面的“X”功能,即AI功能的加持,用户才更有可能買單。
觀察者網: 目前許多消費電子巨頭也在開發AI耳機,比如蘋果、小米等,他們都在將AI技術與硬件結合。而且從AI技術本身來看,很多技術都是開源的。如果企業都能輕易地將AI與硬件結合,那你們如何構建自己的護城河?
**王松:**我也常被投資者問及這個問題。從AI本身來看,大家對AI的共識是存在的。以目前流行的Agent為例,大家對Agent的共識是:大模型作為大腦,需要有記憶功能,並且能夠幫助用户真正落地完成任務。但Agent如何應用、在哪些場景中應用,則是百花齊放的。因為每一家的Agent都不一樣,儘管底層的幾個關鍵點是共性的。回到AI耳機或AI硬件,邏輯也是一樣的。AI耳機必須具備基礎能力,比如識別、翻譯、合成以及大模型等。但將這些能力應用到哪些場景中,每個耳機廠商的做法都不一樣。以我們的耳機為例,主打場景,至少在國內甚至全球範圍內都沒有競爭對手,因為我們對這些垂直場景的理解是最深的。
我們既沒有護城河,又擁有很深的護城河。説沒有護城河,是因為對於全球任何一家公司來説,現在的技術都是共通的。大模型這種高深的技術,中國也能迅速趕上,OpenAI前幾年處於領先地位,但如今也被趕超了。作為一家創業公司,我認為所謂的技術護城河是不存在的。但我們的護城河又很深,對特定場景的理解,可能大公司不願意涉足,因為它們太小眾;而對於小公司來説,想要進入又很難,尤其是涉及硬件和對場景的深度理解。我們在藍牙協議層、通訊層做了很多優化工作,要做好這一點其實非常困難。所以,我認為我們的護城河很深。對於AI加硬件,我認為還是要從場景出發,基於場景去做硬件。
觀察者網:深耕這些垂直場景,是不是會給你們積累更多經驗和數據,從而為AI在垂直領域的應用帶來優勢?
**王松:**是的。雖然現在大模型能力很強,但它所具備的數據大多是公開的公域數據,大模型並不具備私域數據。這也是為什麼大家都在做垂直領域的大模型。無論是金融、法律還是醫療領域,這些垂直領域的私域數據加上大模型的能力,可以打造一定的數據壁壘。未來,數據從一定層面上來講是一家公司的核心資產。底層技術其實都相通,基於這些數據再加上大模型,我們如何調優、如何為用户提供更個性化的服務,這是我們未來需要考慮的問題。
觀察者網:目前你們產品底層AI能力是如何構建的?現在很多硬件產品都採用端雲協同的路線,你們是如何做的?
**王松:**我們的底層路線也類似,今年5月的發佈會上提出了“一腦多端”的戰略。我們的產品包括耳機和PC端使用的一個硬件產品Kit,這兩個產品可以聯動,大腦就是viaim大腦,可以簡單理解為背後的大模型。不同的硬件接入到這個大模型中,端側收集的數據,就像我們剛才提到的私域數據,進入大腦。大腦為各個端的硬件提供統一服務,不同端之間也會聯動。
比如耳機和Kit,以及未來我們將推出的其他形態的硬件,它們之間會有許多協同配合。我舉個例子,現在智能眼鏡很火,但它具備耳機功能,其實是一種開放式耳機。不過,目前眼鏡的續航、重量、佩戴舒適度等方面還達不到普通眼鏡的標準。所以,是否可以將眼鏡的部分功能,比如開放式耳機功能,與我們的耳機匹配起來?這樣眼鏡本身可以做到更輕,佩戴起來也不會那麼難受。我們會從用户場景和體驗出發,優化硬件端的佩戴體驗。
觀察者網:是否可以理解為,不應該將所有功能集中在一個終端上,未來將是多終端的發展趨勢?
**王松:**我認為未來5到10年內需要多終端的配合,耳機肯定需要視覺能力的配合。但目前眼鏡的供應鏈還不成熟,只能主打某一場景,無法像手機那樣通用。所以,我判斷未來至少在5年內,穿戴式硬件仍將聚焦於某一場景。但5到10年後,隨着技術、供應鏈的成熟,可能會出現下一代通用的計算平台,像現在的手機一樣,適用於任何場景。
觀察者網:是否可以理解為,眼鏡供應鏈現階段還不成熟,所以讓眼鏡做它擅長的事情,耳機做耳機擅長的事情?
**王松:**很多人問我,未來眼鏡是否會替代耳機?我認為在未來5年內,這種情況不會發生。耳機目前具備的一些功能,如降噪功能,是眼鏡目前無法實現的。例如,在地鐵或飛機上,開放式耳機由於其特性,很難讓用户清晰地聽到聲音。因此,在這些場景下,耳機仍然具有不可替代性。然而,5年之後,隨着供應鏈和技術的成熟,眼鏡可能會通過人體工學設計等方式整合耳機功能,從而替代耳機。但至少在短期內,我認為這種情況不會出現。
觀察者網:如何理解viaim大腦的技術架構?與純軟件方案本質上有哪些差異?
**王松:**作為一家硬件公司,在設計大腦架構時,我們更多地從硬件層面出發。以耳機為例,上一代耳機在硬件結構和算法設計上,並未考慮AI功能。傳統耳機主要為人耳聽音設計,只要通話清晰即可。例如,在嘈雜環境中打電話,只要對方能聽清聲音就行。但AI耳機不同,它是人類與AI交互的入口。以我佩戴的AI耳機為例,它只需讓AI聽清、聽懂我的話,人耳是否能聽清並不重要。從數據鏈路、協議到藍牙協議層面,都需要做出改變以適應AI耳機。以ENC算法為例,它會影響語音識別算法的準確性。如果識別算法不準確,轉錄的文字不準確,輸入到大模型中的數據也會不準確,從而導致生成的答案不準確。因此,在設計大腦架構時,我們從硬件層面出發,優先考慮讓AI能夠聽懂。我們也希望國內大廠能推動國際藍牙聯盟從底層協議層面做出改變,因為當前的藍牙協議已不適應AI耳機發展。
觀察者網:説到藍牙協議,國內很多企業正在組成了星閃聯盟,你們有與他們接觸嗎?
**王松:**華為的星閃協議本質上是從2.4G鏈路出發,優化藍牙和Wi-Fi(兩者均為2.4G協議)的傳輸效率,但並未從大模型層面思考問題。具體來説,藍牙耳機工作時有兩種狀態:通話狀態(HFP)和聽歌狀態(HDP)。我認為還應增加第三種協議,即AI語音協議。這種協議從語音數據進入耳機開始就不一樣,其數據收集方式就應與通話和聽歌不同,是從協議底層開始改變。星閃協議並未從這一層面出發,而是側重於優化數據鏈路本身的傳輸效率,因此與我們的需求有所不同。
觀察者網:星閃協議與藍牙協議可以説各有優勢?
王松:是的,它們各有優勢。
觀察者網:AI會議耳機可能會涉及一些敏感場景,如商務辦公可能會涉及商業機密。在具體應用場景中,你們如何處理效率與隱私安全的問題?
**王松:**隱私問題確實是許多用户,包括我們自身都非常關心的。隨着智能設備時代的到來,大家對隱私關注度越來越高,無論在海外還是國內。未來,穿戴設備可能會處於“始終在線”的狀態,例如我們的耳機可能會24小時在線,持續收集周圍的聲音和視覺數據。以智能眼鏡為例,其拍攝功能可能在無意識、不知情的情況下侵犯他人隱私。
從隱私保護角度來看,我們主要從兩個層面考慮。首先是技術層面,我們採用了端到端的加密保護措施。從語音數據進入耳機的那一刻起,就會進行加密處理,一直到手機端、雲端,再返回耳機,整個鏈路都進行了加密。這是技術層面的保障,我們也在使用業內先進的加密算法。其次是制度和人性層面。許多用户會問,使用我們的耳機錄製會議後,員工是否會查看會議數據,這是一個很自然的問題。但我們認為,用户對品牌的信任至關重要。例如,大家在使用騰訊會議或飛書會議時,通常不會擔心騰訊或飛書的員工會查看會議記錄。這是因為用户對這些大廠已經建立了某種信任,相信它們會在制度層面杜絕此類事件的發生。對於我們來説,我們也需要不斷強化用户的認知,建立用户對我們品牌的信任。從公司成立的第一天起,我們就立下規矩:員工不得觸碰用户數據,這是一條紅線。
觀察者網:未來你們是否會側重端側AI能力,將更多隱私權交給用户?
**王松:**我們最近上線了全離線功能,數據都在用户手機上,只要斷網,用户依然能使用這些功能。手機算力比耳機強很多,至少強100到1000倍。因此,全離線功能可以讓用户在不聯網的情況下依然使用AI能力。未來我們會將更多能力離線化,甚至在耳機上也會有一些離線功能,但耳機算力有限,可能需要5年左右才能運行一些小模型。從端到端的加密措施、企業制度、品牌認知建立以及全離線能力等多維度保護用户隱私,這非常重要。
觀察者網:除了耳機,你們未來是否會進入其他硬件賽道?
**王松:**一定會。我們目前的產品不僅包括耳機,還有PC端的Kit。我們選擇耳機的初衷是基於語音交互的考慮。未來除了耳機,用户在辦公場景中可能更多地在辦公桌前,不一定佩戴耳機。因此我們會從場景出發,思考如何將語音交互融入辦公過程。我們會基於這一思路決定開發哪些硬件。目前,我們已經在研發一些新硬件產品。下半年或明年可能會推出新品,這些產品將圍繞我們的viaim大腦和辦公會議生態,讓用户辦公更加輕鬆。
觀察者網:除了耳機,您最看好那個AI跟哪個硬件結合?
**王松:**我個人比較看好眼鏡的未來。不過,我們現在沒有做眼鏡的原因,是因為目前的供應鏈還不成熟,用户教育也有一定難度。儘管AI眼鏡概念很火,但每年的出貨量其實並不多,可以説是叫好不叫座,所以我們在這一塊相對比較謹慎。但我個人是比較看好眼鏡形態。眼鏡本身具備視覺和顯示能力,也有聽覺能力,是一個相對比較完整的形態。
觀察者網:現在很多眼鏡是不是處於缺少內容和原生應用的狀態?您認為眼鏡的理想狀態應該是什麼樣的?
**王松:**從兩個層面來講,一方面眼鏡的內容生態需要建立,就像最初iPhone的崛起,先是有了硬件,大家覺得硬件好用,然後吸引了眾多開發者,形成了App Store生態,這是一個螺旋式上升的過程。未來眼鏡也會走類似的路線,前提是硬件一定要好用,先讓硬件普及,才會有更多開發者加入,生態才會逐漸建立起來。這是一個循序漸進的過程。未來兩三年後,隨着眼鏡技術的成熟,它會大幅改進耳機的侷限性。耳機可能天生有缺陷,未來可能只是某個輔助或特定場景下的設備,而眼鏡可能會在更多場景中發揮主導作用。不排除未來還會有其他形態的硬件出現。比如之前失敗的AI Pin,它也做了一些很好的嘗試。還有前幾個月泄露的OpenAI與前蘋果設計總監合作研發的胸前佩戴設備,也是一種可能的硬件形態。
觀察者網:在“一腦多終端”的戰略下,這些設備是不是可以協同起來?
**王松:**是的,我認為它們不是互相取代,而是協同。在技術不成熟的時候,每個設備在某個場景上都有獨特的優勢,可以和其他設備協同。未來可能會有一個設備發展成像現在手機這樣的通用設備,但還需要很長時間。
觀察者網:眼鏡的發展不僅需要硬件成熟,也需要AI能力進一步提升。AI耳機的AI能力如果按照智能駕駛的L1到L5級劃分,現在可能處於哪種狀態?
**王松:**我認為現在最多隻到L1級別。我和內部的同事也在討論,之前OpenAI發佈了一個從L1到L5的Agent定義,我認為耳機基本上可以套用那個邏輯。目前耳機還處於比較初級的L1級別,什麼時候能到L2或者L3?有可能在未來兩三年內會實現。
觀察者網:這還需要大模型算法等能力的進一步進化?
**王松:**大模型算法現在可能已經接近極限了,因為某些Agent已經發展得相對比較好了。但如何將這些Agent與耳機結合,是一個需要探索的點。
觀察者網:你們在下半年或未來幾年將着重發力哪些方面?
**王松:**首先是AI硬件,其作為人類的“耳朵”和“眼睛”,如何更高效地將周圍數據傳輸至AI大腦,這是需要研究的第一點,無論是聽覺還是視覺數據。這些數據並非為人眼觀看,而是優先讓AI理解並處理。其次,由於我們本身不研發大模型,因此在大模型層面更多依賴業內巨頭的進展。但我們會在大模型基礎上進行開發,如剛才所討論的,將私域數據融入大模型體系,為用户提供更優質、個性化的服務,這是我們需探索的方向,也是我們的優勢所在,必須深耕垂直場景進行優化。
觀察者網:未來智能在出海方面,目前海外市場的拓展情況如何?
**王松:**我們從去年開始在海外進行試點,在東南亞的新加坡進行試點,今年則拓展至北美、日本,並計劃下半年進入歐洲。目前,我們正在積極佈局海外市場的線上線下渠道,海外市場是我們未來的主戰場。
觀察者網:海外與國內市場的理想佔比大概是多少?
**王松:**參考業內一些成熟或成功的公司案例,海外市場的比例通常大於國內市場。
觀察者網:海外市場也存在一些挑戰,比如涉及AI方面的法律法規?
**王松:**是的,海外對隱私保護特別關注,包括海外用户在硬件、軟件使用習慣上與國內用户存在差異,甚至在模型層面也有一些需要適配和適應當地條款或習慣的地方。
觀察者網:好的,今天的對話就到這裏,謝謝。