深度對話未來智能CTO王松：小米阿里引爆智能眼鏡，AI耳機還是個好賽道嗎？

2025-08-07

在AI浪潮席捲硬件的當下，小米、阿里、百度等傳統科技巨頭紛紛押注智能眼鏡，而脱胎於科大訊飛的“未來智能”，卻選擇深耕AI會議耳機賽道。儘管起步坎坷，其第一代iFLYBUDS耳機因基礎體驗問題遭遇用户批評，但AI會議錄音的核心場景價值卻被清晰驗證。

從“邊罵邊用”到頭部玩家，未來智能完成了艱難的蜕變，團隊深刻總結出“5+X”法則。

正是憑藉在垂直場景的深度耕耘、對藍牙底層協議的優化，以及基於“viaim大腦”的硬件重構理念，未來智能在巨頭環伺中構築起差異化的“護城河”，同時也吸引了資本的目光，該公司已完成包括啓明創投領投的Pre A+輪在內的多輪融資。

近期，在世界人工智能大會（WAIC 2025）現場，觀察者網與未來智能CTO王松進行了深度對話。

這場對話，探討了未來智能如何從場景出發，以AI+硬件的深度融合，在激烈的競爭中開闢屬於自己的航道，並堅定看好AI耳機在未來人機交互中的關鍵地位。

展望未來五年，王松也給出了鮮明判斷：智能眼鏡受限於供應鏈成熟度、人體工學設計以及開放式耳機在噪音場景的固有短板，短期內無法取代具備深度降噪等核心能力的耳機。

以下是對話實錄：

觀察者網：眾所周知，硬件是AI落地的重要載體。今天，我們邀請到了國內AI會議耳機頭部企業未來智能的CTO王松，請他與我們共同探討AI終端的未來發展趨勢。

**王松：**大家好，我來自未來智能。這是我第二次創業，對我而言，這是一次全新開始。我此前的技術背景主要集中在軟件領域，這次創業則讓我踏入了硬件領域，這與我之前的經歷形成了鮮明對比。因此，我非常榮幸能受邀與大家分享我的創業歷程以及行業最新進展。

觀察者網：你們團隊中許多成員都來自軟件領域，之前與科大訊飛也有一定聯繫，為何選擇獨立創業並進入AI硬件領域？

**王松：**我們團隊最初在科大訊飛內部，最開始做的是一個名為靈犀的語音助手，這是一款純軟件的語音助手，始於2013年。當時，科大訊飛在國內語音領域處於領先地位，而Siri自2011年推出後，我們2013年開始做軟件語音助手，也算是較早的嘗試。

在此期間，我們嘗試了通用語音助手，也涉足了多個垂直領域的語音助手，包括點歌、導航，甚至撥打電話等功能，與現在車機中的雲助手相似。當時，已有部分用户在汽車中使用我們的產品，儘管那時汽車行業尚未像如今的電動車那樣發達。在這個過程中，我們形成了一個判斷：未來人機交互的主要方式將是語音交互，我們對此深信不疑。

ChatGPT的出現進一步堅定了我們的想法。基於這一判斷，再加上當時科大訊飛已在一些垂直領域，如翻譯機、錄音筆等產品上嘗試用AI賦能硬件，雖然當時還未涉足耳機領域，但我們認為可以嘗試將AI與耳機結合。此外，耳機本身與語音有着天然的強關聯，不易被手機替代，甚至我認為它永遠不會被手機取代，或許未來會被眼鏡替代，但那是另一個話題。綜合以上三點，我們最終選擇了AI與耳機結合的賽道。

觀察者網：AI可以跟很多硬件結合，但你們率先選擇耳機，是不是最看好耳機這個賽道？

**王松：**這也要從我們團隊經歷説起。2017至2018年，我們在科大訊飛內部開始着手耳機項目，當時產品名為莫比斯耳機，如今仍可檢索到相關信息。該項目並不成功，原因在於當時整個供應鏈尚未成熟。我們試圖在耳機中集成過多功能，甚至加入了心率傳感器，但受限於當時的技術條件，導致產品整體不夠成熟。直至2019年，我們才正式開啓iFLYBUDS系列的研發工作。從那時起，我們便開始積累相關技術經驗。2019年，我們着手研發第一代耳機，但實話實説，當時的產品也並不成功，用户在使用過程中確實提出了很多批評。由於第一代耳機存在諸多基礎性問題，比如藍牙連接不穩定、單邊耳機無聲等，用户體驗並不好。究其原因，我們在耳機研發方面經驗不足，導致這些問題頻發。然而，耳機所搭載的AI功能卻受到了用户青睞，因為它切實解決了用户的一大痛點，讓用户對其愛不釋手。

用户在使用過程中，確實是邊用邊罵。因此，從產品本身的角度來看是不成功的。但從驗證使用場景角度來看，它卻非常成功，讓我們清晰地看到了未來的發展方向。當時，很多用户在開會時使用這款耳機進行會議錄音，通過第一代產品的驗證，“辦公會議”這一使用場景已經變得非常清晰。因此，我們在後續的產品研發中，針對這一場景不斷髮現問題並加以改進。

觀察者網：當時產品可能並不理想，用户反饋對你們後續改進有哪些深刻的影響嗎？

**王松：**用户在使用過程中反饋了許多問題，尤其是在開會時使用耳機進行錄音和記錄。在這個過程中，出現了諸如數據丟包、藍牙與手機之間的數據傳輸鏈路等問題。基於這些反饋，我們判斷這是核心的技術挑戰，因為其他耳機廠商通常不會遇到這種情況，只有我們在嘗試將耳機用於此類場景時才會碰到。因此，我們圍繞這一點進行了深入研究和改進。我們專注於藍牙技術，優化藍牙底層通信協議，並與手機進行更好的配合，調整手機和藍牙耳機上的編碼解碼方式，以確保數據鏈路的高效和穩定。通過這些努力，第二代產品在這些問題上取得了顯著改善，變得更加穩定，基本解決了第一代產品中出現的丟包、斷聯、無聲等問題。

觀察者網：當時總結起來還是要先把耳機本身做好？

王松：我們總結了一個重要的經驗，稱之為“5+X”經驗。未來硬件產品都遵循類似的邏輯，只是不同的硬件產品前面的“N”可能不同。對於耳機來説，這五個基礎要素是：音質、續航、降噪、佩戴和設計，缺少任何一個，耳機都很難在市場上取得成功。後面的“X”是我們所説的AI功能。只有當這五個基礎要素具備後，耳機作為一個基礎產品才能好用。再加上後面的“X”功能，即AI功能的加持，用户才更有可能買單。

觀察者網：目前許多消費電子巨頭也在開發AI耳機，比如蘋果、小米等，他們都在將AI技術與硬件結合。而且從AI技術本身來看，很多技術都是開源的。如果企業都能輕易地將AI與硬件結合，那你們如何構建自己的護城河？

**王松：**我也常被投資者問及這個問題。從AI本身來看，大家對AI的共識是存在的。以目前流行的Agent為例，大家對Agent的共識是：大模型作為大腦，需要有記憶功能，並且能夠幫助用户真正落地完成任務。但Agent如何應用、在哪些場景中應用，則是百花齊放的。因為每一家的Agent都不一樣，儘管底層的幾個關鍵點是共性的。回到AI耳機或AI硬件，邏輯也是一樣的。AI耳機必須具備基礎能力，比如識別、翻譯、合成以及大模型等。但將這些能力應用到哪些場景中，每個耳機廠商的做法都不一樣。以我們的耳機為例，主打場景，至少在國內甚至全球範圍內都沒有競爭對手，因為我們對這些垂直場景的理解是最深的。

我們既沒有護城河，又擁有很深的護城河。説沒有護城河，是因為對於全球任何一家公司來説，現在的技術都是共通的。大模型這種高深的技術，中國也能迅速趕上，OpenAI前幾年處於領先地位，但如今也被趕超了。作為一家創業公司，我認為所謂的技術護城河是不存在的。但我們的護城河又很深，對特定場景的理解，可能大公司不願意涉足，因為它們太小眾；而對於小公司來説，想要進入又很難，尤其是涉及硬件和對場景的深度理解。我們在藍牙協議層、通訊層做了很多優化工作，要做好這一點其實非常困難。所以，我認為我們的護城河很深。對於AI加硬件，我認為還是要從場景出發，基於場景去做硬件。

觀察者網：深耕這些垂直場景，是不是會給你們積累更多經驗和數據，從而為AI在垂直領域的應用帶來優勢？

**王松：**是的。雖然現在大模型能力很強，但它所具備的數據大多是公開的公域數據，大模型並不具備私域數據。這也是為什麼大家都在做垂直領域的大模型。無論是金融、法律還是醫療領域，這些垂直領域的私域數據加上大模型的能力，可以打造一定的數據壁壘。未來，數據從一定層面上來講是一家公司的核心資產。底層技術其實都相通，基於這些數據再加上大模型，我們如何調優、如何為用户提供更個性化的服務，這是我們未來需要考慮的問題。

觀察者網：目前你們產品底層AI能力是如何構建的？現在很多硬件產品都採用端雲協同的路線，你們是如何做的？

**王松：**我們的底層路線也類似，今年5月的發佈會上提出了“一腦多端”的戰略。我們的產品包括耳機和PC端使用的一個硬件產品Kit，這兩個產品可以聯動，大腦就是viaim大腦，可以簡單理解為背後的大模型。不同的硬件接入到這個大模型中，端側收集的數據，就像我們剛才提到的私域數據，進入大腦。大腦為各個端的硬件提供統一服務，不同端之間也會聯動。

比如耳機和Kit，以及未來我們將推出的其他形態的硬件，它們之間會有許多協同配合。我舉個例子，現在智能眼鏡很火，但它具備耳機功能，其實是一種開放式耳機。不過，目前眼鏡的續航、重量、佩戴舒適度等方面還達不到普通眼鏡的標準。所以，是否可以將眼鏡的部分功能，比如開放式耳機功能，與我們的耳機匹配起來？這樣眼鏡本身可以做到更輕，佩戴起來也不會那麼難受。我們會從用户場景和體驗出發，優化硬件端的佩戴體驗。

觀察者網：是否可以理解為，不應該將所有功能集中在一個終端上，未來將是多終端的發展趨勢？

**王松：**我認為未來5到10年內需要多終端的配合，耳機肯定需要視覺能力的配合。但目前眼鏡的供應鏈還不成熟，只能主打某一場景，無法像手機那樣通用。所以，我判斷未來至少在5年內，穿戴式硬件仍將聚焦於某一場景。但5到10年後，隨着技術、供應鏈的成熟，可能會出現下一代通用的計算平台，像現在的手機一樣，適用於任何場景。

觀察者網：是否可以理解為，眼鏡供應鏈現階段還不成熟，所以讓眼鏡做它擅長的事情，耳機做耳機擅長的事情？

**王松：**很多人問我，未來眼鏡是否會替代耳機？我認為在未來5年內，這種情況不會發生。耳機目前具備的一些功能，如降噪功能，是眼鏡目前無法實現的。例如，在地鐵或飛機上，開放式耳機由於其特性，很難讓用户清晰地聽到聲音。因此，在這些場景下，耳機仍然具有不可替代性。然而，5年之後，隨着供應鏈和技術的成熟，眼鏡可能會通過人體工學設計等方式整合耳機功能，從而替代耳機。但至少在短期內，我認為這種情況不會出現。

觀察者網：如何理解viaim大腦的技術架構？與純軟件方案本質上有哪些差異？

**王松：**作為一家硬件公司，在設計大腦架構時，我們更多地從硬件層面出發。以耳機為例，上一代耳機在硬件結構和算法設計上，並未考慮AI功能。傳統耳機主要為人耳聽音設計，只要通話清晰即可。例如，在嘈雜環境中打電話，只要對方能聽清聲音就行。但AI耳機不同，它是人類與AI交互的入口。以我佩戴的AI耳機為例，它只需讓AI聽清、聽懂我的話，人耳是否能聽清並不重要。從數據鏈路、協議到藍牙協議層面，都需要做出改變以適應AI耳機。以ENC算法為例，它會影響語音識別算法的準確性。如果識別算法不準確，轉錄的文字不準確，輸入到大模型中的數據也會不準確，從而導致生成的答案不準確。因此，在設計大腦架構時，我們從硬件層面出發，優先考慮讓AI能夠聽懂。我們也希望國內大廠能推動國際藍牙聯盟從底層協議層面做出改變，因為當前的藍牙協議已不適應AI耳機發展。

觀察者網：説到藍牙協議，國內很多企業正在組成了星閃聯盟，你們有與他們接觸嗎？

**王松：**華為的星閃協議本質上是從2.4G鏈路出發，優化藍牙和Wi-Fi（兩者均為2.4G協議）的傳輸效率，但並未從大模型層面思考問題。具體來説，藍牙耳機工作時有兩種狀態：通話狀態（HFP）和聽歌狀態（HDP）。我認為還應增加第三種協議，即AI語音協議。這種協議從語音數據進入耳機開始就不一樣，其數據收集方式就應與通話和聽歌不同，是從協議底層開始改變。星閃協議並未從這一層面出發，而是側重於優化數據鏈路本身的傳輸效率，因此與我們的需求有所不同。

觀察者網：星閃協議與藍牙協議可以説各有優勢？

王松：是的，它們各有優勢。

觀察者網：AI會議耳機可能會涉及一些敏感場景，如商務辦公可能會涉及商業機密。在具體應用場景中，你們如何處理效率與隱私安全的問題？

**王松：**隱私問題確實是許多用户，包括我們自身都非常關心的。隨着智能設備時代的到來，大家對隱私關注度越來越高，無論在海外還是國內。未來，穿戴設備可能會處於“始終在線”的狀態，例如我們的耳機可能會24小時在線，持續收集周圍的聲音和視覺數據。以智能眼鏡為例，其拍攝功能可能在無意識、不知情的情況下侵犯他人隱私。

從隱私保護角度來看，我們主要從兩個層面考慮。首先是技術層面，我們採用了端到端的加密保護措施。從語音數據進入耳機的那一刻起，就會進行加密處理，一直到手機端、雲端，再返回耳機，整個鏈路都進行了加密。這是技術層面的保障，我們也在使用業內先進的加密算法。其次是制度和人性層面。許多用户會問，使用我們的耳機錄製會議後，員工是否會查看會議數據，這是一個很自然的問題。但我們認為，用户對品牌的信任至關重要。例如，大家在使用騰訊會議或飛書會議時，通常不會擔心騰訊或飛書的員工會查看會議記錄。這是因為用户對這些大廠已經建立了某種信任，相信它們會在制度層面杜絕此類事件的發生。對於我們來説，我們也需要不斷強化用户的認知，建立用户對我們品牌的信任。從公司成立的第一天起，我們就立下規矩：員工不得觸碰用户數據，這是一條紅線。

觀察者網：未來你們是否會側重端側AI能力，將更多隱私權交給用户？

**王松：**我們最近上線了全離線功能，數據都在用户手機上，只要斷網，用户依然能使用這些功能。手機算力比耳機強很多，至少強100到1000倍。因此，全離線功能可以讓用户在不聯網的情況下依然使用AI能力。未來我們會將更多能力離線化，甚至在耳機上也會有一些離線功能，但耳機算力有限，可能需要5年左右才能運行一些小模型。從端到端的加密措施、企業制度、品牌認知建立以及全離線能力等多維度保護用户隱私，這非常重要。

觀察者網：除了耳機，你們未來是否會進入其他硬件賽道？

**王松：**一定會。我們目前的產品不僅包括耳機，還有PC端的Kit。我們選擇耳機的初衷是基於語音交互的考慮。未來除了耳機，用户在辦公場景中可能更多地在辦公桌前，不一定佩戴耳機。因此我們會從場景出發，思考如何將語音交互融入辦公過程。我們會基於這一思路決定開發哪些硬件。目前，我們已經在研發一些新硬件產品。下半年或明年可能會推出新品，這些產品將圍繞我們的viaim大腦和辦公會議生態，讓用户辦公更加輕鬆。

觀察者網：除了耳機，您最看好那個AI跟哪個硬件結合？

**王松：**我個人比較看好眼鏡的未來。不過，我們現在沒有做眼鏡的原因，是因為目前的供應鏈還不成熟，用户教育也有一定難度。儘管AI眼鏡概念很火，但每年的出貨量其實並不多，可以説是叫好不叫座，所以我們在這一塊相對比較謹慎。但我個人是比較看好眼鏡形態。眼鏡本身具備視覺和顯示能力，也有聽覺能力，是一個相對比較完整的形態。

觀察者網：現在很多眼鏡是不是處於缺少內容和原生應用的狀態？您認為眼鏡的理想狀態應該是什麼樣的？

**王松：**從兩個層面來講，一方面眼鏡的內容生態需要建立，就像最初iPhone的崛起，先是有了硬件，大家覺得硬件好用，然後吸引了眾多開發者，形成了App Store生態，這是一個螺旋式上升的過程。未來眼鏡也會走類似的路線，前提是硬件一定要好用，先讓硬件普及，才會有更多開發者加入，生態才會逐漸建立起來。這是一個循序漸進的過程。未來兩三年後，隨着眼鏡技術的成熟，它會大幅改進耳機的侷限性。耳機可能天生有缺陷，未來可能只是某個輔助或特定場景下的設備，而眼鏡可能會在更多場景中發揮主導作用。不排除未來還會有其他形態的硬件出現。比如之前失敗的AI Pin，它也做了一些很好的嘗試。還有前幾個月泄露的OpenAI與前蘋果設計總監合作研發的胸前佩戴設備，也是一種可能的硬件形態。

觀察者網：在“一腦多終端”的戰略下，這些設備是不是可以協同起來？

**王松：**是的，我認為它們不是互相取代，而是協同。在技術不成熟的時候，每個設備在某個場景上都有獨特的優勢，可以和其他設備協同。未來可能會有一個設備發展成像現在手機這樣的通用設備，但還需要很長時間。

觀察者網：眼鏡的發展不僅需要硬件成熟，也需要AI能力進一步提升。AI耳機的AI能力如果按照智能駕駛的L1到L5級劃分，現在可能處於哪種狀態？

**王松：**我認為現在最多隻到L1級別。我和內部的同事也在討論，之前OpenAI發佈了一個從L1到L5的Agent定義，我認為耳機基本上可以套用那個邏輯。目前耳機還處於比較初級的L1級別，什麼時候能到L2或者L3？有可能在未來兩三年內會實現。

觀察者網：這還需要大模型算法等能力的進一步進化？

**王松：**大模型算法現在可能已經接近極限了，因為某些Agent已經發展得相對比較好了。但如何將這些Agent與耳機結合，是一個需要探索的點。

觀察者網：你們在下半年或未來幾年將着重發力哪些方面？

**王松：**首先是AI硬件，其作為人類的“耳朵”和“眼睛”，如何更高效地將周圍數據傳輸至AI大腦，這是需要研究的第一點，無論是聽覺還是視覺數據。這些數據並非為人眼觀看，而是優先讓AI理解並處理。其次，由於我們本身不研發大模型，因此在大模型層面更多依賴業內巨頭的進展。但我們會在大模型基礎上進行開發，如剛才所討論的，將私域數據融入大模型體系，為用户提供更優質、個性化的服務，這是我們需探索的方向，也是我們的優勢所在，必須深耕垂直場景進行優化。

觀察者網：未來智能在出海方面，目前海外市場的拓展情況如何？

**王松：**我們從去年開始在海外進行試點，在東南亞的新加坡進行試點，今年則拓展至北美、日本，並計劃下半年進入歐洲。目前，我們正在積極佈局海外市場的線上線下渠道，海外市場是我們未來的主戰場。

觀察者網：海外與國內市場的理想佔比大概是多少？

**王松：**參考業內一些成熟或成功的公司案例，海外市場的比例通常大於國內市場。

觀察者網：海外市場也存在一些挑戰，比如涉及AI方面的法律法規？

**王松：**是的，海外對隱私保護特別關注，包括海外用户在硬件、軟件使用習慣上與國內用户存在差異，甚至在模型層面也有一些需要適配和適應當地條款或習慣的地方。

觀察者網：好的，今天的對話就到這裏，謝謝。