對話Rokid副總裁:未來智能眼鏡一定會取代手機,大廠加入能進一步教育市場
胡嘉烨

(整理/胡佳燁 編輯/呂棟)
近期,在世界人工智能大會(WAIC 2025)期間,觀察者網與智能眼鏡頭部企業Rokid副總裁蔡國祥進行了深度對話,探討了AI+AR眼鏡的市場現狀,以及未來的發展趨勢。

以下是對話實錄:
觀察者網:今年,AI眼鏡火爆出圈,引發了行業內外的廣泛關注。許多人對AI眼鏡的底層技術、未來發展前景以及行業競爭格局充滿好奇。我們邀請了中國AR行業頭部企業Rokid的副總裁蔡國祥,來與我們分享他的見解。
**蔡國祥:**大家好,我是蔡國祥。Rokid是一家以AI和AR為核心打造產品的平台公司。在市場上,大家熟知的產品是我們的AR眼鏡,今天在展會現場,大家可以親自體驗。
觀察者網:大家可能認識Rokid是源於今年一場火爆出圈的視頻,就是那個提詞器,當時也引起了網友們對AI眼鏡的一些討論,這件事當時對你們內部產生了哪些影響呢?
**蔡國祥:**我清楚記得發生的時間是2月18日,在杭州餘杭區高質量產業發展大會上,創始人Misa戴着AR眼鏡進行了一場沒有演講稿的演講,引發了廣泛關注。這次事件的傳播熱度對我們企業帶來了顯著的積極影響。首先,它讓很多人瞭解到Rokid這家公司以及我們的AR眼鏡產品,極大地提升了公司和產品的知名度和流量。許多潛在的合作伙伴、投資人紛紛與我們接洽,帶來了更多的合作和投資機會。從行業角度來看,這次事件也讓更多人關注到AR眼鏡這一新興產品,推動了行業的普及和教育。
觀察者網:這次事件是否也給Rokid帶來了更多動力和壓力?
**蔡國祥:**確實如此。動力方面,這次事件讓我們更加自信和積極地推動產品的進展。然而,壓力也很大,因為產品受到了更多關注,我們不得不投入更多時間打磨產品,確保其品質能夠滿足用户的期待。這導致我們的研發和生產壓力增大。
觀察者網:今天我們在世界人工智能大會的現場,主題自然是AI。能否請您介紹一下AI眼鏡及其產品的底層能力,以及如何實現這些AI功能?
蔡國祥: Rokid的核心是圍繞AI和AR開發產品。AI技術已經非常強大,並且正在成為各行各業的底層技術。我們的另一個核心是打造AR眼鏡,並開發自己的AR操作系統。多年來,我們在操作系統方面積累了豐富經驗。如何讓這一全新設備的操作系統運行得更高效、延遲更低、功耗更小,以及交互效果更佳,這非常考驗操作系統的性能。而將這些能力與大模型AI結合,不僅拓展了想象空間,也為用户提供了諸多實用的服務和功能。我們早期推出的提詞器功能相對簡單,僅通過藍牙戒指實現翻頁。如今,新的提詞器已融入人工智能算法,能夠識別演講者的語句並自動跟蹤翻頁,顯著提升了用户體驗。在翻譯功能方面,我們通過智能眼鏡實現了多語言即時翻譯。用户面對不同語言的外國人時,只需戴上眼鏡即可將對方語言即時翻譯成中文,實現無障礙溝通。這一功能在實際應用中獲得了廣泛認可。
我們與高德合作的導航功能,通過結合高德的導航智能體,實現了更精準的導航體驗。此外,我們與支付寶合作推出的“看一眼支付”功能,利用大量人工智能算法確保支付的順暢與安全。其中,有一個很重要的環節叫聲紋識別,它通過聲音判斷用户身份,進一步提升了支付的安全性。未來,我們還將拓展更多生活服務場景,如打車、點餐和商品搜索等。大模型的廣泛應用使其成為一個無所不知的知識庫和萬能助手。通過將大模型與智能眼鏡結合,用户可以隨時提問並獲得解答。眼鏡的攝像頭為大模型增加了視覺能力,使其不僅能聽懂用户的問題,還能看到用户眼前的世界,提供更全面的解答。這些功能不僅實用,還為用户帶來了豐富的想象空間。
觀察者網:那在AI能力打磨這方面,你們是跟行業協同發展?還是説自己構建自研AI呢?
**蔡國祥:**這兩塊都有。AI能力大多是基於基礎大模型的。基礎大模型需要大量投入,不是普通創業公司能夠承擔的,Rokid也明確了自己的定位,不涉足基礎大模型的研發,但專注於自身擅長的領域。我們的AR眼鏡能夠對接多種大模型,例如通義、豆包、智譜以及DeepSeek等。用户可以根據自己的習慣和偏好選擇使用哪一種大模型,我們提供了靈活的選擇。此外,基於大模型,我們還自主研發了一些模型。以我們開發的意圖識別模型為例,當用户通過眼鏡與大模型進行交互時,該模型能夠判斷用户的意圖,並據此調用大模型的相應能力進行處理。例如,用户詢問眼前的花是什麼,系統就會調用視覺大模型;若用户詢問歷史故事,則會調用語言大模型。由於每個大模型都有自己的側重點和擅長領域,我們會根據用户的意圖對大模型進行分類調用,以確保用户的問題能夠得到最合適的解答。同時,像提詞器功能的算法也是我們自主研發的。我們在視覺算法和語音算法方面有着豐富的經驗和技術積累。我們利用行業內頂尖的大模型作為基礎底座,並結合自身操作系統的研發,將人工智能算法和本地模型與大模型相結合,為用户提供更優質的交互體驗。
觀察者網:現在手機的AI能力是端雲結合的模式,您認為未來在眼鏡產品上,是否也會採用類似的模式?
**蔡國祥:**這是肯定的。端雲結合在未來的一些場景中,以及編排方面,肯定是三端協同演進的趨勢。以端云為例,我們已經在做相關工作了。比如在不同情況下,我們有兩個場景已經應用了這種模式。以提詞器為例,提詞器中的智能滾動算法有兩種:在線算法和本地算法。當聯網且網絡狀況良好時,系統會自動使用在線算法,因為其效果更好。但在弱網或無網絡的情況下,智能滾動依然可以工作,此時使用的是本地智能滾動算法。翻譯功能也是如此,我們支持在線翻譯模型和本地翻譯模型。網絡狀況良好時,使用在線翻譯模型,其翻譯效果更好,支持的語種也更多;而在無網絡或弱網情況下,本地翻譯小模型也能提供支持。這些都是雲端跟雲和端兩端的協同的一些案例,未來,這種協同模式的應用會更多。不僅是我們,像高德、支付寶等合作伙伴在處理智能體服務時,也會採用雲和端的協同策略。這肯定是未來的發展趨勢。
觀察者網:雲和端的協同它其實一方面提高效率,另一方面隱私安全這塊,端和端做得更好。
**蔡國祥:**沒錯。
觀察者網:目前智能眼鏡行業吸引了眾多企業,但各企業在未來規劃及AI應用方面存在差異。Rokid在AI領域處於行業前列,但也有部分企業認為AI技術尚未成熟。若將智能眼鏡的AI能力比照自動駕駛的L2至L5級別劃分,您認為當前智能眼鏡的AI水平處於哪個階段?
**蔡國祥:**之前行業內也有這樣的説法,將AI分為幾個等級。L1是指令式,L2是推理和聊天,可以自由對話;L3是能夠幫助執行任務的代理(Agent);L4是幫助創新;L5是大規模自主決策和組織。從這個角度看,我個人認為目前AI在L2階段,發展已經較為成熟,但L3也已經開始起步。我個人認為,L2和L3並非完全獨立,而是存在一定的重疊。L2發展到一定階段後,L3就開始了。目前L2的推理能力已經很強,具備豐富的知識和強大的邏輯推理能力,甚至在醫生、律師等職業資格考試中能夠取得高分。因此,L2已經發展到一個比較高的階段。與此同時,L3的代理和執行功能也開始出現。今年被認為是智能體(Agent)的元年,智能體代表L3。我認為目前AI整體處於L2的較高階段,同時L3也已經開啓。我們認為眼鏡是人工智能的最佳載體,其發展與人工智能階段大致匹配。但由於硬件是新出現的,將人工智能能力集成到眼鏡上需要一個開發和對接的過程,因此可能會略晚於人工智能階段,大約晚幾個月。
總體而言,無論是AI還是AI眼鏡,目前都處於L2和L3重疊的階段,L3已經開始。今年我們看到了很多智能體的出現,例如之前很火的智能體Manus。然而,智能體面臨一個問題:許多智能體的能力已經被基礎大模型本身所涵蓋。例如,通義和Gemini的新版已經具備了很強的Agent能力。但在一些深度和專業門檻較高的垂直領域,智能體創業可能仍有機會。如果智能體的門檻不高,大模型本身就能完成這些功能。因此,我認為今年正處於這個階段,L3已經開始,從今年的展會來看,智能體已經迎來了大爆發。
觀察者網:如果説將來眼鏡的智能化程度進一步提高的話,從軟硬兩個方面考慮,應該做哪些改善?
**蔡國祥:**硬件方面,目前的眼鏡已經實現了輕量化設計,外觀和重量都已接近普通近視眼鏡,佩戴舒適度、重量和外觀也有所提升。然而,若要推動眼鏡進一步發展,提供更強功能並讓用户更願意長時間佩戴,仍需克服幾個關鍵問題。首先,顯示效果需要提升。當前採用的單色光波導顯示技術僅支持單色顯示,視場角較小,分辨率也不夠高。未來,行業需致力於提升顯示效果。其次,計算能力有待增強。目前眼鏡內置的高通AR1芯片,其計算能力與手機芯片相比仍有差距。未來,芯片行業需在小體積、低功耗的前提下,實現更強的計算能力,以滿足更多功能的執行需求。第三,續航能力是另一大挑戰。輕量化設計導致電池容量有限,續航時間較短,這限制了用户的長時間使用。因此,電池技術需要突破,研發出高密度、小體積、輕重量且續航能力強的電池是當務之急。顯示、計算性能與續航能力構成了一個“不可能三角”,雖難以完全解決,但需持續優化,使其平衡狀態越來越好。Rokid Glasses 正是在現階段盡力平衡這三者的產品。從軟件端來看,未來的發展依賴於大模型和智能體的進步。目前僅處於 L3 智能體階段的第一年。智能體要在眼鏡上運行,需適應其顯示和交互特性,不能產生大量輔助文本,而應以簡潔方式完成交互和服務。這需要根據眼鏡的特點進行優化。此外,大模型自身能力的提升以及智能體從L3向L4的演進,都依賴於整個行業的發展。我們也將參與其中,但這些能力的主要決定因素並不完全掌握在我們自己手中。
觀察者網:Rokid,雖然説現在因為AI眼鏡火出圈,但是當初創業的時候,其實是以 AR 技術起步的,現在也發展了十幾年,那您認為傳統的AR眼鏡,它為什麼沒有像現在AI眼鏡一樣那麼破圈啊?現在它還存在哪些挑戰?
**蔡國祥:**許多AR行業從業者在多年前進入該領域時,就已經預見了行業未來普及的方式。大家普遍認為,光波導光學方案是實現 C 端普及的關鍵。多年前,業界就意識到,只有光波導技術成熟並普及後,產品才能真正走向大眾市場。因此,行業一直在等待技術突破和供應鏈的成熟。在技術尚未成熟的前幾年,從業者們並未閒着,而是進行了許多其他嘗試。例如,我們在四年前推出了一款採用BirdBath光學方案的眼鏡,主要面向觀影、娛樂和遊戲場景。這款眼鏡在當時是光波導眼鏡普及之前,C端銷量較高的消費級眼鏡之一。它的顯示效果出色,具備1080P的清晰度和50度的視場角,像素密度高,圖像顯示細膩,非常適合觀影和遊戲。然而,由於其光學方案的限制,這款眼鏡的外觀與普通眼鏡有較大區別,較為厚重,佩戴舒適度欠佳,不適合長時間佩戴。因此,它更像是遊戲機,僅在用户有空閒時間、想要放鬆或娛樂時才會使用。用户不會在日常生活中一直佩戴,這使得它的使用場景受到限制。這種侷限性不僅限制了使用受眾,還降低了用户的使用頻次。許多用户最初可能每天使用,但隨着時間推移,使用頻次逐漸減少,最終可能被閒置。要讓眼鏡真正走向大眾市場,必須像如今的光波導方案一樣,讓用户即使在不使用時也願意佩戴。只有當用户在沒有任何其他需求時,仍然願意佩戴一副既舒適又美觀的眼鏡,才能實現“始終在線”的高頻使用場景。有了這樣的高頻使用場景,後續的功能才能真正發揮作用,產品和市場才能真正普及。隨着光學方案和行業供應鏈的成熟,產品已經能夠做到輕薄,價格也能控制在消費者可接受的範圍內,佩戴舒適度和外觀也得到了提升。因此,產品才具備了真正普及的條件。過去多年,行業未能普及的原因在於技術未達到突破瓶頸,供應鏈不成熟,價格居高不下等多方面因素。如今,硬件已經取得突破,接下來的挑戰在於軟件、系統交互效果以及生態建設能力。這些將是未來留給我們的關鍵考驗。
觀察者網:講到生態,其實生態對硬件起一個協同發展的作用。您也是生態方面的專家,您能不能講一講Rokid這麼多年在生態方面有哪些努力?然後有哪些進展?
**蔡國祥:**Rokid一直專注於核心操作系統,並高度重視生態建設。操作系統與生態密不可分,如同土地與莊稼的關係:沒有土地,莊稼無法生長;僅有土地而無莊稼,土地價值也極為有限。因此,我們致力於兩者的協同發展。用户購買智能眼鏡的目的多樣,部分功能僅靠硬件即可實現,如拍照錄像、當作耳機使用;但更多功能,如導航、翻譯、支付、打車、叫外賣等,則需要豐富的生態支持。生態的價值不言而喻,而構建生態的關鍵在於開發者。我們自身能提供的服務和應用有限,大量、未來豐富甚至個性化的應用需依賴開發者基於我們的平台開發。因此,Rokid是一家平台公司,核心在於服務好開發者,打造開發者平台。只有吸引開發者加入,才能開發出豐富多樣的應用,滿足C端消費者的需求。然而,行業面臨一個困境:開發者投入成本開發應用,需要看到商業化回報的希望。當用户量少時,開發者看不到回報希望,不願在平台上開發;而C端消費者若看不到豐富應用,也不願購買產品。這是一個“先有雞還是先有蛋”的問題。解決這一矛盾的關鍵在於平台方和廠商的投入。我們作為平台方,先投入補貼開發者,提供商業化回報,吸引開發者加入。從一個應用到多個應用,逐漸積累,讓生態內容豐富起來。當消費者看到平台上豐富的應用時,才會願意購買產品。因此,廠商需先投入,驅動生態發展。多年來,我們一直這樣做,目前我們的開發者社區已有超過13,000名註冊的AR眼鏡開發者,這在國內乃至全球都是最大的AR眼鏡開發者社區之一,其中還包括4,000家企業開發者。我們每年舉辦眾多開發者活動,包括線下沙龍、線上活動和兩次大賽。
觀察者網:一個成功的產品,是硬件、軟件和開發者之間良性循環的結果。説到生態,有一個比較尖鋭的問題:目前許多互聯網大廠也紛紛入局智能眼鏡賽道,他們擁有更成熟的生態體系,以及更豐富的資金和技術資源。那麼,您如何看待他們的入局?這是否會為創業企業帶來一些挑戰?
**蔡國祥:**上個月小米發佈了智能眼鏡產品,隨後阿里的智能眼鏡也在展會上亮相,儘管目前消費者還無法體驗到後者。行業從業者對大廠巨頭的入局普遍持歡迎態度,因為這對行業的推動作用是顯而易見的。例如,小米一場發佈會就能讓很多原本不知道這個消息的人瞭解到智能眼鏡的存在、功能及潛在需求,這種行業教育和用户普及是其他創業者難以做到的。巨頭的加入,瞬間將行業的影響力和潛在用户市場擴大了數倍,這是值得歡迎的。然而,大廠的投入程度也值得關注,是將其視為最高優先級全力投入,還是僅作為內部創新業務試水,這將帶來不同的影響。Rokid已經在這個行業深耕11年,從技術和產品角度來看,我們完全不遜色於任何大廠。大廠的優勢可能在於品牌、渠道、用户基礎和資金資源,但在產品力和技術積累上,我們毫不畏懼。因此,我認為無需過度擔憂大廠的競爭。我們清楚大廠的優勢和侷限,我們團隊成員曾經大多也來自大廠,對大廠的運作模式瞭解。大廠能做什麼、不能做什麼,我們都一清二楚,所以心裏有底。目前,無論是小米還是阿里的入局,智能眼鏡市場仍處於起步階段,他們所拓展的也是各自的增量市場,他們拓展自己的增量市場,我們也在拓展我們的增量市場。在市場共同做大之後,各憑本事去爭取市場份額。從產品力角度來看,Rokid與小米相比,目前我們產品在輕量化、外觀簡潔以及光波導顯示等方面具有明顯優勢,目前我們仍是市場上唯一一款具備這些特點的產品。阿里的產品雖然也有類似顯示功能,但其上市時間尚未明確。我認為,大廠的加入能夠進一步教育市場,為消費者提供更多選擇。大家在硬件、軟件或價格等方面各有優勢,這取決於各自的市場推進策略。
觀察者網:大廠確實有其優勢,正如您所説,它們擁有強大的品牌、廣泛的渠道以及多方面的資源。然而,由於它們的業務量龐大,涉及眾多產品和領域,可能無法像創業企業那樣專注聚焦。
**蔡國祥:**永遠不用擔心大廠入局來競爭任何行業,因為任何行業都會有創新者會勝出。為什麼不是Rokid?
觀察者網:其實國內的競爭已經足夠激烈了,但是海外大廠也在不斷地往這個賽道進入,像谷歌、Meta。那您如何看待中國企業在這方面的優勢?
**蔡國祥:**這一波 AI 眼鏡的熱潮,最初是由Meta和雷朋的眼鏡掀起的,隨後從海外刮到國內,引發了國內市場的關注。國外在這一領域確實有其明顯的優勢。我認為國外的核心優勢主要有三個方面:首先是海外的AI大模型,儘管國內大模型的能力已經接近,但仍有差距;其次是核心半導體技術,目前眼鏡中使用效果最好的芯片仍然是高通的,國內芯片尚未達到同等水平;第三是國外成熟的用户商業化生態,海外用户在智能化服務上的付費習慣、意識和能力更強,這對行業的健康發展至關重要。當然,國內也有自身的優勢。一方面,國內大模型廠家正在奮起直追,市場競爭激烈。另一方面,對於眼鏡這類硬件產品,國內最大的優勢在於供應鏈。除了核心的SoC芯片外,國內在其他零部件的供應上已經非常成熟,且在價格和生產週期上具有優勢,能夠快速整合出成熟的產品。中國作為世界工廠,在供應鏈方面具備明顯優勢。此外,中國擁有龐大的消費羣體,僅國內市場就為硬件廠商提供了巨大的發展空間。第三個優勢在於我國龐大的用户羣體。用户使用產品會產生大量數據,這些數據反過來能夠促進我們對大模型的優化以及提升產品的交互體驗。除了上述三點,國內還有一個重要優勢,那就是政府和政策的大力支持。從業者普遍感受到,國家出台的政策在行業多個方面給予了大量支持,無論是在軟件、硬件,還是市場端、資本端等,這種支持客觀上推動了行業發展,使從業者形成了與西方國家相比的獨特優勢,這一點不容忽視且極為重要。
觀察者網:能否説一下你們跟國內的產業鏈合作?比如説協同的進步之類的。
**蔡國祥:**目前,我們在產業鏈合作方面主要分為硬件和軟件兩個層面。在硬件方面,我們的眼鏡產品是通過與上下游產業的緊密合作研發和生產的。例如,我們開發了一種“一拖二”的光波導顯示技術,這項技術能夠實現光機驅動兩個波導屏的顯示,同時解決了結構設計上的痛點,使眼鏡外觀更接近普通眼鏡,重量更輕,功耗更低,成本也得到了有效控制。此外,在芯片等硬件層面,我們也開展了大量的聯合研發工作。通過與供應鏈的緊密合作,我們成功降低了眼鏡的整體功耗,提升了反應速度,優化了外觀設計,使其更加輕便。在軟件層面,我們與高德、支付寶等合作伙伴共同開發了全球首創的眼鏡端智能導航和支付功能。Rokid在硬件和軟件層面始終致力於為行業探路。我們探索出的成功經驗可以為行業做出貢獻,而遇到的挫折也能為後來者提供借鑑。作為行業的領先者,我們深知必須承擔起引領和探索的責任。
觀察者網:聽您分析後,我們認識到中國豐富的產業鏈以及各類應用創新相結合,為眾多創業公司帶來了巨大機遇。像Rokid這類企業,憑藉這些優勢,或許能夠定義下一代終端的發展方向。今天在人工智能大會現場,我們能明顯感受到觀眾對智能眼鏡的高度熱情。那麼,您能否談一談對智能眼鏡未來發展的看法?它是否有可能成為像手機那樣的爆款消費電子產品呢?
**蔡國祥:**首先,我的答案是非常肯定的。我認為未來眼鏡一定會取代手機,成為人們必不可少的個人信息和交互終端,甚至每個人可能不止擁有一副。但這一轉變不會在短時間內發生。
目前,像Rokid Glasses這樣的AR眼鏡,首先是作為手機的輔助交互設備來使用。它需要藉助手機的算力和網絡連接來實現功能。它更多地是一個偏交互端的可穿戴設備。但隨着時間推移,它會逐步取代手機的部分使用時間。例如,佩戴眼鏡後,導航、支付、翻譯、點餐、打車等功能都可以通過語音指令在眼鏡上完成,無需再掏出手機。這意味着手機的使用時間可能會從每天6小時減少到5小時甚至4小時。這種取代手機使用時間的趨勢已經開始逐漸發生。然而,要讓眼鏡真正取代手機,我認為至少需要3到5年的時間。這取決於整個行業的發展,包括顯示效果的提升(如全綵、高分辨率、大視場角)、娛樂功能的增強(如觀影、遊戲)、計算能力的提升(接近或超過手機)、以及續航時間的延長(能夠支撐一整天的使用)。當這些條件都具備時,人們出門可能就不再需要手機,只需佩戴一副眼鏡即可。我認為這一過程最快可能在3年內逐步開始,慢的話可能需要5年。5年後,這類產品將逐步普及並開始取代手機。而到10年後,我相信會有越來越多的人選擇只佩戴一副眼鏡出門。