語音巨頭時代來臨!誰將是中國Siri?
導語:*如今,語音技術已經成為巨頭的標配,百度、騰訊、搜狗、雲知聲它們或是傳統互聯網巨頭,或是出身中科院技術豪門。巨頭佔領語音高點已是必然。而從去年開始語音市場受到業界關注,到今天雲知聲獲得千萬美金融資,語音市場春天是否已經到來?創業者在其中是否仍有機會?*看看作者怎麼説。(by,宋宣)

文/羅超(搜狐IT獨家發佈)
大約一年前,中國移動以13.6億人民幣的代價獲得了科大訊飛15%的股權,後者股價一路攀升,從不足30元到最高61元,成為一大牛股,市值高達240多億人民幣。而在剛剛過去的長假中,“雲知聲”也高調宣佈獲得金額為千萬美金摺合約1億元人民幣A輪融資。雖然其體量尚無法和科大相比,但這對沉寂一年的語音識別市場卻是重大利好。
而同樣涉足該領域的百度、騰訊、搜狗也正在加快技術迭代的腳步,作為戰略級標配,語音技術在巨頭眼中都格外重要。與國外巨頭佔領語音市場相似,業內普遍認為,受技術門檻的限制,語音市場創業窗口或已關閉。只屬於巨頭的語音戰國大幕拉開!
Siri成國內語音市場爆發導火索
自從蘋果Siri推出後,語音市場獲得了高度關注。人們甚至驚呼這種更自然的操控將取代鍵盤。一時間跟隨者紛紛入局。蘋果勁敵Google帶着Google Now強勢殺入,憑着搜索技術特長和數據積累,在交互效果上略勝一籌。備受關注的Google Glass便由“Ok Google”這一酷極了的語音方式啓動。
國內互聯網公司百度、騰訊、盛大和搜狗均推出語音相關產品。搜狗在去年11月便推出了語音助手,其語音識別技術採用的正是“雲知聲”。而採用自有語音識別技術的百度,在去年聖誕節期間才推出語音助手,比搜狗晚了1個月。
騰訊在語音市場上則保守許多,微信發家於語音對講機,可天然地移植到語音助手。但除了在4.5推出“語音提醒”公眾號外,並未加強其他語音識別功能。這也符合騰訊一貫風格,在模式被驗證,市場被教育成熟才會發力。值得注意的是,微信自建了一個30多人的技術團隊進行語音識別技術研發。
除了百度、騰訊等巨頭,盛大推出採用自有技術的“百靈語音助手”。中國移動聯手科大訊飛推出“靈犀助手”,訊飛本身還有“語點”這款語音助手產品。創業公司智能360、蟲洞語音助手、小i機器人則側重語義解析和前端功能。
語音技術普及存在較多限制條件
語音哪怕Siri依然未成為主流的交互方式。國內也尚未出現能與“語音助手”劃上等號的產品。去年中國語音市場經歷了一場“軍備競賽”,沒有人確定用户是否真的需要這麼個玩意兒。但如今,大家都不遺餘力,生怕落後,被人搶佔傳説中的入口。
1、“語音入口”可能只是傳説。
筆者並不是馬後炮,在Siri推出時我認為語音交互有天生的缺陷:只能在安靜的場景下使用,有噪音則難以識別;只能在私密的場景使用,否則語音命令會干擾他人。現實中這類場所並不多,哪怕在家中客廳使用語音功能,也可能影響家人。
就算無干擾場所存在,語音識別技術還有一個依賴:無線網絡。上傳大量的數據進行雲端識別,必須有良好的網絡。在一些沒有WIFI的地方,使用語音操控簡直是噩夢。有產品提供離線識別技術,安裝包將增大數倍,識別效果也會直線下降。
2、語音產品的智能化技術仍差強人意。
語音市場更難的問題在於“智能識別”的智能。語音技術分為語音識別、語義解析和語音合成。大多語音搜索產品能做到的僅僅是將語音轉換成文字,然後通過文字去搜索,實際是“語音識別”這部分技術應用。語音助手要做到助理的程度,則需要能聽懂人話,理解自然語言,就像鋼鐵俠裏的賈維斯系統。現在的“語音轉文字”這一步並不自然。而理解自然語言,依然是Google、百度等技術巨擘在攻堅的難點:語義解析。
3、用户尚未形成習慣
最後還有一個難點在於用户習慣。好的產品要觸及用户,需要培養,改變和教育。這需要時間。
目前,使用場景、無線網絡、語義識別和用户習慣這些限制均使得語音仍處於探路期。砸入大量資源,並未獲得匹配的收穫,於是有了泡沫。
創業者的時間窗口已經過去!
如今,語音語義這塊是兵家必爭之地,尤其是可穿戴設備興起後,重要性更加凸顯。語音市場必將成為巨頭的遊戲,技術和數據門檻高企,而語音創業的時間窗口可能已經過去。
1、巨頭轉型速度正在加快。“雲知聲”和“科大訊飛”在這些角逐者中的角色,就像地圖領域的高德一樣,提供數據和技術供上層服務商使用。巧合的是,科大訊飛也在謀求高德的從“B”到“C”的多元化轉型之路。除了語音助手,科大訊飛還推出了訊飛語音輸入法、面向幼兒教育的語音機器人硬件等產品。
多元化目前是語音巨頭們正在做的事情,也是語音識別平台必須要做的事情。他們面向企業市場提供免費識別技術,但僅靠定製收費是行不通的。互聯網巨頭一貫熱衷免費,走開放平台路線,籠絡開發者進而獲得流量、數據和個人用户。8月底百度導航徹底免費,與高德導航正面交鋒就是活生生的例子。百度、騰訊等公司正在投入巨大的資金和資源加強語音技術建設。如果他們將語音識別技術免費必然將創造更大的語音生態圈。
2、資源技術優勢成為創業阻礙。事實上,語音業務的基礎是建立是在強技術驅動下才能實現的,而目前僅有巨頭擁有相關優勢。同時,語音技術加上語義解析技術,藉助知識圖譜、深度學習,實現對話式搜索,在移動互聯網時代可以爆發出巨大能量,也更容易落地和商業化。單純提供語音識別技術,做一個技術平台,商業化是個大問題。而百度等互聯網巨頭在垂直整合上相比專業領域的創業者,更有優勢。
語音市場的春天正在到來?
或許,上述問題會長期存在,但不可否認的是,語音作為移動互聯網的前沿技術仍值得業界期待。
就使用場景而言,Glass的“Ok Google”是個開始。樂視TV、錘子OS、易信、inWatch、小米3等產品紛紛推出語音交互功能,均採用了雲知聲或者訊飛這兩家公司的技術。可穿戴設備的興起,硬件創業的浪潮會帶來更多的語音交互使用的土壤。
對於環境噪音的干擾,百度負責多媒體搜索技術的餘凱博士在幾個月前曾向筆者解釋過抗噪技術,語音識別技術已經進化到可以區分人聲和環境噪聲,甚至可以根據聲紋識別某個人的特定聲音。這個技術還可以應用於移動支付。支付寶已推出利用聲音指紋的“聲波支付”。這也説明語音技術的使用場景只會被越來越多地發掘。
例如企業客服。今日便有消息稱科大訊飛與安徽移動簽下一筆近千萬的大單。相對中移動,千萬規模委實不算大單。但他們的合作內容或將引發新的企業Call Center的升級換代:後期中國移動在客服10086平台將採用訊飛的智能語音技術,用户可以直接説出需求。客服的聲音也會採用語音合成技術,這是科大訊飛的優勢,其語音合成甚至可以支持主流方言。受此消息影響,今日科大訊飛股票漲停。
無線網絡的環境改善也是利好消息。4G牌照已是弦上之箭,不得不發。筆者近日拿到中國移動4G(TD-LTE)上網卡測試顯示,4G網絡在單用户使用時帶寬已高達44M,下載速度為4MB/S。用户多了這個速度會受到影響,不過可以預見4G相比3G時代已經不可同日而語。除了4G,運營商、政府和商家對WIFI的投資熱情也帶來了覆蓋更廣的無線熱點。
最後,誰將成為中國的Nuance還尚無定論。但這一市場已經帶給了眾多從業者無限的想象空間,可以預見,未來語音市場的將在巨頭的你爭我奪中成為業界焦點,而下游的語音產品也隨之將逐漸豐富,一個移動語音生態生態或將在不久後形成…..