百度語音舉辦技術沙龍:將建語音平台生態
隨着語音識別技術日臻成熟,我們在日常使用各種智能設備時已經越來越多地可以藉助於語音識別技術來簡化我們的操作。近日,在語音識別技術領域深耕多年的百度舉辦以“智能語音技術,簡化你我日常生活”為主題的技術沙龍,來自百度開發者中心的語音專家分享了百度在智能語音上的相關成果和進展。目前,藉助多種最新技術的運用,百度語音在通用文本安靜環境普通話識別率結果已經提升到接近97%的水準,處於領先地位。
百度語音技術最新進展:普通話識別率接近97%
據介紹,百度語音團隊成立於2010年,到2013年就已經完成從無到有的華麗轉變,搜索、地圖、輸入法、音樂、瀏覽器等多款產品均已搭載百度語音技術。在服務百度自家產品和應用的同時,百度語音部門還面向開發者開放諸多特殊技術,其中包括最關鍵的語音識別技術和語音合成技術。

百度語音技術部高級項目經理關勇介紹,百度語音識別技術主要涵蓋長文本語音輸入、短語熱詞識別、交互式對話垂直領域識別等場景,開發了基於聽覺感知DNN聲學建模技術,超大規模語言模型技術,海量數據語言模型動態更新技術和高速動態WFST一遍解碼技術等,百度語音的識別功能已經在業界迅速樹立領先地位。尤其是基於聽覺感知DNN聲學建模技術,使其語音識別率顯著提高,最新的LSTM建模和CTC訓練在語音建模中的應用,將通用文本安靜環境普通話識別率提升到接近97%,遠超同類競爭產品。而包括麥克風陣列及信號處理技術、成熟的handfree喚醒技術等最新進展也已經在車載場景語音交互中(如百度CarLife)上得到運用和體現。
在語音合成技術方面,百度則在海量文本信息處理技術、基於LSTM的韻律建模技術、基於LSTM的聲學參數建模技術、彈性拼接單元挑選技術等方面取得了重要突破,完成了業界領先的拼接合成和參數合成系統,並提供完美體驗的離在線融合語音合成服務解決方案。在此基礎之上,百度語音在2015年10月底還隆重推出了情感語音合成技術,讓聲音合成擺脱平鋪直敍,使用户體會更自然的發音,更豐富的情感和更強大的表現力。目前該技術已經在手機百度小説頻道上線,用户可以在wifi環境下體驗在線情感男聲的小説播報。
開放百度語音平台,重點打造車載、家居方向解決方案
現場,百度語音開放平台首席產品經理穆向禹詳細介紹了百度語音技術的應用場景,並重點介紹其在車載、家居兩大領域的解決方案。他表示,百度語音平台已經面向開放者開放SDK及自主研發的REST API等多種接入方式,為包括聯想、中興、特斯拉在內的不同行業的企業和個人用户提供優質的語音服務。
在車載領域,百度語音重點優化語音喚醒功能,不但降低了功耗,還提升了穩定性和準確性;在應用端增加多信號處理技術,並針對不同的場景進行深度優化。此外,百度還開放包括圖像、大數據、地圖以及相關的技術分支,以語音為入口,攜手更多的開發者共同完善車載環境。
百度正在打造針對智能家居的MCU和ARM解決方案,開發者可以通過在遙控器上安裝自己開發的UI的方式,或者用手機離在線方案來控制一台電視機。今後,百度語音團隊不僅要滿足人們對洗衣機、冰箱這樣的傳統家居的智能化需求,還將提供更多的解決方案,建設智能生態圈。
建立生態打破壟斷 三種方式為開發者謀利
對於接入百度語音平台的開發者,百度將通過建立生態為開發者提供更多分發和收入。在百度開發者平台高級產品設計師董經緯看來,要建生態,首先需要擺脱“生態=賠本賺吆喝”、“只投入、不產出”、“生態由開發者買單”三大認識誤區。參與到百度語音技術生態建設的開發者,除了降低開發成本,還能通過“應用內容前置”、“生態SDK統一”、“前向付費嘗試”三種具體執行形式獲得超高分發流量和額外收入。
在應用內容前置形式裏,百度提供內容對接方案,優先、集中展示對接應用,而開發者則需挖掘應用特色信息,自助完成內容對接,以便獲取分發量、特色信息曝光的收益;生態SDK一站接入方式,可以降低開發者接入成本,提高當前覆蓋率;前向付費嘗試形式則主要引導用户付費,解決開發者的資金鍊問題。
聲明:CSDN登載此文出於傳遞更多信息之目的,並不意味着贊同其觀點或證實其描述。