林志玲“獻聲”高德地圖導航 女神語音包是怎麼錄製的?
對於不少“開車一族”而言,手機裏的地圖類應用可謂是必不可少。去年,導航類APP“高德地圖”邀請了台灣知名藝人林志玲來做代言。從此,高德地圖用户可以享受志玲姐姐標誌性嗲音的語音導航服務。“志玲祝你旅途愉快哦!”女神標誌性的娃娃音讓不少男粉絲聽得渾身酥軟,但這樣一款軟件佔用的空間會不會很大呢?志玲姐姐“獻聲”高德地圖,配音得花多少時間?會不會累壞?
日前,果殼網創始人“姬十三”(原名嵇曉華)提問:“高德導航裏,林志玲的語音是怎麼錄製的?錄的時候要念多少詞和句子?”

怎樣避免累死林志玲?(圖為劇照)
簡介為“香港鳳凰U Radio音樂統籌,音樂節目主持人”的網友“加菲眾”的回答獲得了最多的贊。他表示,在App頁面有林志玲的語音包下載,註明了大小是19MB。根據下圖,“林志玲語音”是以.irf封裝的文件,大小19.7MB。而普通話(男)只有4.6MB。

通過播放音質判斷,其輸出端採樣率最多不超過64Kbps(又稱比特率,指的是數字信號的傳輸速率,也就是每秒鐘傳送多少個千位(kb)的信息)。因此,音頻總長估算最小值19MB/64KB=300秒,5分鐘。而普通話版只有71秒。
相應地,當採樣率變為32、16(8Kbps相當於電話的音質)的時候,音頻總長估算最小值成倍上升為10分鐘,20分鐘。
通過視頻:
林志玲代言高德錄音花絮
看得出,只有幾頁紙,包含一些導航以外的語音信息,如節日出行提醒等。這應當就是比默認語音數據量大的原因。
因此,他推測志玲的語音分為兩部分:導航語音部分應該採用通用的、很完善波型合成技術,將元音、輔音及音調等採樣,通過算法實現文語轉換;這一部分要錄入的內容很少,很可能是含有個人語音特徵的一些基礎發音。
而比較人性化的特殊提醒,時間總長在5分鐘到20分鐘左右,依照一般語速計,錄製內容最多不會超過5000字,視頻中錄音稿只有幾頁紙,可以佐證這一點。
網友“傅里葉變黃油貓”進一步解釋稱,對於地名等有無數種變化的語音,使用TTS(Text to Speech,文本轉語音)技術,應用很廣泛,例如撥打10086使用自助語音應答,查詢話費時,系統就會用TTS把餘額報給你。Siri説話也是TTS。
漢語TTS實現比較簡單,因為漢語拼音的讀音非常有限,21個聲母、37韻母、5個聲調組合成不超過3000個讀音,全部錄一次,播語音時把每個字的讀音串起來就可以了。
不過光是簡單的字音組合會讓TTS效果聽起來很生硬,例如Google翻譯的試聽功能。為了讓TTS效果更自然,需要用算法控制語速、處理多音字的問題,這是TTS技術含量最高的地方。目前漢語的TTS技術已經很成熟,聽起來很自然,多音字準確率也相當高。
“黃恪”對比了不同的地圖應用,稱:“天氣通跟高德不同。天氣通的做法是錄製語音片段,高德用的是合作方的技術,做法是數字化聲音特徵之後進行語音合成。所以高德的語音方案要比天氣通語音包小而且靈活,但是製作成本也高得多。高德當時是找專人,跟了志玲姐姐幾個月,貼身錄音,然後把原始聲音文件處理提取出數字特徵。天氣通的名人語音基本上是名人幾分鐘錄出來的。墨跡天氣跟高德,基本原理一樣,但是沒有高德那麼土豪,所以沒有名人語音。”

(觀察者網整合自果殼網問答)