如何“毀掉一個美麗的海灘” - 彭博社
bloomberg
人聲可以表示為變化的音頻頻率模式(如上所示)。語音識別系統將人聲與存儲在計算機中的已知音節和單詞的聲音模式進行比較。計算機進行比較——有時是成千上萬次——直到找到最接近的模式。
但這種方法有其侷限性。例如,單詞“wreck”與“recognize”的第一個音節非常相似。當模式如此接近時,計算機必須做出最佳猜測。而且,正如人類聽覺的情況一樣,正確的選擇通常取決於句子或短語的上下文。這就是語言學方法進步的幫助所在。這些方法涉及統計模型,以猜測一個人説“recognize”的可能性與説“wreck a nice”相比有多大。
最終的選擇通常取決於應用。例如,如果計算機經過培訓用於酒店預訂,它會理解顧客説“我想辦理入住”。但是,如果它被編程用於接受快餐訂單,它可能會將其理解為“我想要兩個雞肉”。