一台能夠識別其主人的聲音的計算機? - 彭博社
bloomberg
托馬斯·富邁是那種説話速度快到一些人,甚至是他的妻子,都很難理解的紐約人。不過在工作中,他桌子上的機器卻完全沒有問題。作為謝爾登·雷曼兄弟公司的證券交易員,富邁大部分時間都在與個人電腦聊天。當富邁告訴它時,他的電腦會立即買入或賣出大約2500萬美元的政府債券。他説,與電腦對話比打字更容易、更快,而且錯誤率也更低。
能夠理解並回應人類語言的電腦幾十年來一直是科幻小説的常客。雖然像《2001太空漫遊》中HAL電腦那樣多才多藝的對話者尚未出現,但最近的進展使得在辦公室、家庭、醫院和工廠的日常任務中添加更簡單的語音識別變得可行。
閒聊。讓電腦像人類一樣處理語言的夢想讓一些世界頂尖的頭腦感到沮喪。“當我開始時,我以為這將在10年內解決,”自1972年以來一直在IBM的托馬斯·J·沃森研究中心探索語音的拉利特·R·巴爾説。
最近,許多研究人員得出結論,創造能夠理解一切的電腦並不是絕對必要的。“讓我們有一台只瞭解一件事的機器,”AT&T貝爾實驗室的研究主任勞倫斯·R·拉比納説。如果一台電腦經過訓練能夠理解,例如,預訂航空公司機票或交易股票的詞彙,那麼問題就變得簡單得多(圖表)。
多虧了這種新方法,這項技術終於實現了它的承諾。根據新澤西州塞達諾爾斯的Probe Research Inc.的數據顯示,美國語音識別硬件和軟件市場今年將超過1億美元。這比1990年的5000萬美元和1980年代中期幾乎沒有的市場大幅增長。另一個推動增長的重要因素是:幾年前需要大型主機的語音識別程序,現在可以在強大但便宜的桌面計算機上運行。
到目前為止,最大的市場是替代手動輸入數據的系統。在俄克拉荷馬城的美國郵政局分支機構,郵件分揀員從大型袋子中讀取郵政編碼——每天大約有10,000個——並將數字通過麥克風説出。每個袋子隨後被送往正確的地區。因為他們不再需要放下袋子並輸入數據,所以他們的分揀速度是以前的四倍。
機器人操作員。雖然替代手動數據輸入是目前語音識別的主要用途,但根據馬薩諸塞州列剋星敦的市場研究公司Voice Information Associates Inc.的説法,另外兩種形式將在兩年內變得更加流行。第一種是自動化電話任務,例如提供目錄幫助或允許消費者直接通過電話訂購商品。第二種是聽寫:將一個人的聲音即時轉換為計算機文本。
電話公司預計將迎來一場繁榮,無論是在新業務還是成本削減方面。“語音識別對我們來説每年可能價值數億美元,”Nynex Corp.的科學與技術副總裁Casmir Skrzypczak説。他表示,一些節省將來自通過存儲每個電話卡客户的“聲音印記”來減少欺詐。由於聲音和指紋一樣獨特,電話欺詐者將會被挫敗。
電話公司還計劃通過自動化一些人類操作員的工作來節省開支。許多電話公司已經擁有能夠理解您在被問及是否支付電話費時的“是”或“否”的計算機。機器人操作員的幽靈讓電話公司工會感到憤怒。
儘管如此,電話公司仍在繼續前進。1992年,Nynex計劃推出語音激活撥號,現在在一些車載電話上可用。在Nynex的計算機經過您的聲音訓練後,您將能夠拿起電話説“媽媽”或“鮑勃”,計算機將撥打他們的電話。
語音識別也預計將提升整體電話使用率。電話公司認為,消費者很快將通過直接營銷商擁有的語音識別計算機來下訂單,而不是填寫郵購表格。安利公司現在為其數千名經銷商使用這樣的系統,以便全天候下訂單。
雖然電話應用可能很快成為最普遍的語音識別形式,但引起最多興奮的技術涉及將語音轉換為文本。聖盃是一個系統,允許人們將他們的個人電腦視為人類秘書,口頭告訴它進行聽寫,然後打印文檔的副本。
暫停頻繁。兩家波士頓地區的公司,Dragon Systems Inc.和Kurzweil Applied Intelligence Inc.,在這一領域走得最遠。DragonDictate系統能夠識別30,000個單詞,可以將幾乎您所説的任何內容轉換為文本。但它仍然無法處理連續的語音,因此説話者必須在每個單詞之間不自然地暫停。這將速度限制在每分鐘最多40個單詞,慢於熟練的打字員。“它並不是為健全的秘書或記者設計的,”Dragon Systems的總裁珍妮特·M·貝克説。
但是這個9000美元的系統對殘疾人來説是個天賜之物。一位顧客是一位名叫大衞·布里斯托的政府律師。儘管他有腦癱,龍系統使布里斯托能夠自己撰寫法律文件和其他文檔。這個系統在殘疾人中反響熱烈,以至於IBM不再將自己的技術從實驗室中推出,而是基於龍的技術推出了首款商業化的聽寫產品。
庫茲韋爾的細分市場是醫療保健。它的系統在醫院中變得流行,醫生們忙碌的雙手和臭名昭著的糟糕字跡使他們發現,與計算機對話比記筆記更省時且更準確,而後者必須由秘書進行轉錄。例如,在馬薩諸塞州斯普林菲爾德的慈善醫院,生成一份急診室報告曾經需要五天時間。現在,使用庫茲韋爾系統,同樣的報告可以在不到五分鐘的時間內創建和打印。
但是這些大詞彙量的系統也有其缺點。除了無法識別連續的語音外,它們還必須經過訓練以“學習”每位説話者聲音的細微差別。通常需要數小時的時間來收集每位説話者的足夠語音樣本。在大多數電話任務中,這是不可接受的,因為這些任務要求“説話者獨立”。事實上,目前市面上可用的十幾種語音系統中,沒有一種能夠立即理解來自任何人的自然語速的大詞彙量語音。
詞彙識別。新技術有望克服這些限制。例如,語言學程序可以通過預測名詞或動詞在句子中可能出現的位置來提高準確性。“詞彙識別”通過過濾掉無關的單詞或短語,使小詞彙量系統變得更加實用。因此,如果你對一個只需要簡單是或否的問題回答:“嗯,好吧,是的,謝謝”,計算機能夠忽略掉除了關鍵詞以外的所有內容。
儘管最近取得了進展,世界各地的研究人員仍在爭相取得新的突破。例如,在日本,幾乎每家高科技公司都在瘋狂工作。日立有限公司正在實驗所謂的神經網絡系統,這些系統模擬人腦的學習能力。與此同時,競爭對手NEC公司則試圖將語音識別與機器翻譯相結合。今年早些時候發佈的原型能夠理解用日語説出的單詞,並將其轉換為計算機合成的英語。
專家預測,具有HAL類似能力的系統確實會到來——但可能要到2001年之後。直到那時,鬥爭仍在繼續。“機器應該以人類的方式與人類打交道,而不是以它們自己的方式,”Nynex的Skrzypczak説。如果那樣的話,當人們抱怨計算機恐懼症時,至少計算機將能夠傾聽。
作者:Evan I. Schwartz,來自紐約,Keith Hammonds在波士頓,以及其他報道
有關本特別報告的重印信息,請致電609 426-5494聯繫《商業週刊》重印部,或寫信至《商業週刊》重印部,P.O. Box 457, Hightstown, N.J. 08520。