“6秒讀心”是什麼黑科技?_風聞
返朴-返朴官方账号-关注返朴(ID:fanpu2019),阅读更多!2020-08-30 19:17
撰文 | Kristen French 譯者 | 牙牙
審校 | 郵狸
來源:神經現實
自殺干預的新手段
2016年,辛辛那提市校園內青少年的自殺率激增,兒童福利院的行為健康主管黛比·金瑞奇(Debbie Gingrich)眼見事態惡化,但原因不明。自殺是美國青年的第二大死因,過去15年辛辛那提市的自殺率基本保持穩定,如今卻出現劇增,令人擔憂。到了2017年1月,增長的趨勢仍在繼續。
據報道,一名8歲男童在被校園霸凌後自殺,不久之後,另有6名學生也選擇結束了他們的生命。家長和學校都心急如焚,當地醫療部門迫切需要一種手段,以找出自殺風險最高的孩子。金瑞奇説:“檢查是否骨折,拍個X光就能知道,但在心理健康領域卻缺乏有效的工具,每個人都想知道,為了挽救生命,我們能做些什麼?”
作為解決方案之一,辛辛那提市各級學校決定嘗試一項實驗性的人工智能技術。據稱,該技術能檢測人類語言中是否隱藏有自殺傾向。該機器學習算法的開發者約翰·佩斯蒂安(John Pestian)是辛辛那提市兒童醫院醫學中心(Cincinnati Children’s Hospital Medical Center)的生物醫學信息學與精神病學教授。該算法將細緻篩查患者錄音並分析信號組合,其中有些是人類無法察覺的,如:音調的細微變化,或詞語和音節之間的納秒級延遲。
該算法的訓練集來自於自殺遺言以及近期曾自殺未遂的患者錄音。在2016年的一次研究中,佩斯蒂安的團隊用379位患者的錄音來測試 。第一組患者在過去24小時中曾嘗試自殺;第二組患者根據精神鑑定被確診患有精神疾病,但從未試圖自殺;第三組錄音的患者均不具有以上兩種特徵。單是通過掃描錄音的內容,佩斯蒂安的算法就能夠以85%的準確率將患者正確分類。
2019年春季,佩斯蒂安的算法在幾所辛辛那提學校首次測試。在第一階段,輔導員使用常規手段對學生進行心理健康評估,並同時使用定製的手機APP錄音。研究人員想知道聲音分析的結果是否與精神病學調查和專家意見一致。
結果算法表現良好,於秋季在20所學校中推行,並記錄了上千名學生的訪談。研究人員希望這項技術能夠發揮引導作用,讓有需要的學生去做進一步的精神病學評估,以阻止悲劇發生。只要能挽救生命,這項技術就是有價值的。
在計算精神病學(computational psychiatry)的新興領域中,語音分析是一項很有前景的前沿技術,將人工智能工具應用於心理健康領域。用高性能計算機對大量數據進行分類,研究人員對認知、行為和腦功能的模式進行深入分析,以幫助他們理解和檢測精神疾病。
在語音方面,原本只有訓練有素的精神病學家才能識別某些語言和聲音模式,這些程序不僅能自動檢測,還能捕捉到一些人耳無法感知的聲學線索。尤其是哈佛大學、麻省理工學院、哥倫比亞大學和斯坦福大學的科學家們開發的算法,目前已經能夠做到,僅使用短短一分鐘的語音(經本人同意收集),就初步篩查出是否患有創傷後應激障礙、抑鬱症、精神分裂、精神病和雙相障礙。經檢驗,這些自動分析算法與專業精神病學家的意見達到了70%-100%的吻合度。
心理健康危機在美國蔓延,自殺率達到二戰以來的新高點,加上精神病學領域人才稀缺,人們對人工智能寄予厚望。美國國防部正持續資助AI工具的研究,用於檢測創傷後應激障礙。比如用於分析戰場歸來士兵的精神狀況,以判斷該士兵是否適合重新遣調。
硅谷也正在大力投資,例如,2019年早些時候,谷歌入夥特雷弗項目(The Trevor Project)——為LGBTQ青少年羣體做自殺干預的非營利組織。該項目將使用谷歌專利技術,來檢測分析聲音和文字中的人類情感,分析患者可能的自殺風險,向學校輔導員發出預警。
谷歌參與的特雷弗項目丨來源:thetrevorproject.org
從智能手機和社交媒體上收集而來的,來自真實世界的大量數據(也許有一天像亞馬遜的Alexa或Google Home這樣的語音助手也能成為採集源),正在幫助科學家們研發臨牀工具,這些工具將有希望以遠程無創的方式掃描精神疾病,且成本低廉。
“不用活檢,甚至不用抽血,只要給他們錄音就行了。”查爾斯·R·馬瑪(Charles R. Marmar)説道,他是紐約大學醫學院的精神病學系主任,專門研究創傷後應激障礙。
新技術帶來方便,也帶來一系列問題,既有臨牀方面的,也有道德上的。該由誰來收集這些數據,又該讓誰來分析?研究人員對AI的診斷有多少信心?如果機器對一個人的心理健康給出了錯誤評估,又該怎麼做才能避免危險的後果?
心理健康的診斷難題
美國每年在心理健康服務上的花費超過2010億美元,是所有疾病治療中開銷最大的一個類目,但依然供不應求。美國半數以上的區縣沒有社區福利工作者、心理學家或精神病學家。心理健康不像其他醫學領域,沒法用血檢或生物標記來加快診斷,還是主要依賴專家一對一的談話和觀察,非常耗時。
即使這樣,心理健康診斷的準確性也還遠遠不夠。嚴重精神疾病是根據《精神疾病診斷與統計手冊》(Diagnostic and Statistical Manual of Mental Disorders)來分類的,但不同疾病的診斷標準之間存在着相當大的重疊。
例如,焦慮症的症狀“注意力集中困難和精力水平改變”,也可指向雙相障礙、創傷後應激障礙或抑鬱症。根據2018年發表在《美國醫學會雜誌-精神病學》(JAMA Psychiatry)上的一項研究,至少有一半的患者收到過不止一種精神病學診斷,有時需要花費數年才能確定哪個是正確的。
2013年,就在《精神疾病診斷與統計手冊》第五版出版前夕,美國國立精神衞生研究院(National Institute of Mental Health,或稱NIMH)院長托馬斯·英賽爾(Thomas Insel)對這本參考書感到十分失望,甚至在NIMH網站的院長博客上公開聲明,此手冊“缺乏科學邏輯”、“精神疾病患者需要更科學的診斷標準”。
英賽爾倡導將研究重點從《精神疾病診斷與統計手冊》的疾病分類上轉移——少關注症狀,多關注引起疾病的原因,英賽爾稱這是實現“精確診療”的第一步。NIMH的一個研究組開始制定新的心理健康疾病分類系統,該分類系統的標準之一便是語言。
英賽爾認為,自然語言處理結合了數據科學和語言學,也許在心理健康領域會成為具有顛覆性的生物標記,為心智的狀態提供客觀的衡量標準。英賽爾目前是Mindstrong健康技術公司的董事長,該公司通過手機交互數據來衡量心理健康。他們認為,通過信息技術引領心理健康診斷和治療,很有前景。他説:“在今後的十年裏,使用AI工具對語言進行分類可能會改變心理健康領域,該工具為社區健康工作者和急診室內科醫生提供的協助幾乎相當於一名資深的臨牀醫生。”
將語言作為診斷依據的歷史,和精神病學領域本身一樣久遠。眾所周知,西格蒙德·弗洛伊德就曾受口誤的啓發,他相信口誤可以揭示一些潛意識的慾望。20世紀初,瑞士心理學家尤金·布洛勒和他當時的助理卡爾·榮格倡導使用字詞聯想(word association),這是精神分析中觀察性和實驗性檢測方法最早的應用之一。反應的延遲或字詞聯想的不和諧可能暗示着心理衝突,可以幫助診斷。
二戰之後,除了語言內容,研究人員還開始關注語音中的聲學內容或語音本身隱含的意義。例如,NASA也開始為宇航員錄製語音採樣,結合其他測量標準,來分析他們的壓力水平;而20世紀90年代,美國國防部也開始測試使用聲音分析來測謊,以取代飽受詬病的測謊儀。
如今,精神病學家經相關訓練,在同患者面談時會尋找語音特徵:反常的健談可能暗示雙相障礙的輕度躁狂發作;音高降低和語速變慢可能暗示重度抑鬱;語句含義或句子之間出現不和諧的中斷可能暗示精神分裂。
通過測量語言來量化精神疾病,始於20世紀80年代,當時馬里蘭大學的精神病學家沃爾特·温特勞布(Walter Weintraub)開始人工統計談話和醫學面談中的詞語。
温特勞布注意到,患者談話中出現“我”(I, me)這個詞的比例增加,便和抑鬱症高度相關。十年後,美國社會心理學家詹姆斯·彭尼貝克(James Pennebaker)開發了一款軟件,能對詞語進行計數並將其歸類到80多個語言學分類中——例如,表達洞察力或消極情緒的詞語分類。語言偏向其中某些分類,則與心理健康問題有關。
對心理疾病聲學特徵的分析則始於2000年左右,當時範德比爾特大學和耶魯大學的一個團隊發現,語音“能量”(voice power)的波動比其他特徵更適合作為抑鬱症和自殺傾向的指標。
近年來,AI技術的進步,改變了人們對語音的理解。如今機器能夠對海量數據進行分類,分析出人類發現不了的模式。
健康技術公司NeuroLex Diagnostics致力於開發語音分析工具以幫助初級護理醫生診斷精神分裂症,據其CEO及創始人吉姆·薛沃貝爾(Jim Schwoebel)説,過去十年裏,手機錄音技術有所改善,還出現了自動文字轉錄功能,在該領域起到關鍵作用,使大規模的精密研究首次成為可能。
過去幾年中,科學家持續改善分析工具,有時候會根據從社交媒體中提取的大量樣本數據來設計研究,而不僅限於實驗室內的小範圍人羣。
例如,賓夕法尼亞大學的世界福祉計劃(World Well-Being Project)和紐約長島石溪大學的研究人員正持續從社交媒體收集文字語言樣本。最近,他們發表了一項研究,展示了其中一個AI項目是如何訓練的——經683名用户同意,將他們的臉書翻了個底朝天。其中有114名用户的醫療記錄顯示他們曾有過抑鬱症的診斷。該AI項目可以做到早於臨牀醫生三個月預測出病情。
人們公開分享想法和情感,形成巨大的數據庫,再用上計算機的算力進行篩選、尋找語言模式:互聯網已成為一座語言實驗室。
AI語音分析具有哪些優勢?
但隨着計算機學會檢測,連訓練有素的精神病學家也無法捕捉的聲音變化,AI真正能夠有所突破的領域,還是在於説話的聲音。例如,在美國國防部資助的一項研究中,一支來自紐約大學蘭格恩醫學中心(Langone Medical Center)的研究隊伍正在和非營利研究機構斯坦福國際研究院(SRI International)合作,後者曾負責開發蘋果的語音助手Siri。2019年春季,這支合作隊伍發表了研究結果,表明他們的程序分辨出了聲音中極其細微的特徵,可用於診斷創傷後應激障礙,並達到了89%的準確度。
“講話”這一行為,比其他任何人類活動都要用到更多的運動神經纖維——把信息傳遞到肌肉和腺體的神經。講話涉及到的喉部、口面部和呼吸系統的肌肉多達一百多塊,產生神經學上的複雜行為,從而引起微妙的聲音變化。
斯坦福國際研究院的工程師從人類聲音中分離出了40,526項特徵,並讓他們的程序分析了129名伊拉克戰爭和阿富汗戰爭老兵半小時的語音採樣。另一支由紐約大學精神病學家查爾斯·馬瑪(Charles Marmar)領導的研究隊伍,能夠分辨18種所有人都有、但創傷後應激障礙患者與眾不同的聲音特徵。
特徵包括:音高範圍更窄(高音低音較少)、慎重的清晰發音更少、韻律更為單調,以及由喉部肌肉緊張或唇舌相觸所引起的聲音變化。
馬瑪説:“我們認為,這18種特徵可能是高度焦慮的表現,但並非如此。這些特徵表現為語音單調、語速慢、語流穩定、音調較平、相對沒有活力。換句話説就是,無精打采、無調性、無感情。”馬瑪認為,原因也許是參加研究的老兵已離開戰區5-8年,在這麼長的窗口期裏,他們要面對長期的壓力,還有酗酒等其他問題,可能導致他們將情感麻木作為一種防禦機制。
馬瑪的團隊現準備再做一次分析,這次使用的樣本包括男性和女性、退伍軍人和非退伍軍人。如果AI表現依然良好,他們計劃使用該程序測試一種創傷後應激障礙新藥,通過研究一組退伍軍人接受治療前後的聲音品質,來判斷該新藥的有效性。
AI的另一項複雜且關鍵的任務,是預測未來的心理健康事件,例如精神病發作——可能表現為妄想和語無倫次。有證據表明,心理疾病越早發現和治療,預後越好。因此,預測能力將格外有價值。
吉利爾莫·塞奇(Guillermo Cecchi)是紐約IBM的計算機生物學家,他負責的實驗室是該領域的領跑者。塞奇和他的團隊正在開發一款能自動分析語音的手機應用。據2018年發表的一項研究,他的算法僅使用面談中收錄的幾分鐘語音,就能識別出哪些人在接下來的兩年半時間裏會患上精神病。它的準確率達79%,另外兩項研究也驗證了它的可靠性。該計算機模型的表現也超越了其他一些記錄大腦活動的先進掃描技術,例如神經成像和腦電圖。
塞奇説:“語言是觀測心理活動的最好窗口之一,曾經主要依靠訓練有素的精神病學家或神經學家所特有的經驗來判斷,如今我們可以使用機器學習技術和AI技術來量化。”他設想,這樣的工具作為“心靈的聽診器”,在每一位精神病學家、神經學家和社區福利工作者的辦公室裏隨處可見,存在於每一位患者的口袋裏。
人聲分析,其結果可靠嗎?
但這僅是前期的努力,要達到廣泛的應用,仍存在一些障礙。其中之一便是缺少優質訓練數據,用來訓練當前階段AI的聲音樣本量仍然相對較少。即使是目前最嚴謹的模型,其學習數據最多也就來自區區數百位經專業診斷的精神病患者。出於醫療隱私的考慮,要收集更多的樣本並在研究人員當中共享,可能存在困難——隱私問題制約着醫療AI項目的方方面面。
波士頓貝斯以色列女執事醫學中心(Beth Israel Deaconess Medical Center)數字化精神病學部門主管約翰·託羅斯(John Torous)説道:“這些試驗性項目向我們展示了聲音分析的可行性,可謂令人振奮,但這僅僅只是開端,因為我們還無法獲取到足夠臨牀有效的可用數據,我們需要的數據量至少要達到人口學級別。”大部分研究人員認為,AI項目獲取到的樣本數量需要達到數萬,才能確保算法的有效性。
樣本數量過少,帶來的最大問題之一,就是當遇到一種沒有經過充分訓練的語音模式——例如一種亞文化語言,AI可能會表現不佳。例如,蘋果的語音助手Siri,在處理蘇格蘭用户的問題和指令時,至今仍有些吃力。IBM的塞奇注意到,研究參與者大部分都來自相似的社會經濟和語言學羣體,現有的AI算法經過這樣的訓練,識別出的聲學線索,也許並不適用於其他羣體。塞奇説:“聲音的時間結構,以及韻律,我們研究的這些特點在不同文化中都有所差異。”
但與道德問題比起來,這些困難也許都是小巫見大巫。眾所周知,人們擔心AI可能反映出人類的偏見。AI的學習數據來自於人類精神病學家,它做出的診斷,也許準確度與人類別無二致。但我們都知道,當前的心理健康領域存在着種族歧視。例如,同樣的症狀,比起白人患者,非裔美國人更可能被診斷為精神分裂,而不太可能被診斷為心境障礙。因此,AI可能會直接採用這些錯誤結論,並造成更大規模的誤診。
解決方法之一,是提高AI模型的“可解釋度”(explainability)。機器學習算法通常被看作是“黑箱”模型,只呈現結果,完全不告訴研究者機器是如何得到最終答案的。美國海軍人工智能研究中心與DARPA和IBM合作,正協同開發新的AI,能夠解釋它是如何得出結論的。
其他團隊正在開發另一種AI,能夠有效呈現預測中包含的不確定性。在醫師給出臨牀意見時,“高解釋度”的信息能告訴醫師AI的預測有多少參考價值。塞奇説:“AI的可解釋度十分重要,不斷調試‘高解釋度’的AI,才能明晰AI的結論從何而來。”
另一個主要的顧慮在於:哪些人有權使用這些診斷工具。臉書有一項功能,可以審查用户的動態,並提示哪些人可能具有自殺風險。臉書用户無法禁用該功能,並且,自2018年秋季以來(截止至文章發表日期2019年10月7日),該功能已涉及幾千起報警,通知救援人員上門確認了3500多名用户的安危。儘管該功能因強制干涉性被批評,臉書依然拒絕發佈相關干預的數據或研究報告。
隨着錄音數據成為日常科技使用的一部分。例如,亞馬遜的聲控助手Alexa很明顯地將用户的聲音數據和轉錄文本永久保存,許多人擔心警察、僱主或私有公司會窺探這些設備使用者的心理健康狀況。NeuroLex Diagnostics的吉姆·薛沃貝爾説:“我們需要規範,因為在當下,無需本人同意就給他們錄音並拷貝,在一些州仍是合法的。”而基於語音的歧視,現下並沒有法律規定 。
AI診斷是可期待的未來嗎?
在以上所有顧慮之後,藏着一個難以解決的深層次問題:如果AI得出的結論是錯的,該怎麼辦?在心理健康保健中,小錯誤也可能會變成大災難,而假陽性——如某人可能被誤診為雙相障礙患者,導致個人的重大損失。
聖地亞哥斯克里普斯研究所(Scripps Research Translational Institute)數字化醫藥部門主管史蒂夫·斯坦哈珀(Steve Steinhubl)説:“光是得到那樣的診斷結果,就讓人感覺不適,就能讓人改變對自己的看法。尤其是當診斷結果只是來自於屏幕,缺乏面對面交流的時候,我們需要特別謹慎。”
即使這樣那樣的顧慮層出不窮,致力於計算機語音分析的公司仍在繼續前行。有些公司正在尋找方法,來收集人口學級別的樣本數據。薛沃貝爾正在開發一個他稱作“Voiceome”的大型在線數據庫,用於存儲志願者貢獻的語音和聲音數據。其他的像辛辛那提學校的項目和特雷弗項目的手機掃描,都在努力將診斷和預測工具融入生活APP。
總部位於波士頓的桑德健康公司(Sonde Health),正在把以上兩者結合起來。桑德公司正在開發一款手機應用,使用麻省理工授權的聲學分析技術,通過僅6秒長度的語音,該平台就可能監測並篩查出抑鬱症患者。在印度,通過與醫院和鄉村診所合作,桑德的APP已經以研究為目的投入使用。該公司擁有1.5萬人的音頻數據,正從中分析一系列心理和生理健康狀況的信號。
在桑德的宏大計劃中,該平台將面向世界各地的患者,並將有能力診斷痴呆症、帕金森綜合徵以及其他不在其最初規劃中的疾病。其CEO兼創始人吉姆·哈珀(Jim Harper)説,公司計劃讓患者和醫療保健工作人員都能使用這個平台。
哈珀暢想未來人們可以選擇在家裏配備一台聲音檢測設備,自動監測語音查找線索,判斷心理和生理健康狀況是否有所改變。他設想的APP將會和最近發佈的Alexa Guard的工作方式非常相似,後者利用居家設備監聽玻璃破碎或煙霧報警器的聲音,給出門在外的人發送警報。
但他同時也很謹慎。他明白,能給出心理健康診斷的工具有多麼容易被濫用,為惡意服務,而非行善。他説:“沒有任何人想要生活在那樣的世界。”
本文經授權轉載自微信公眾號“神經現實“。原文:http://protomag.com/articles/something-your-voice,封面:Davide Bonazzi。