人工智能能否比人類更擅長共情?企業正在嘗試——《華爾街日報》
Lisa Bannon
忙碌、壓力大的人類並不總是善於表達同理心。如今,計算機科學家正在訓練人工智能替我們展現共情能力。
基於海量語音、文本和視頻對話訓練的AI驅動大型語言模型,如今已能智能識別並模仿同理心等情緒——有人認為其表現有時甚至優於人類。技術專家表示,這些強大的新功能有望改善客户服務、人力資源、心理健康等場景的互動體驗。但這也引發了道德倫理爭議:缺乏悔意和責任感的機器是否應被允許解讀和評估人類情感?
電信巨頭考克斯通信(Cox Communications)和電話營銷巨擘Teleperformance等企業正運用AI來測量客服人員的共情水平,並將評分納入績效考核。醫生和治療師則藉助生成式AI撰寫富有同理心的患者溝通內容。例如,用於培訓評估治療師的AI平台Lyssn.io正在測試專用GPT模型,該模型能針對患者情況生成建議回覆文本。當一位女性傾訴工作壓力導致焦慮時,Lyssn的聊天機器人會提供三種專業回覆選項:“聽起來過去一週工作確實讓你精疲力竭”;“很遺憾聽到這個消息,這周你是如何應對壓力和焦慮的?";或"感謝分享,你過去通常用什麼方法緩解焦慮?”
即便是來自銀行或網絡服務商的來電者,也可能正在朗讀由AI助手生成的腳本。下次當你接到電話、短信或郵件時,或許根本無法分辨回應你的究竟是人類還是機器。
企業高管們認為,這項新技術將帶來顛覆性變革。支持者指出,在客服領域,經過訓練能提供貼心建議的聊天機器人可即時提升消費者互動體驗,促進銷售和客户滿意度;治療型機器人則有助於緩解心理健康專家嚴重短缺的問題,為無法獲得其他護理資源的患者提供幫助。
“AI在輔助社會情感學習方面甚至可能超越人類,因為我們可以為其輸入全球頂尖心理學家的知識來指導培訓人們,“華盛頓州貝爾維尤市對話分析公司mpathic.ai的臨牀心理學家兼首席執行官格林·洛德表示。
部分社會科學家質疑:使用從未體驗過人類痛苦的AI來解讀情緒狀態是否合乎倫理?臨牀環境中使用的人工共情可能貶低"處於困境的人類理應獲得真實人文關懷"這一基本期待。如果人類將善意言辭的構建權交給AI,我們自身的共情能力是否會退化?
加州大學伯克利分校生物倫理學教授、共情與技術研究權威喬迪·哈爾彭指出,AI或許具備"認知共情"能力——即基於訓練數據識別並回應人類需求,但這與"情感共情"截然不同,後者要求設身處地體會他人的痛苦、希望與磨難,併產生真摯的關切。
“最具臨牀價值的同理心要求醫生在傾聽患者時有所體驗,”她説。這是沒有情感或經歷的機器人無法做到的。
以下是人工同理心應用的發展方向。
心理健康
支持者表示,經過動機性訪談和認知行為療法等結構化治療方法訓練的AI,可以幫助解決從戒煙、物質使用問題到飲食失調、焦慮和抑鬱等各種問題。“長期以來,我們一直有自助、在線CBT、視頻和互動工作表,無需人類治療師。我們知道技術可以有所幫助。這是合乎邏輯的下一步,”臨牀心理學家、Lyssn首席執行官兼聯合創始人大衞·阿特金斯説。
研究表明,使用AI建議和重寫治療師對患者的回應可以提高同理心評分。在在線同伴支持平台TalkLife上進行的一項實驗中,一個名為Hailey的AI訓練機器人向300名志願支持人員建議如何使他們對用户的建議更具同理心。例如,當支持者輸入“我理解你的感受”時,Hailey建議替換為“如果這件事發生在我身上,我會感到非常孤立。”當支持者寫道“別擔心,我在這裏”時,Hailey建議改為“這一定很艱難。你試過和你的老闆談談嗎?”
研究發現,與僅有人類回應相比,人類和AI的回應共同使同理心回應提高了19.6%。“當與人類配對時,AI可以增強同理心,”華盛頓大學計算機科學助理教授、該研究的作者之一蒂姆·阿爾托夫説,他與阿特金斯等人共同完成了這項研究。
心理健康專家表示,人工智能治療需要政府監管和專業指導方針,以確保透明度並保護用户。今年早些時候,一項在線治療服務因未披露使用GPT-3生成建議而激怒了用户。另外,國家飲食失調協會信息熱線使用的聊天機器人因向用户提供不當建議而被暫停服務。該機器人不僅提供信息,還向部分用户提供具體的治療建議,如減少卡路里和設定每週減重目標,專家表示這對患有厭食症等疾病的患者可能有害。
客户服務與銷售
長期研究表明,在商業互動中,從房地產銷售到投資建議,那些體諒他人感受的人更容易取得成功,研究早已證實這一點。
總部位於加州帕洛阿爾託的企業人工智能平台Uniphore銷售一款AI虛擬會議工具,該工具可追蹤通話參與者的情緒線索,幫助主持人即時分析哪些人蔘與度高、哪些人未投入,以及哪些內容引起共鳴。該技術通過分析面部表情、語調和用詞來測量憤怒、快樂和困惑等情緒信號。屏幕上的儀表盤顯示參與者的情緒和參與度評分,並提供提示,告知主持人是否需要放慢節奏、展現更多同理心或做出其他調整。
一些評論家質疑當人們的行為被公司記錄時,是否無意中放棄了隱私。Uniphore的首席執行官兼聯合創始人Umesh Sachdev表示,公司在使用這項技術之前必須披露並徵得參與者的同意。
Sachdev説,未來,這種技術可以應用於教育領域,當教師需要在虛擬教室中跟蹤數十名學生時。它也可以用於娛樂領域,進行電視和電影的虛擬觀眾測試。
人力資源
人力資源專家表示,在對話中評估同理心的人工智能將越來越多地用於績效評估和招聘。
Humanly.io是一家招聘和分析公司,客户包括微軟、Moss Adams和Worldwide Flight Services,它評估聊天機器人和人類招聘人員在求職面試中表現出的同理心。Humanly的首席執行官兼聯合創始人Prem Kumar表示:“對話中更高的同理心和積極傾聽與工作和銷售中更高的錄用接受率相關。”
Kumar説,在一家大型科技公司,Humanly的對話分析發現,招聘人員在面試女性時缺乏同理心和積極傾聽。在模型識別出問題並招聘人員收到反饋後,女性的工作接受率提高了8%。
費城以外的醫療服務公司Accolade過去讓主管們聽取其1200名健康助理與客户關於敏感醫療問題的電話交談錄音。但他們每週只能審查每位員工的一到兩個電話。
“我們評估員工最重要的標準之一就是‘你在通話中是否展現了同理心?’”Accolade運營高級副總裁克里斯汀·布魯澤克表示,“同理心是我們的核心價值,但它也是最難衡量和校準的複雜要素之一。”
Accolade目前採用Observe.AI開發的機器學習模型,專門用於檢測客服通話中的同理心表現。Observe.AI的預製同理心模型雖能識別“聽到這個消息我很難過”等固定句式,但無法涵蓋因年齡、種族和地區差異產生的多樣化表達。為此,Accolade工程師正在訓練算法識別更廣泛的情感表達,將員工可能使用的關懷語句——如“這一定很可怕”、“我無法想象那種感受”、“這肯定非常艱難”——植入計算機模型。
據Accolade估算,當前該模型的準確率約達人工評估的70%。即便如此,其效率已顯著提升。布魯澤克指出,Observe.AI每日可分析1萬次客户與員工互動,而過去人工僅能評估100至200次。
隨着自動化績效評估日益普及,部分學者提醒人類需認清AI測量的能力邊界。“如果機器無法準確衡量人類重視的同理心維度——比如疾病、痛苦、愛與失去的體驗——會怎樣?”麻省理工學院科學技術社會研究教授雪莉·特克爾質疑道,“機器可量化的標準終將成為同理心的定義。”
刊登於2023年10月12日印刷版,標題為《人工智能能否比人類更擅長共情?企業正在嘗試》。