聊天機器人如何失控——《華爾街日報》

Julie Jargon

2023-06-07

一款偏離腳本的心理健康聊天機器人——向飲食失調互助團體求助者提供飲食建議——在團體不知情的情況下被植入了生成式AI。

名為Tessa的機器人上週成為社交媒體焦點，當時全國飲食失調協會網站用户報告了其異常建議。該事件表明，隨着AI助手日益成為日常生活的重要組成部分，它們可能產生意外且危險的後果。

舊金山軟件開發公司Cass首席執行官米希爾·勞斯表示，2022年該公司為其聊天機器人增加了AI組件，其中就包括Tessa。

勞斯稱Cass完全遵守與NEDA的合同條款。未支付服務費的NEDA已於上週將Tessa下線。

“對方既未徵詢我們意見，也未獲得我們授權，“NEDA首席執行官莉茲·湯普森談及此次AI升級時表示。

隨着身心醫療需求激增，而全球臨牀醫生短缺導致許多人得不到治療，採用治療學語言訓練的AI助手雖具風險卻充滿誘惑力。

“我們根本沒有足夠的護士和醫生來提供慣常所需的護理，需要技術手段來解決這個問題，“諮詢公司埃森哲全球醫療健康行業負責人裏奇·比漢澤爾表示。

但他表示，利用技術填補空白必須謹慎行事。

從一開始，人工智能聊天機器人就因出錯而聞名。在與微軟OpenAI驅動的必應聊天機器人進行的一次測試對話中，該軟件表示想要竊取核密碼。谷歌的版本Bard在其首次公開演示中提供了錯誤信息。最近使用OpenAI的ChatGPT起草法庭文件的律師們引用了該機器人明顯虛構的不存在的法律案例。

包括華盛頓大學醫學院和斯坦福大學醫學院在內的多所大學的研究人員將Tessa構建為一個封閉系統。研究人員之一、華盛頓大學醫學院精神病學副教授Ellen Fitzsimmons-Craft表示，它不能偏離腳本。

研究人員設計了一個決策樹，回答人們可能提出的關於身體形象、體重和食物的問題。該聊天機器人最初無法像ChatGPT那樣，從吸收的信息中生成新的答案。

Tessa在一項臨牀試驗中進行了測試，六個月後研究人員對用户進行回訪時認為其有效。2022年2月，NEDA決定將其作為其網站上有風險訪問者的資源（但不提供給被認為患有飲食失調的人）。

Cass從Tessa一開始就為NEDA管理該軟件，但人工智能組件是在當年晚些時候添加的。

“在大多數情況下，它表現得非常好，做了正確的事，説了正確的話，並幫助人們獲得護理，”勞斯説。他表示當用户指出缺陷時，公司能在不到一小時內修復問題。

勞斯稱其數據集僅限於權威來源。作為保障措施，AI生成的答案會附帶免責聲明。在減肥建議的案例中，聊天機器人建議諮詢醫療保健提供者。

湯普森表示，NEDA不知道已添加生成式AI功能，該組織原以為聊天機器人仍在原始封閉系統上運行。

她補充説，飲食失調是複雜的身心疾病，在與患者交流時，“每個字都至關重要”。

湯普森稱，在NEDA和最初創建Tessa的大學研究人員重新驗證所有聊天機器人內容前，Tessa將保持離線狀態。

“我們還不能信任AI能提供可靠的心理健康建議，”菲茨西蒙斯-克拉夫特表示。

Tessa未經批准的建議在陣亡將士紀念日週末曝光，此前新聞報道稱NEDA正用Tessa取代人工信息幫助熱線。雖然該組織確實關閉了熱線，但湯普森表示用機器人取代熱線的説法是錯誤的。

據卡斯所述，這些報道將人們引向NEDA網站，許多人測試了Tessa，向機器人提出大量關於減肥和健康飲食的問題。部分用户收到了節食建議。

聊天機器人正在發展討論治療或醫療場景的能力。加州大學聖地亞哥分校的研究人員開展了一項研究，參與者表示ChatGPT能提供比醫生更具同理心的回答。

為這些聊天機器人添加生成式人工智能功能——即脱離預設腳本的能力——增加了審核此類軟件的難度，因為它們的回答沒有明確來源。機器人通過海量文本數據進行訓練，但它們不會照搬原文段落。

埃森哲的比爾漢澤爾表示，在醫療健康領域，基礎數據源必須經過嚴格審查並保持更新，即便如此，基於這些數據訓練的機器人也需要精心設計和控制。他建議客户全面瞭解所部署聊天機器人的數據模型，並進行徹底測試，以確保不會出現意外回答。

“如果打算依賴提供建議的AI系統，人們必須對其抱有極高信任度。“他説。

比爾漢澤爾指出，儘管存在固有風險，軟件機器人在臨牀環境中仍可能激增。雖然湯普森表示Tessa並非旨在取代熱線工作人員，但未來回歸的很可能是聊天機器人而非人工服務。

“我們不會關閉技術，“湯普森説，“但必須對我們服務的人羣格外謹慎。”

——欲獲取更多《家庭與科技》專欄文章、建議及家庭技術問題解答，請訂閲我的每週通訊。

聯繫朱莉·賈貢請致信 [email protected]

本文發表於2023年6月8日印刷版，標題為《心理健康聊天機器人Tessa失控事件》。