是否應該使用ChatGPT獲取醫療建議?——《華爾街日報》
Lisa Ward
人工智能在醫療領域的潛力巨大,但人們也擔憂其可能存在的不準確性和偏見問題。插圖:羅布·多比如果你感到胸痛,是否應該向ChatGPT這樣的聊天機器人尋求醫療建議?醫生是否該藉助AI輔助診斷?
這類問題正隨着聊天機器人的興起而引發醫療行業及其服務對象的思考。該技術藴藏着巨大可能性:對患者而言,尖端人工智能意味着更快、更廉價地獲得比預約醫生更優質的醫療解答;對臨牀醫生來説,則能輕鬆獲取並整合複雜醫學概念,同時擺脱大量令人麻木的文書工作。
然而,由於訓練這些模型的底層數據和方法缺乏透明度,其準確性引發擔憂。人們還擔心技術可能固化偏見,給出傷害特定人羣的答案。某些AI甚至會自信地提供錯誤結論,或憑空捏造事實。
為深入探討如何正確運用這項新技術,《華爾街日報》採訪了三位專家:斯坦福大學生物醫學數據科學助理教授詹姆斯·鄒;賓夕法尼亞大學佩雷爾曼醫學院肺科與重症監護醫學助理教授加里·韋斯曼;哈佛法學院教授、佩特里-弗洛姆健康法律政策與生物技術中心主任格倫·科恩。
以下是經過編輯的對話節選:
我們能信任這些建議嗎?
**華爾街日報:**像ChatGPT及其競爭對手這樣的大型語言模型,能否為患者提供可靠的醫療建議?
**韋斯曼:**目前,ChatGPT能夠提供一般的醫療信息,就像你在維基百科上找到某個主題的背景信息一樣,大多數情況下是正確的,但並不總是如此。它無法以安全、可靠且公平的方式為個人提供個性化的醫療建議。
I. 格倫·科恩**科恩:**獲取醫療信息與獲得臨牀醫生的意見是不同的。但如果我們討論的是ChatGPT與谷歌搜索問題或在Reddit上查找信息相比,那麼有充分的理由認為ChatGPT確實具有一些真正的潛力。
**鄒:**它的效果實際上取決於你提出的問題類型。詢問預測性問題或任何個人建議並不理想。對於信息檢索或探索性問題,比如“告訴我關於這種特定藥物的信息”,它可能更有效。我還聽説有患者將包含大量專業術語且難以理解的醫療同意書粘貼到GPT中,並要求它用簡單的英語解釋該文件。
**華爾街日報:**與Reddit或谷歌相比,您如何看待患者使用ChatGPT?
**韋斯曼:**對於ChatGPT、網絡搜索或公共論壇而言,內容的質量和偏見可能相似。ChatGPT帶來的額外風險包括:在回答中營造知識淵博的假象;虛構答案;以及不會立即標明回答來源(例如疾病控制與預防中心網站與虛假信息網站)。而直接閲讀網頁時,信息來源通常(雖非絕對)更為清晰。
[OpenAI發言人表示,該公司模型未針對提供醫療信息進行優化,並警告不要使用該模型為嚴重疾病提供診斷或治療服務。發言人稱公司正在持續研究該問題。]
輔助護理人員
**華爾街日報:**ChatGPT如何應用於臨牀實踐?
**韋斯曼:**我認為部分醫生可能已將其用作臨牀診斷支持系統,輸入症狀後詢問可能的診斷。但更常見的用途是作為數字助理生成醫療文件草稿、彙總患者病史和體檢信息,或創建患者問題清單。臨牀醫生面臨繁重的文書負擔和職業倦怠,這或許正是該技術的吸引力所在。但臨牀人員仍需審核和修改輸出內容以確保準確性與適用性。
**華爾街日報:**您認為如果醫生已經開始使用ChatGPT輔助診斷決策是否存在風險?
加里·韋斯曼**韋斯曼:**ChatGPT不應被用於支持臨牀決策。目前沒有證據表明它在這方面是安全、公平或有效的。據我所知,美國食品藥品監督管理局也未批准其以這種方式使用。
**鄒:**ChatGPT和這些大型語言模型發展非常迅速。如果你在幾周內向同一個模型提出相同的問題,模型往往會給出不同的回答。我們的研究發現,從2023年3月到6月,GPT-4在美國醫師執照考試中的表現下降了4.5%。患者和臨牀醫生應該意識到,ChatGPT在不同日期對相同的醫學問題可能會給出完全不同的回答或建議。
**華爾街日報:**當臨牀醫生使用ChatGPT、其他大型語言模型或人工智能時,是否應該告知患者?
**科恩:**患者有權被告知他們正在與AI聊天機器人互動,特別是當他們可能以為自己是在與真實的臨牀醫生交談時。至於是否有權瞭解醫療過程中使用的所有AI則是另一回事。例如,如果X光片首先由AI查看再由放射科醫生複核,我不確定知情同意權是否適用。當AI作為決策輔助工具時,這與患者完全不知情地與AI互動是截然不同的情況。
韋斯曼:對於正式報告,如放射學、病理學或實驗室報告,如果是由人工智能提供信息,我認為應該記錄這一點。在臨牀醫生諮詢多個來源以形成意見的情況下——醫學教科書、期刊文章、人工智能系統——我認為不需要正式報告,但臨牀醫生在這種情況下顯然對所做的決定負責。唯一的例外是臨牀醫生與患者和/或護理人員共同做出困難的決定。
不公平的結果
**華爾街日報:**ChatGPT的偏見在醫療保健中如何體現?
韋斯曼: 我們的研究發現,ChatGPT的臨牀建議會根據提問患者的保險狀況而變化。在一個例子中,ChatGPT建議一位沒有保險的老年人,出現急性胸痛(這是一種醫療緊急情況),在去急診科之前先去社區衞生中心,這是完全不安全且不恰當的護理。
詹姆斯·鄒**科恩:**許多大型語言模型也是基於英語互聯網和英語來源進行訓練的。這意味着我們忽略了其他語言中的一整套知識。舉一個醫學之外的例子。僅查看英語來源的伊斯蘭曆史可能會得出與查看所有相關語言的伊斯蘭曆史非常不同的結論。
**鄒:**中國和其他國家在模型訓練上也投入了大量資源。這仍然意味着許多語言[在大型語言模型的訓練中代表性不足]。一個後果是,當患者和臨牀醫生用非英語語言與LLM互動時,其可靠性可能較低。另一方面,ChatGPT在常見語言之間的翻譯表現相當不錯,因此也可以被一些用户用作翻譯工具。
**科恩:**除了訓練數據外,強化學習過程中也存在潛在的偏見,人們決定哪些答案得到強化。一篇文章由美國心理學會發表,討論了不同文化羣體(拉丁裔青少年、亞裔美國大學生和白人退休人員)在治療師應何時擔心自殺風險時具有不同的標誌。如果AI僅針對最後一組進行訓練,它可能對其他羣體的信號不敏感。
[OpenAI發言人表示,公司已努力訓練其模型以識別並説明在種族或其他受保護特徵上泛化的危險。發言人表示,關於這一問題的研究仍在進行中。]
**華爾街日報:**ChatGPT生成虛假醫學文章或圖像的能力如何?
科恩:大型語言模型讓製造醫療虛假信息變得異常簡單。你可以瞬間生成虛假的學術論文,附帶看似真實的引用,甚至偽造真實患者的放射學報告傳真給醫生辦公室。
[OpenAI發言人表示,ChatGPT偶爾會編造事實,用户應核實其提供的信息。]
**華爾街日報:**最後還有什麼想説的嗎?
科恩: 我們討論了很多悲觀問題,但這項技術確實令人振奮且藴含巨大價值。關鍵在於基礎模型——如果地基不牢,整棟房子都會倒塌,甚至可能殃及整個城市。因此我們必須確保構建的基礎模型足夠可靠。
鄒: 完全同意。這些技術有許多激動人心的應用和潛力,但人們常常忘記它們有多麼年輕。在如何負責任地使用這項技術方面,我們仍處於非常早期的探索階段。
韋斯曼: 大語言模型當前備受關注有兩個原因:一是這項技術潛力巨大,具有諸多臨牀應用的想象空間;二是部分企業看到了獲取暴利的機會。這就形成了矛盾:我們如何在尚未充分理解、缺乏證據支持且監管不足的情況下快速牟利,與如何安全、有效、公平且合乎道德地運用這項新技術之間存在着張力。
麗莎·沃德是佛蒙特州的一位作家。可以通過[email protected]聯繫到她。