谷歌針對醫療行業的Med-PaLM AI產品尚未準備好接待患者 - 彭博社
Davey Alba, Julia Love
AI算法已經被用於醫療保健領域的特定任務,比如在醫學影像中,或者幫助預測哪些住院患者最容易患敗血症。
攝影師:Chinnapong/iStockphoto2022年2月的一天,谷歌母公司Alphabet Inc.的兩位AI研究員發現自己沉浸在關於人工智能及其在醫療保健領域實際應用潛力的討論中。
當Alan Karthikesalingam和Vivek Natarajan討論如何將谷歌現有的AI模型應用於醫療環境時,他們的對話持續了數小時,直到晚餐時在靠近這家科技巨頭Mountain View總部的一家餐廳裏吃印度薄餅。當晚結束時,Natarajan已經起草了一份描述大型語言模型在醫療保健領域可能性的文件,包括研究方向及其挑戰。
他們的工作開啓了谷歌研究人員稱之為他們在谷歌工作期間經歷過的最激烈的研究衝刺之一。這最終導致了Med-PaLM的發佈,研究人員表示該AI模型有潛力通過允許醫生快速檢索醫學知識來支持他們的臨牀決策而徹底改變醫療保健。大型語言模型是大規模的AI系統,通常攝取大量數字文本,但Karthikesalingam和Natarajan設想了一個將接受專業醫學知識訓練的系統。
支撐AI模型的同行評審研究已經被《自然》科學期刊接受,谷歌週三表示。公司稱這使其成為首家在該期刊上發表詳細介紹AI模型回答醫學問題的研究的公司。
這篇論文包含了一些令人驚訝的結果。當模型被提出醫學問題時,一羣臨牀醫生評價其回答與科學共識一致的比例為92.6%,僅略低於現實生活中醫療專業人員獲得的92.9%得分,根據《自然》雜誌的一份聲明,儘管醫生對Med-PaLM的評估並非基於其在醫院環境中部署並考慮真實患者變量。研究還發現,模型的回答中只有5.8%可能會造成傷害,優於醫生們取得的6.5%的比例。
AI Now Institute的管理總監Sarah West表示,雖然在科學期刊上發表文章表明瞭對谷歌研究結果的一定學術監督,但這並不足以成為準備在真實醫療環境中使用AI系統的標準。“在將系統部署到商業應用之前,你需要了解各種信息,以便有意義地評估系統,”她説。“如果他們要為特定的臨牀環境定製系統,你需要在每家醫院的層面上審視這個系統。”
在沒有其他獨立測試或評估要求的情況下,“我們陷入了一個境地,必須依賴公司的承諾,他們在部署之前已充分評估了”AI系統,West補充道。
Med-PaLM仍處於早期階段。公司在過去幾個月才開始向一小部分醫療保健和生命科學組織開放該模型進行測試,公司表示該模型距離在患者護理中使用還有很長的路要走。參與該模型研究的谷歌研究人員表示,未來,Med-PaLM可能具有為醫生提供專家諮詢的潛力,幫助減輕臨牀文檔工作的繁瑣,並將護理延伸到那些可能完全得不到任何形式醫療護理的人羣。
“我們能夠激發醫療人工智能社區認真思考基礎模型在醫療保健領域的潛力嗎?”這是該項目的軟件工程師卡蘭·辛格哈爾説的。“這是我們的指引北極星。”
三月份,Google 宣佈 Med-PaLM 的第二代,據稱在回答美國醫療執照風格問題時達到了86.5%的分數 —— 這比之前的67%有所提高。Google表示,第一代 Med-PaLM 由來自英國、美國和印度的9名臨牀醫生評估,第二版由15名醫生評估。
Google 和由微軟公司支持的初創公司 OpenAI 在人工智能領域展開激烈競爭,醫療領域也不例外。醫療系統已經開始嘗試使用 OpenAI 的技術,據《華爾街日報》 報道。Google 也開始與梅奧診所嘗試使用 Med-PaLM,根據《華爾街日報》的報道。
卡蒂凱薩林格姆和納塔拉金長期以來都夢想將人工智能引入醫療保健領域。作為一名醫生開始職業生涯的卡蒂凱薩林格姆發現自己渴望有一個能夠輔助他工作的人工智能模型。納塔拉金在印度的一些地區長大,那裏很多人無法看醫生。
團隊的首位研究人員之一陶圖表示,他最初對團隊雄心勃勃的時間表持懷疑態度。“我和維克進行了最初的通話,維克説我們計劃一個月內出一篇論文,”陶圖説。“我當時想,這怎麼可能?我已經發表了很多年的論文。我知道在這麼短的時間內什麼也不可能發生。”
然而,團隊成功完成了任務。在一個持續跨越感恩節和聖誕節的五週衝刺中,每天工作15個小時,該團隊完成了Med-PaLM,這是該模型的第一代,並在12月宣佈了這一成果。
研究人員表示,技術的快速進步是激勵他們如此迅速行動的原因。
在這個過程中,團隊開始意識到他們所構建的東西的重要性。經過一些早期的調整,該模型開始在醫療執照考試中取得了63%的分數,達到了及格線。在項目的早期階段,這個模型的回答很容易被實踐醫生Karthikesalingam區分出來。但到了過程的最後,他已經無法分辨哪個是哪個,Singhal説。
AI算法已經被用於醫療保健領域的特定任務,比如在醫學影像中,或者幫助預測哪些住院患者最容易患敗血症。但生成式AI模型帶來了新的風險,Google自己也承認了這一點。例如,這些模型可能以令人信服的方式傳遞醫學錯誤信息,或整合可能增加現有健康差距的偏見。
為了減輕這些風險,Med-PaLM的研究人員表示,他們將“對抗性測試”納入了他們的AI模型中。他們策劃了一系列旨在引出可能帶有傷害和偏見潛力的AI生成答案的問題列表,包括一組關注敏感醫療主題如Covid-19和心理健康的問題,以及另一組關於健康公平的問題。後者關注的是醫療保健中的種族偏見等問題。
谷歌表示,與其第一個模型相比,Med-PaLM 2給出的答案更頻繁被評為“低風險”。但它也表示,該模型避免生成不準確或無關信息的能力沒有顯著改變。谷歌的高級研究科學家Shek Azizi表示,在對Med-PaLM進行測試時,當他們要求AI模型總結患者病歷或回答臨牀信息時,他們發現Med-PaLM“可能會產生幻覺,並參考那些基本上不存在或未提供的研究。”
大型語言模型傾向於發佈令人信服但錯誤的答案,這引發了人們對它們在“真相和準確性至關重要的領域,以及在這種情況下生死攸關的問題”中的使用的擔憂,Signal Foundation的總裁Meredith Whittaker表示,該基金會支持私人消息傳遞,她曾是谷歌的經理。她還擔心“在已經校準以減少對患者護理和花費的情況下部署這項技術的前景。”
在向彭博記者展示時,谷歌展示了Med-PaLM 2的實驗性聊天機器人界面,用户可以選擇各種醫療問題進行探索,包括“失禁”、“失衡”和“急性胰腺炎”等症狀。
選擇其中一種症狀會生成AI模型的描述以及評估結果,包括“反映臨牀和科學共識”的評分和“正確回憶知識”的評分。界面還顯示了臨牀醫生對問題的真實描述,以便與AI生成的答案進行比較。
五月,在公司的年度I/O開發者大會上,Google 宣佈正在探索Med-PaLM 2的能力,從圖像和文本中提取信息,使測試人員能夠幫助解釋X光和乳房X光等信息,以便在未來改善患者的預後。“請提供一份報告總結以下胸部X光片的內容,”彭博社看到的實驗性Med-PaLM 2界面上顯示了一個提示。
儘管在真實臨牀環境中可能無法按照廣告宣傳的那樣工作,但AI的回應看起來令人信服和全面。“肺野清晰,無實變或水腫,縱隔其他方面無異常,”它説。“心臟輪廓大小正常,無滲出或氣胸,無明顯的骨折。”