谷歌自曝醫療AI臨牀結果不佳:實驗室豐滿,臨牀骨感_風聞
量子位-量子位官方账号-2020-04-28 14:48
白交 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
實驗室數據不斷刷新記錄的Google Health,最近公佈了一項臨牀診斷試驗結果。
不理想。
不僅診斷結果不一致,而且實際操作方法和在實驗室裏壓根不一樣。
這項系統是檢測糖尿病性視網膜病變(DR)的症狀,對糖尿病進行一個早期的篩查。
這。。不正是前幾年,谷歌一直在發力的核心項目嗎?
早在2016年,谷歌就在《美國醫學會期刊》(JAMA)發表了他們的研究成果:
一個深度學習算法能夠解釋視網膜照片中的DR跡象,可能將幫助醫生篩查更多的病人,尤其是在資源有限的社區中。
而當時谷歌產品經理及醫學博士Lily Peng就表示:“幾年前,谷歌的一個研究小組就開始探索利用機器學習來篩查糖尿病性視網膜病變(DR)。
深耕多年,內部研究都已經達到了90%的準確度,相當於人類專家水平。
沒想到,落到臨牀試驗,卻失敗了。
這大概就是理想與現實的差距吧。理想有多豐滿,現實就有多骨感。
像極了我們在大學實驗室裏做實驗的樣子。
研究結果很“豐滿”
若干年前,谷歌的研究人員就致力於利用深度學習算法來增強糖尿病視網膜的檢測過程。
在2016年公佈的論文“Development and Validation of a Deep Learning Algorithm for Detection of Diabetic RetinoPathy in Retinal Fundus Photographs”中,就介紹了他們的實驗結果。
通常,糖尿病人的眼部檢查是由眼科專家分析病人的眼底造影圖像,並通過檢查眼底病變來判定患病以及嚴重情況。
為此,谷歌研究人員專門建立了一個12.8萬幅圖片的數據集,每張圖片記錄了3-7名眼科醫師的評估結果。
為了驗證算法的性能,他們還使用了2個獨立的臨牀試驗數據集,包括1.2萬幅圖片,審核結果由專家來判決。
最終的結果表明,谷歌的算法診斷性能可以實現90%的準確率,已經可以跟眼科專家的診斷結果相媲美~
研究結果確實是很“豐滿”,於是在這幾年,他們就開始着手臨牀試驗了。
臨牀試驗很“骨感”
這個項目主要是在泰國展開,與泰國公共衞生部門合作,在泰國巴吞他尼省和清邁省的11所診所安裝了這個深度學習系統。
首先是由護士挨個給患者拍攝眼球照片,然後將這張照片上傳到系統,隨後拿着照片到眼科醫生診斷。
理論上,這個系統能夠在幾秒鐘內提供類似眼科專家的專業診斷,然後護士們可以在一分鐘內做出初步的轉診或進一步檢查的建議。
然而。。。
實際情況是,系統要1到2分鐘才能上傳圖片,發送的圖像達不到標準,護士的判斷也就有了一定的誤差。
那麼我們就來具體聊一下他們的實際落地情況。
首先,在第一步,護士拍攝的眼球照片達不到算法的標準。
因為每個診所的條件和資源不盡相同,而要達到算法的高標準,通常需要一個暗室。
光線調暗了,就確保了患者瞳孔放大,這樣就能夠拍攝高質量的眼底照片。
但是在11所診所當中,只有2所才有這樣專門的檢查室。
這會造成什麼樣的影響呢?
如果圖像有明顯的DR症狀,但是很模糊、質量很差,那麼系統就會自行拒絕,這樣流程就更加複雜,耗費更多的人力物力。
甚至,患者還有可能跑去另一家醫院檢測。
這還給護士帶來了很大的壓力,因為算法所要求的圖像跟平時常採集的圖像質量要求有一定的差距。
接着,可能是因為谷歌研究室的網絡連接太強大,只需要幾秒就可以上傳。但是在診所裏,網絡並不那麼流暢,圖像往往就需要一分多鐘才能上傳。
這樣,篩查進程就變慢了。有一家診所在進行眼底篩查時,網絡中斷了兩個小時,導致篩查的患者人數從200人減少到只有100人。
所以,組織篩查流程的護士,因為具有自主性,有的護士就建議患者不參加研究,避免一些不必要的麻煩。
最後,其實還有一個最為關鍵的問題——患者。
其實這項研究,本身就以患者為中心,如果患者不願意不滿意,那就有必要進一步改進。
在實驗中,一位診所的護士曾提到:
患者關心的不是診斷的準確性,而是體驗如何。如果診斷的過程太麻煩,他們寧願不參加研究,直接找醫生診斷。
努力了那麼久,卻是這樣的結果,難免有些落差。
但這並不是一個壞消息。
谷歌公佈失敗結果的同時,也強調,有了這樣與醫生患者的互動,才能更好的改進這項技術。
同時,也給谷歌這種勇於“正視淋漓的臨牀結果”的態度,點個贊。
畢竟這個行業裏,報喜的多,吹哨的少。
也提醒我們,醫療AI,沒那麼簡單。
畢竟AI“進軍”醫療,年頭不少了,但你在醫院和普通門診場景裏,有見到嗎?你願意把疾病交給AI診斷嗎?