從會做題到會看病,螞蟻如何訓出真正好用的醫療智能體?
张广凯13764468101

打開支付寶搜AI健康管家,用户即可調用“泌尿外科”智能體,獲得診前諮詢、多輪問診、多報告解讀、腫瘤分期診斷及醫療掛號等服務。“這一智能體涵蓋了98%常見泌尿系統疾病類別,上崗8個月,服務了30萬人次,醫院泌尿科一年門診量約55萬,超過半數。”
4月22日,上海交通大學醫學院附屬仁濟醫院(以下簡稱“仁濟醫院”)展示其與螞蟻集團合作AI醫療的最新成果。這也是全國首個用疾病結構化數據訓練、在真實醫療場景運行的專科智能體。

“昨天晚上,我做手術做到半夜12:30,為什麼?因為病人太多根本做不完。”仁濟醫院泌尿科主任潘家驊向觀察者網談到,優質醫療資源供需失衡,仍然是中國醫療體系面臨的結構性難題。隨着人工智能技術的發展,如何讓大模型真正服務於醫生診療過程,成為業內的迫切需求。
但是仁濟醫院和螞蟻團隊的研究發現,當下的通用大模型儘管在醫師考試等場景下能夠取得超過80%的準確率,比人類表現更好,是一個很會答題的“好學生”,但還不是一個“好醫生”。
研究數據顯示,在真實場景的開放性醫療問答中,如果以仁濟醫院泌尿科專科醫生的水平為基準,ChatGPT-4o的得分0.4-0.6之間,略高於仁濟醫院實習生的水平,但還不如普通的社區醫院全科醫生,更是顯著低於普通專科醫生。

潘家驊指出,對於通用大模型來説,如果患者問前列腺癌應該如何治療,它往往只是列出前列腺癌有多少個治療方法,可以去參考什麼診療指南。而一個真正有用的醫療大模型,應該能夠根據病人的具體症狀,比如尿頻尿急、骨頭痛,去做出邏輯判斷,是不是前列腺癌引起了骨轉移。
仁濟醫院副院長、泌尿科學科帶頭人薛蔚認為,在醫療領域,精準的知識訓練比注入規模化數據更重要,除了教給AI醫學文獻和指南,關鍵還在讓AI學會醫生的邏輯和思維,因此在這個過程中頂尖醫生與技術應該成為搭檔。
他進一步介紹道,“在對數據集、大模型、智能體系統性的開發過程中,仁濟泌尿科醫生深度參與、螞蟻集團軟件工程師、醫學標註員共同建設對醫療文獻、結構化診療數據的可控生成算法,並引入了人類醫生的思考邏輯,讓這一專科智能體達到臨牀可用的程度。”
螞蟻集團AI醫療事業部高級算法專家申月解釋説,人類醫生基於臨牀經驗,能夠形成一套嚴謹、明確的診療邏輯,但人工智能的回答並不基於大量的經驗性知識輸入,二者思維方式不同。醫療大模型面臨的一大挑戰,就是去學習人類專家臨牀診斷的可解釋性邏輯。
為此,仁濟醫院專家利用真實的臨牀病例,構造了2000餘條數據的推理數據集,然後再通過人工智能進行迭代和複製,最後達到10萬量級的大樣本數據集構建。
藉助這樣基於真實病例的數據集,併為大模型引入思考鏈條,最終人工智能就能夠更好地模擬醫生在實際就診過程中的思維路徑。
觀察者網獲悉,仁濟醫院與螞蟻集團合作的醫療智能體,在測試中已經接近於普通專科醫生的準確率水平。
而在智能體能夠獨立進行診療之前,其更大的用武之地在於輔助人類醫生,提高醫生的診斷水平。評測顯示,上述智能體能夠讓基層醫生診斷正確率提升4%-8%,已初步具備“下基層”的能力。

公開資料顯示,螞蟻醫療大模型在MedBench醫療大模型評測中,曾連續斬獲醫學知識問答等多項第一,也是業內應用場景最豐富、與醫療機構、醫生、醫院共建最深的垂類大模型之一,目前已完成基於強化學習的新一代醫療推理模型研發。
據瞭解,仁濟醫院、螞蟻集團正與人民衞生出版社合作建設人工智能數據庫,進一步豐富專業語料庫、持續提升醫療智能體的醫學邏輯能力。同時,圍繞泌尿專科大模型的開發更多應用,並探索將AI能力投射到更多基層醫療機構。
“將頂尖醫院的診療經驗標準化是AI未來的使命,推動醫療大模型進醫院最大價值是向下紮根,通過‘封裝’三甲醫院的診療能力,廣泛服務基層醫療機構,使有限醫療資源以技術的方式得到擴容。”螞蟻集團醫療大模型算法負責人王劍表示。
本文系觀察者網獨家稿件,未經授權,不得轉載。