德勞因·伯奇:今天醫生們所做的事,會有多少被證明有效?
武漢肺炎疫情來勢洶洶,目前治療方面還是採取臨牀上常規治療手段,進行對症治療。
值得一提的是,丁香園有文章指出,至今已過17年的SARS,也仍是“以對症支持治療為主。目前沒有經驗證的有效抗病毒藥物。……當年激素使用可能較為普遍,但是時至今日仍沒有循證醫學證據。”
現代醫學經歷了從經驗醫學到循證醫學的發展,不過兩者間的是是非非至今未有定論。本文節選自中信出版社2019年出版、英國現任牛津大學醫院主治醫生德勞因·伯奇所著的《藥物簡史》一文,講述了近幾十年醫療實踐中的“懷疑之美”。
【文/德勞因·伯奇】
一
今天醫生們所做的事,會有多少被證明有效呢?
1976年的新西蘭,當阿奇·科克倫打斷了演説,稱他的朋友克爾·懷特為“混蛋騙子”,並指出醫療干預中至多隻有10%是基於有力的證據時,他所説的數據並非隨口編造。
這一數字是來自1963年《醫療》(Medical Care)上的一篇論文,文中報告了對英國北部19名家庭醫生為期兩週的調查結果。在此期間,這些醫生被要求記錄所有開出的處方,並在調查期末將他們所開的藥物與所要治療的症狀進行對比,以確認其中有多少存在可靠的證據支持。結果數據為9.3%——科克倫説的約10%還有一點兒水分。
貫穿整個歷史,人類都在努力提升具有可靠證據支持的醫療實踐所佔比重,但成功的歷程卻磕磕絆絆。隨着20世紀逐漸過去,隨機對照試驗的力量展現得越來越清晰,雖説如此,它卻難以對醫生們的多數舉措形成支持。
在大部分時期,對醫療干預有效性的統計學研究都被稱為“臨牀流行病學”。對於這樣一項具有普遍重要意義的工作而言,這個名字顯得過於模糊而且令人不悦。因此,20世紀80年代才在加拿大麥克馬斯特大學的醫學教學研討中誕生了另一個術語:“循證醫學”(Evidence-based medicine,縮寫為EBM)。這個詞最早出現在《美國醫學會雜誌》(Journal of the American Medical Association)1991年的一篇文章中,最近才被廣泛使用。
“循證醫學”顯然只是個宣傳術語,存在同義贅述,它代表了一種思想派系,即認為某些特定類別的證據要比另外一些在整體上更穩健、更有價值——實驗勝於猜測,測試勝於傳言,干預勝於觀察。

相比經驗醫學,循證醫學主張將臨牀證據、個人臨牀經驗與患者的價值訴求三者相結合(出處見圖中標註)
很多醫生討厭“循證醫學”這個詞,他們的怒氣源自其宣傳論調,明裏暗裏指向他們的行為沒有遵循證據。經常有爭議認為,這一運動其實是以最缺乏思考的方式為最荒唐可笑的事物尋找試驗證據。
比如2003年《英國醫學雜誌》上由戈登·史密斯(Gordon Smith)與吉爾·佩爾(Jill Pell)所寫題為《降落傘在預防引力挑戰引起的死亡與重大創傷中的作用》(Parachute Use to Prevent Death and Major Trauma Related to Gravitational Challenge)的論文中説道:
如同許多期望預防健康問題的措施一樣,降落傘的有效性尚未通過隨機對照試驗來進行嚴格的評估。循證醫學的支持者批評這項措施僅以觀察數據評估後便被採用。我們認為,如果循證醫學的最激進倡導者能組織並親身參與一項針對降落傘的雙盲隨機安慰劑對照交叉試驗,將會對所有人都有益。
另一方面,EBM的支持者卻似乎樂於對降落傘之類干預措施顯然有效的結論通盤接受。1995年的《柳葉刀》上發表了一篇論文,題為《住院病人的整體醫療具備證據基礎》(Inpatient general medicine is evidence based),為“循證醫學的最激進倡導者”實際要求的證據標準提供了很好的指導,同時指出醫學自1963年起已獲得了長足進步。
論文的作者之一是加拿大醫生戴維·薩基特(David Sackett),他正是EBM運動最重要的傳道者之一。這篇論文研究的是薩基特的醫生團隊在位於牛津的約翰拉德克利夫醫院中,在一個月內對病人進行的所有治療措施。薩基特對此評論道:
我們發現,像我們這樣致力於尋找最佳證據來指導醫療干預的機構,能夠以SR(整合多個高質量試驗而進行的系統評價)和RCT(隨機對照試驗)為基礎治療53%的病人,另有29%的病人是在具有説服力的非試驗性證據的基礎上進行治療,而僅有19%的治療是基於猜測與期望。
有超過80%的決策是基於良好的驗證證據,哪怕是在一位宣誓要跟從證據的醫生所帶領的醫療團隊中,這也是個驚人的進步。
薩基特以心臟驟停時採用電擊術為例,來説明哪些治療措施是他認為無須經過隨機對照試驗證據就能認可的。在醫療領域,這種電擊就如同使用降落傘。極少有人能從1萬英尺高空墜落到樹林或雪地裏還能倖存,或者自行恢復心跳到正常頻率——要存活下來,一般都必須施加干預,也就是降落傘或者電擊。
這一研究激起了一系列在不同醫療環境和科室內的類似研究,其中有兩個着眼於家庭醫生領域。
一項是來自利茲大學(吉爾等)的研究,於1996年發表在《英國醫學雜誌》上。在調查一個家庭診所兩天內的接診量後,他們研究得出了與《柳葉刀》上論文相似的數據,即有31%的治療是基於RCT證據,而51%是基於“有説服力的非試驗性證據”。
在同年的另一篇發表在《英國醫學雜誌》的文章中,由鶴岡聖(Koki Tsuruoka)領銜的一組日本家庭醫生報告了對49次接診的評估結果(樣本數量只有牛津或利茲研究中的大約一半),其用於判斷何為具有説服力的證據的標準與另兩個研究一致,並發現有81%的治療是基於良好證據。
小山浩(Hiroshi Koyama)及其同事重複了1995年《柳葉刀》在京都大學醫院的研究,看有多少治療決策是基於RCT證據做出的。根據他們2002年發表在《國際醫療質量雜誌》(International Journal for Quality in Health Care)上的內容,他們研究的211例不同的醫療干預中有49%具有RCT支持,和薩基特在牛津大學的醫療團隊得出的數據一致。
其他科室也重複了此類工作,來評估自己在多大程度上是基於證據來行醫。2006年,在專注於產科與婦科的《BMC婦女健康》(BMC Women’s Health)雜誌電子版的一篇論文中,來自英國伯明翰大學的埃馬爾·卡恩(Aamir Khan)等人回顧了1998年到1999年依序就診的325名住院病人,發現他們所接受的醫療干預中有42%是基於RCT。
1998年來自大奧蒙德街兒童醫院的一篇論文指出,當時的兒科手術還較少獲得相關研究的支持。巴拉蒂尼(Baraldini)和其他手術醫生對這所一流醫院中的手術進行了一個月的觀察,結論是僅有26%的重大手術具有RCT支持,有3%落入了自證有效的範疇,3%的手術回溯來看與所有現存證據相悖,而剩下的68%則在正反兩面都缺少充足證據。
香港一篇由眼外科醫生完成的審查結果(賴等)發表在2003年的《英國眼科雜誌》(British Journal of Ophthalmology)上,其作者發現在他們2002年7月的274例連續治療干預中,有43%得到了RCT支持,有34%具有次一等的觀察證據,剩下的23%要麼尚無任何證據支持,要麼與現有證據相反。
關於當今醫學在多大程度上具有證據支持,其他衡量方式得出的結果也與上述論文類似。很顯然,在醫學治療方面,今天的我們要比1963年時更有信心;不光是治療方法取得了進步,我們對於其真實效果也有了更多的明確知識。

如何理解對部分試驗中“顯然”有效的治療措施的估計呢?他們是怎麼斷定哪些療法屬於不證自明的範疇,因此無須RCT證據的支持呢?
小山浩的京都大學團隊聲稱有47種療法是屬於這一類別,其中(和牛津大學一樣)包括對心臟驟停者提供電擊。他們列舉的例子還包括為患闌尾炎的患者切除闌尾,給呼吸困難的人吸氧,患腺熱者應當靜養觀察,靜脈深處存在血栓的病人需用華法林稀釋血液,而體內停止生產胰島素或甲狀腺素的患者則需要補充相應激素。
利茲大學(吉爾等)1996年的家庭醫生研究也將使用甲狀腺素列入了43種“已被具有説服力的非試驗性證據證實的醫療干預”中。其他療法也都差不多一樣清楚,比如脱水病人需要補充液體。
但這份清單中也包含一些會立刻引發質疑的療法,例如用某種抗生素來治療特定的感染症狀。有些感染更可能是源於病毒而非細菌,比如扁桃體炎和胸腔感染——雖然他們提及的抗生素都是非常安全的種類,但與所有藥一樣,有時也會造成危害。(可以基本肯定地説,唯一沒有副作用的藥就是完全沒用的藥。)
針對背部疼痛的強效止痛藥也進入了效用不容置疑之列。這確有可能是真的,但鑑於更温和的止痛藥或許能在提供療效的同時,具有較低的重大危害(比如胃腸出血)風險,其中也仍存在疑問。
二
當代醫學知識的錯誤主要來自兩個方面。
一是由於某個假設看起來顯然為真,而未能對其進行適當的檢驗。激素替代療法(HRT)就是最近一個很有代表性的例子。
幾十年來,更年期後的女性由於自身已不再合成激素,就服用激素進行替代。這是基於人體生理學理論,推測如果給老年人補充年輕時體內會分泌的激素,或許會對人體有益,而且這種想法也不無合理之處。隨後的觀察顯示,在更年期後使用替代性激素的女性確實比未使用的女性壽命更長,健康狀態也更好。
但問題是,人們以為這些觀察可以構成一項試驗,但事實上並不能。這些女性並不是通過隨機分配決定使用或不使用激素——她們在進行選擇。這意味着,選擇了其中一項的女性與選擇另一項的女性本身具有差異。直到1993年,才有一項相關試驗開展。
女性健康啓動項目(Women’s Health Initiative)是美國的一項研究,招募了超過16萬名已絕經的女性,並將她們分配到激素替代療法或安慰劑組。到2002年,由於HRT組中因乳腺癌而死亡的人數已高於預期,這項試驗便提前結束了。
根據英國的估算,本國每年因使用HRT可導致額外2000例乳腺癌。儘管如此,女性健康啓動項目事實上並非為了測試HRT是否安全而開展的研究,其設立是因為醫生們相信它會證明HRT的救治效果。
第二個仍然常犯的錯誤是倉促接受方向正確,但因尚未被充分完成而不夠可靠的試驗證據。
抗抑鬱藥物就是個例子。關於它曾有過很多研究,其中不少也具有隨機選擇、雙盲、變量控制機制,但這些研究不是規模太小,就是時間太短、設計太差、太容易被既得利益者曲解,因而效力受到貶損。政府與醫生繼續認可此類試驗,是因為他們未能理解良好證據基礎的本質與重要性。
糟糕的研究顯然是不值得信任的,正如那些關於沙利度胺的早期研究,它們本來就沒想對藥物進行客觀評價。有一系列藥物可以用來治療抑鬱,很多都只有細微的差別。在理想狀況下,我們想知道這些藥物從期來看,在人們最關心的療效上相對彼此的確切效果如何,即是否能幫助人們變得更安全、健康、快樂。
製藥公司僅在他們所需的範圍內對試驗進行資助,目的是説服醫生開立處方,説服政府准許其上市,但這也會帶來問題。
《新西蘭醫學雜誌》(New England Journal of Medicine)2008年刊載了一篇對12種抗抑鬱藥物具有的證據的調查研究(特納等),其中比較了製藥公司在申請監管批准時向食品藥品監督管理局遞交的試驗數據和最終發表供公眾查閲的數據。藥企在開展臨牀研究時必須向食品藥品監督管理局註冊,並提交研究發現的任何結果,但沒有義務公開發布。這篇論文找到了74個相關研究,涉及超過12000名病人。
“在食品藥品監督管理局檢視的具有負面或可疑結論的研究中,”文章指出,“要麼沒有發表結果(22例),要麼採用了在我們看來是在傳達正面結果的發表方式(11例),只有3例例外。從已發表的文獻看,彷彿有94%的試驗得出了正面結論,但食品藥品監督管理局的分析卻與之相反,顯示僅有51%的正面結論。”
這種公開呈現上的差異——被稱為“發表偏差”——應當歸結於藥企只願意拿出最有利的結果,還是因為醫學期刊沒有興趣發表那些指出某種治療方法效果不顯著的研究,作者感到難以判斷。
綜合所有相關結果來看,食品藥品監督管理局批准的所有藥物都具有療效,但這篇論文發現,這些療效並沒有被準確地呈現給醫務人員。他們因此得出結論,“選擇性發表可能導致醫生做出不恰當的處方決策,不符合患者的最大利益。”
更早時候,2004年發表在《柳葉刀》上的一篇論文(惠廷頓等)研究了一類用於兒童抑鬱症的抗抑鬱藥物——選擇性血清再吸收抑制劑(SSRI),也發現了同樣的結果。把未發表的藥企試驗合併到已發表的結果中去時,藥物的有效性就顯得完全不同了;已發表結果中收效似乎壓過了危害,但加入了額外據之後,結論卻恰恰相反。
這些影響重要嗎?一篇2004年發表在《美國醫學會雜誌》上的論文(陳安文等)給出了肯定的答案。
陳及其團隊研究了1994—1995年在丹麥獲批的臨牀試驗,並跟蹤查看了它們的對外呈現方式。在獲得處方許可到公開發表期間,約有三分之二的試驗更改了它們原先聲稱測量的變量——真是種絕妙的試驗調整方法,總能產出你想要的結論。(根據統計學慣例,如果一項發現純屬運氣的概率低於1比20,就可以認為數值顯著。因此,每進行20次試驗,就可能有1次得到肯定結果,但實際上不過是運氣而已。一項優質的研究會在一開始就聲明它的主要測試目標,並堅持不變。)
陳的研究發現,“關於試驗結果的報告不僅常常不完整,而且還會存在偏差,或未能遵照程序進行。已發表的文章及相關評論就可能因此失去可靠性,並會高估一項醫療干預的實際療效”。他們希望監管法規能進行修訂,強制研究者以更準確、完整的方式發表其研究結果。
科克倫協作網的設立是為了實現阿奇·科克倫的目標,讓醫學獲得更強的實證基礎。作為一家非政府組織,它的目標是發表針對各類治療措施可得數據的全面分析。對抗抑鬱藥物,科克倫協作網也完成了幾項綜述,其中一篇發表於2004年,特別關注了此類藥物研究中可能具有誤導性的安慰劑對照方式。
鑑於抗抑鬱藥物會引起副作用,可以合理認定受試者能分辨出他們是否在服用安慰劑,而要獲得安慰劑效應,你得相信自己使用的不是安慰劑,因此這就會造成影響。科克倫協作網的三位研究人員專門檢視了那些使用“活性”安慰劑來克服此類問題的試驗,這種安慰劑會產生與活性藥物類似的副作用,但不具備其主要功效。(他們研究的是一種叫作三環素的抗抑鬱藥物,通常會引起口腔及鼻腔乾燥、便秘等副作用。)
綜述找出了9個這樣的研究,總共包括751名患者,而它們證明活性安慰劑與三環素之間的效果差異比預期要小得多。他們總結道:“這意味着,在使用惰性安慰劑的試驗中,這種揭盲效應可能會虛增抗抑鬱藥物的有效性。”換句話説,在我們所相信的抗抑鬱藥物的優良品質之中,大部分都可能只是幻象,不過是設計糟糕的試驗所帶來的結果。

早在2008年,一篇新發表的論文(基爾希等)將大眾的注意力都吸引到了這一議題上,即抗抑鬱藥物的效果是否遠不如大多數醫生和患者所相信的那樣。這篇論文最奇特的地方在於,其中大部分內容都並不新穎。
歐文·基爾希(Irving Kirsch)就職於赫爾大學心理系,2002年他還在康涅狄格大學時,就發表過一篇十分相近的研究。當時,他研究了1987—1999年提交給食品藥品監督管理局審批的6種最流行的抗抑鬱藥物的相關數據,並發現這些藥物的幾乎所有(80%)功效都是來自安慰劑效應;剩下的20%效果雖然的確存在,但並不重要,在通常用於測量抑鬱程度的漢密爾頓抑鬱量表中,其造成的差異只有2分。
英國國家衞生與臨牀優化研究所(NICE)是為獨立評估醫療措施有效性與安全性而設立的政府機構,而它所設定的臨牀有效臨界點為3分。(某種藥效可能在統計上顯著存在,但對病人來説卻因效果太小而不值得一試,尤其是已知存在一定概率會發生副作用的情形下。)基爾希2008年的研究是關於4種新出現的抗抑鬱藥物,想看看它們是否會影響患者的抑鬱程度。結果發現,這些藥物的整體影響與此前的藥物類似,也低於NICE認為真正具有價值的最低水平。對於少數抑鬱程度最嚴重的患者來説,藥物帶來的差異還稍微大些。
他們2008年的論文引起了大量公眾關注,但其中發現的問題其實早已在2002年的論文中就出現過。這件事説明了另外一個問題:信息傳播與開始時的信息收集同樣困難。
比起廣泛使用這些基本上毫無效果的藥物,還有更糟的事。抗抑鬱藥物並沒有造成像有毒的磺胺類靈藥或沙利度胺那樣的醜聞,卻提醒着我們,我們作為醫生或病人需要了解關於醫療措施的全面效果,但目前的監管框架並不能保證我們獲取此類信息。
在過去,往往要到令患者死亡或終身殘疾的悲劇發生後,監管改革才會跟上。但現在我們有機會去自發地對其進行改良,而不必等到下一場醫療慘劇的曝光來迫使我們採取行動。
三
試驗的發展之路是一個關於思維進步的故事,它為世界普降甘霖,卻幾乎不為人知。
檢測與試驗一直是人生的一部分,如果它們無法在騙人的療法和有毒的藥方面前保護我們的周全,這就是個嚴重的問題。一項試驗除非方法充分,否則就不可信賴,而其方法的質量也就決定了結果的質量。這些方法既有可能比猜測好不了多少,也可能像雙盲隨機對照試驗那樣嚴謹可靠,如果不理解這一點,光是用用“檢測”“實驗”“試驗”這樣的字眼兒可是不夠的。
留意前輩已經犯過、記錄過、報告過的錯誤,對我們會非常有用。這讓我們不僅能更深刻地理解他們的謹慎與煩惱,也略微降低了重蹈他們覆轍的可能性。
歷史學家常説,以別人看待自己的方式來看待他們,併為他們沒能做得更好尋找理由,這就是“同情”。但在我看來,這種做法顯得居高臨下。那些認真思考如何幫助患病同伴的人並不是想要做到“可期望的最好水平”,他們也不指望自己的理論“以當時人們對世界的理解方式來看是完全合理的”。他們只是想為病患做些好事,同時揭示真理,而我們只有明白他們是如何屢次失敗時,才會給予他們最認真的對待。
在1971年首版發行的著作《有效性與效率》中,阿奇·科克倫寫道:
在過去20年中,用詞上兩個最顯著的變化是相比其他證據類型,“看法”一詞的使用增加,而“試驗”一詞的使用減少。更多使用“看法”一詞無疑有多種原因,但我可以肯定,其中貢獻最大的一定是電視採訪者與製片人。他們希望所有東西都能簡短、引人注目、非黑即白,任何關於證據的討論都會因為冗長、無聊、含糊而被剪掉。我很少聽到哪位電視採訪者詢問採訪對象,他關於某段表述的證據是什麼。
劉易斯·托馬斯(Lewis Thomas)生於1913年,比科克倫小4歲,並於1937年在哈佛大學醫學院獲得行醫資格。除了磺胺類藥物以外,他發現當時的醫院能提供給病人的比旅館住宿沒多多少。他寫道:“你能不能活下來,要看疾病自身的自然進程。藥物的作用很小,甚至沒有。”
儘管情況很差勁,但當他回頭想想父親受到的醫學教育時,還是驚歎於醫學進步之大。他的父親比他早25年畢業於哥倫比亞大學,在當時他所接受的前沿教育中,關於人體的真理已經比過去所知要多得多。
20世紀初,支持醫學的科學知識已經十分先進——病理學、微生物學、生理學、化學乃至藥理學。但在臨牀實踐中,醫學與數千年前的狀況幾無差別。“一篇又一篇論文,”托馬斯在閲讀父親的書籍時發現,“都重申着放血、火罐、強力通便、用發皰藥膏拔水皰、把身體浸入冰水或難以忍受的燙水的好處……沒完沒了地熬煮、混合植物提取物,而其根據完全是異想天開。”
人類的能力已經超乎想象,而無能的地方也令人匪夷所思。正當蓋倫建議使用無效的藥劑和水蛭時,古羅馬人已經建造了建築與工程上的奇蹟。當托馬斯的父親正在學習幾乎相同的藥劑與水蛭時,愛因斯坦已經提出了相對論,飛機也已飛向天空。
醫學所缺少的就是實驗方法。人類能將實驗方法應用於硬科學,但醫生卻還相信直覺的力量。他們依賴不斷的試錯,而且由於全無章法,導致結果全無用處。正如劉易斯·托馬斯所寫:
我最大的希望就是刪掉頭兩年的大部分課程,以便留足空間,開幾門關於醫學愚昧之處的課,這樣學生才能在一開始就清楚地瞭解醫學尚不知道的事。
現代醫學中有一個辛酸的笑話:人們對某項論點的確定程度與他們用於支持這個論點的證據數量成反比。越是缺少可靠的試驗證明,人們就越是態度堅定,彷彿信心就像漿粉一樣,只要施以足夠的熱情,就能把想法與事實牢牢地黏合在一起。
但歷史證明,還有更好的做法。我們的很多觀點可以得到檢驗,而可以被檢驗的觀點就應當接受檢驗,還有什麼比認識到這一點對我們更有幫助呢?過去的醫學錯誤告訴我們,如果一項理念是基於無法檢驗或尚未經受檢驗的理論,就需要常懷謙遜。隨機對照試驗已經將醫院和家庭中的許多痛苦與錯誤一掃而空,並代之以慰藉與治癒。試驗裏可能充斥着統計數據,既不好懂,施行起來又費力氣,但它們仍然富有魅力,這種魅力來源於一種能夠揭示我們身處的現實的力量。
似乎我們的天性就是易於輕信而不擅懷疑。我們都有簡化並混淆事物的傾向,容易落入思維慣性,任其將我們帶向失敗。但一旦認識到這點,我們就能抵禦其影響。在面對關於世界的特定問題,而其答案可以通過試驗進行檢驗時,“科學”就成了“理性”的同義詞。如果不要求證據,或者不明白可靠證據所應當具備的特質,我們就會不堪一擊。
在醫療行業中,很多人因臨牀試驗的興起而感覺受到了威脅。他們害怕統計數據,或者説害怕別人比他們更懂這些數據的感覺。這些人説,臨牀試驗不能代替病人與醫生之間豐富複雜的互動。但其實沒人説過它能夠替代,或者應當替代。試驗能告訴你關於世界的某些真相,而對其他則並不置喙。它們能提升你進行決策的能力,卻不等於要否認決策的重要性。
隨機對照試驗技術自有其瑰麗之處,但完全不適用這一技術的人生也同樣壯美。沒有統計檢驗或試驗設計能分辨出你是否正墜入愛河,或是否在被人愛着。這並不是説試驗與統計學就沒有用處,它們不過是有着自己擅長的領域,那是另一片豐饒之地。試驗與數據能揭示真理:它們是理解世界的工具,也是改良世界的利器。

《藥物簡史》,德勞因·伯奇
中信出版集團,2019年6月出版
本文系觀察者網獨家稿件,文章內容純屬作者個人觀點,不代表平台觀點,未經授權,不得轉載,否則將追究法律責任。關注觀察者網微信guanchacn,每日閲讀趣味文章。