使用垃圾郵件攔截器來針對艾滋病毒,也是 - 彭博社
bloomberg
削價止痛藥!尼日利亞的未認領財富!!我們大多數人很快就能識別這樣的電子郵件消息為垃圾郵件。但是你如何將這種技能教給機器呢?大衞·赫克曼需要知道。在本世紀初,赫克曼在微軟研究院領導一個反垃圾郵件團隊。為了構建他們的工具,團隊成員仔細繪製了數千個信號,以判斷一條消息是否可能是垃圾郵件。例如,包含“偉哥”的電子郵件很可能是垃圾郵件——但事情很快變得複雜起來。
如果垃圾郵件發送者看到“偉哥”消息被刪除,他們就會改用V1agra或Vi agra。幾乎就像垃圾郵件像生物一樣在變異。
這種垃圾郵件與生物學之間的類比引起了赫克曼的共鳴,他不僅是一名醫生,還是計算機科學的博士。他很快意識到,他的反垃圾郵件工具可以遠遠超出垃圾電子郵件的範圍,進入生命科學的領域。2003年,他讓華盛頓州雷德蒙德的同事們感到驚訝,因為他將反垃圾郵件技術重新聚焦於世界上最致命、變異最快的難題之一:HIV,即導致艾滋病的病毒。
赫克曼正在深入醫學領域——並帶着微軟(MSFT )一起前行。當他向比爾·蓋茨提出他的計劃時,這位公司主席“非常興奮,”赫克曼説。蓋茨在他的慈善工作中對HIV非常瞭解,便將赫克曼與麻省總醫院、華盛頓大學及其他地方的艾滋病研究人員聯繫起來。
自那時以來,50歲的赫克曼和兩位同事在微軟創建了自己的生物學領域,他們開發檢測HIV的軟件。這些是用於識別感染細胞並將病毒突變與個體基因特徵相關聯的研究工具。赫克曼的團隊通過320台並行運行的計算機集羣處理大量數據。得益於更智能的算法和更強大的機器,他們的數據處理速度比一年前快了480倍。今年6月,團隊在互聯網上免費發佈了第一批工具。
這是巨頭要征服的新行業嗎?並不完全是。赫克曼在雷德蒙德的領域僅僅是全球艾滋病研究努力中的一個小節點,這一努力主要以合作為特徵。“微軟團隊有不同的視角和良好的統計背景,”洛斯阿拉莫斯國家實驗室的HIV研究員貝特·科爾伯説。他們面臨的關鍵目標是病毒本身,這比微軟的任何企業對手都要狡猾。雖然赫克曼對他的工具能夠在三年內導致可在人類身上測試的疫苗抱有很高的期望,但他的研究並不在微軟的商業計劃之內。“這與微軟沒有任何關係,”他説,“除了我們可以提供幫助。”從公司的角度來看,投資於HIV研究的金額只是一個小數額——在70億美元的研發預算中,僅有幾百萬美元。潛在的回報將是為艾滋病研究的聖盃——成功的疫苗做出貢獻。在最佳情況下,製藥公司將把這種研究提煉成針對性的疫苗品種,從而幫助全球數百萬人抵禦這一災難。商業回報呢?好吧,如果幫助征服一種瘟疫不能證明努力的價值——並提升微軟的形象——那麼也許一種病毒嗅探工具可以將垃圾郵件壓制到極限。
如果説垃圾郵件過濾器最終會研究核酸聽起來很奇怪,那就不應該了。研究正變得越來越定量。如今,幾乎所有事物,從原子和細胞開始,都以數據來描述。當工作涉及在大量數據中尋找統計關係時,會發生兩件事:首先,數學家和計算機科學家獲得了影響力,這意味着像微軟和IBM這樣的強大公司在研究中的角色不斷擴大(IBM )。其次,隨着研究人員發現共同的模式,他們開始在不同學科之間跳躍。
計算概率
對抗HIV的鬥爭吸引了大量這樣的跳躍者。例如,洛斯阿拉莫斯的幾位科學家正在教機器識別衞星圖像中的模式。這使他們與HIV相關聯,他們正在構建類似於微軟的工具。而微軟的800名研究人員中,許多人在各個學科之間交叉。一位名叫邁克爾·科恩的研究人員,最初是開發軟件將照片拼接成全景。現在,他正在將數千個腦部掃描拼接成科學家的3D模型。
對於赫克曼來説,垃圾郵件和HIV之間的聯繫歸結為數學。他通過研究它們不斷變化的特徵之間的統計關係來分析這兩種災害。考慮一下“偉哥”這個詞。有時它出現在合法的電子郵件中。通常它出現在垃圾郵件中。如果研究人員研究成千上萬封電子郵件,他們可以計算出包含該詞的電子郵件中有多少比例是垃圾郵件。這是一個線索。但垃圾郵件過濾機器需要知道的不止這些。電子郵件中的哪些其他特徵表明它是垃圾郵件?某些字體是否特別容易被視為垃圾郵件?電子郵件地址或標點符號類型呢?關鍵是找出哪些特徵組合可以將電子郵件識別為垃圾郵件。每個決策可能涉及數千個變量和數百萬種不同的計算。
從赫克曼的角度來看,HIV就像一個狡猾的垃圾郵件發送者。在攻擊一個細胞後,它注入自己的遺傳物質,並繼續(就像一個劫持了未保護計算機的垃圾郵件發送者)製造成千上萬的病毒拷貝。它是一個臭名昭著的粗心複印機,但這增加了它的活力。每一個錯誤都會將突變病毒釋放到系統中。許多病毒失敗了。然而,有些病毒存活下來——並且抵抗藥物。
HIV研究人員面臨的一個挑戰是找到指向感染細胞的變量。通常,第一線索——赫克曼在他的垃圾郵件研究中發現的字體和單詞的變化的細胞等價物——是位於每個細胞頂部的蛋白質片段。這些蛋白質向路過的抗體軍隊傳達細胞內部發生的事情。多年來,研究人員一直在努力找出指向HIV感染細胞的蛋白質組合。一旦他們找到,下一步就是將這些蛋白質片段包裝成疫苗。理論上,這將使一個人的免疫系統認識到一整羣不受歡迎的細胞,以便能夠識別並攻擊這些細胞。
問題是什麼?複雜性和突變。HIV感染的細胞通常佩戴着免疫系統尚未學會識別的突變名稱牌。從這個意義上説,疫苗就像故障的垃圾郵件過濾器,能夠阻止推廣“偉哥”的電子郵件,而讓“V1agra”的廣告輕鬆通過。這使得一些研究人員感到無奈。“我們已經在艾滋病疫苗上投入了數十億,結果卻一無所獲,”西雅圖系統生物學研究所的聯合創始人勒羅伊·胡德感嘆道。
但是赫克曼很樂觀。他認為,通過提升計算能力並融合成千上萬的新變量——包括每位患者令人眼花繚亂的基因差異——研究人員正在取得進展。他説,一個關鍵是繪製突變模式並將其納入醫學。這些突變,他説,似乎根據一個人的免疫系統而有所不同。如果研究人員能夠找到這些模式,他們就會更接近於製造有效的疫苗。然而,如果他們得出結論認為這些突變完全是隨機的,那麼“我們就麻煩大了,”赫克曼説。
追尋仍在繼續。沒有人指望微軟會帶來奇蹟。但在一個急需答案的研究社區中,雷德蒙德那些計算機運轉的嗡嗡聲是一個受歡迎的聲音。
作者:斯蒂芬·貝克和傑伊·格林