麻省理工研究新成果:AI可識別假新聞 還能辨別個人偏見
互聯網時代,假新聞鋪天蓋地,而且極具迷惑性,Facebook一度深陷虛假新聞的泥淖,不但被控影響了美國總統大選結果,甚至引發了德國政府的鉅額罰金。甚至連以公信力著稱的BBC也難以倖免,比如BBC北安普頓分站的推特賬號就曾發過這樣一條消息:
Breaking News: President Trump is injured in arm by gunfire #Inauguration.(勁爆消息:特朗普總統在就職典禮後遭遇槍擊,手臂受傷。)

10月4日,麻省理工學院計算機科學與人工智能實驗室(CSAIL)在其官網發佈了一則新聞,宣稱該實驗室與卡塔爾計算研究所(Qatar Computing Research Institute)的研究人員合作,已經研究出一種可以鑑別信息來源準確性和個人政治偏見的AI系統,該研究成果將於本月底在比利時布魯塞爾召開的2018自然語言處理經驗方法會議(EMNLP)上正式公佈。
研究人員用這個AI系統創建了一個包含1000多個新聞源的開源數據集,這些新聞源被標註了“真實性”和“偏見”分數。據稱,這是類似數據集中收錄新聞源數量最多的數據集。
研究人員寫道:“打擊‘假新聞’的一種(有希望的)方法是關注消息來源。”“雖然‘假新聞’(帖子)主要在社交媒體上傳播,但他們仍然有最初來源,即某個網站,因此,如果一個網站曾經發布過假新聞,很有可能未來還會發布。”
AI系統的新穎之處在於它對所評估的媒介有廣泛的語境理解,沒有單獨從新聞文章中提取特徵值(機器學習模型所訓練的變量),而是兼顧了維基百科、社交媒體,甚至根據url和web流量數據的結構來確定可信度。
該系統支持向量(SVM)訓練來評估事實性和偏差,真實性分為:低、中、高;政治傾向分為:極左、左、中偏左、中偏右、右、極右。
根據該團隊所述,系統只需檢測150篇文章就可以確定一個新的源代碼是否可靠。它在檢測一個新聞來源是否具有高、低或中等程度的“真實性”方面的準確率為65%,在檢測其政治傾向是左傾、右傾還是中立方面的準確率為70%。
AI系統分析示例
在上圖顯示的文章中,AI系統對文章的文案和標題進行了六個維度的測試,不僅分析了文章的結構、情感、參與度(在本例中,分析了股票數量、反應和Facebook上的評論),還分析了主題、複雜性、偏見和道德觀念,並計算了每個特徵值的得分,然後對一組文章的得分進行平均。
“真實性-偏見”預測模型圖
維基百科和Twitter也被加入了AI系統的預測模型。正如研究者們所言,維基百科頁面的缺失也許説明了一個網站是不可信的,或者網頁上可能會提到這個問題的政治傾向是諷刺的或者明顯是左傾的。此外,他們還指出,沒有經過驗證的Twitter賬户,或者使用新創建的沒有明確標註的賬户發佈的消息,不太可能是真的。
該模型的最後兩個向量是URL結構和web流量,可以檢測試圖模仿可信新聞來源的url(例如,“foxnews.co”),參考的是一個網站的Alexa排名,該排名根據網站總瀏覽量進行計算。
該團隊在MBFC(Media Bias/Fact Check )網站的1066個新聞源上對此AI系統進行了訓練。他們用收集的準確性和偏見數據手工標註網站信息,為了生成上述數據庫,研究人員在每個網站上發佈了10-100篇文章(總計94,814篇)。
正如研究人員在他們的報告中煞費苦心的介紹所示,並不是每一個特徵值都能有效預測事實準確性或政治偏見。例如,一些沒有維基百科頁面或建立Twitter檔案的網站有可能發佈的信息是公正可信的,在Alexa排名靠前的新聞來源並不總是比流量較少的新聞源更公正或更真實。
研究人員有一個有趣的發現:來自虛假新聞網站的文章更有可能使用誇張和情緒化的語言,左傾媒體更有可能提到“公平”和“互惠”。與此同時,擁有較長的維基百科頁面的出版物通常更可信,那些包含少量特殊字符和複雜子目錄的url也是如此。
未來,該團隊打算探索該AI系統是否能適應其他語言(它目前只接受過英語訓練),以及是否能被訓練來檢測特定區域的偏見。他們還計劃推出一款App,可以通過“跨越政治光譜”的文章自動回覆新聞。
該論文的第一作者、博士後助理拉米•巴利(Ramy Baly)表示:“如果一個網站以前發佈過假新聞,他們很可能會再次發佈。”“通過自動抓取這些網站的數據,我們希望我們的系統能夠幫助找出哪些網站可能首先這麼做。”
當然,他們並不是唯一試圖通過人工智能打擊假新聞傳播的機構。
總部位於新德里的初創公司MetaFact利用NLP算法來標記新聞報道和社交媒體帖子中的錯誤信息和偏見;SAAS平台AdVerify.ai於去年推出beta版,可以分析錯誤信息、惡意軟件和其他有問題的內容,並可以交叉引用一個定期更新的數據庫,其中包含數千條虛假和合法的新聞。
前文中也提到過,Facebook一度深陷假新聞的泥淖,已經開始嘗試使用“識別虛假新聞”的人工智能工具,並於近期收購了總部位於倫敦的初創公司Bloomsbury AI,以幫助其鑑別消除假新聞。
假新聞會被消除嗎?
然而,一些專家並不相信人工智能可以勝任這項任務。卡內基梅隆大學機器人研究所(Carnegie Mellon University Robotics Institute)的科學家迪恩波默洛(Dean Pomerleau)在接受外媒 the Verge 採訪時表示,人工智能缺乏對語言的微妙理解,而這種理解是識別謊言和虛假陳述所必需的。
“我們最初的目標是建立一個系統來回答‘這是假新聞,是或不是?’”他説,“但我們很快意識到,機器學習無法勝任這項任務。”
但是,人類事實核查者做的不一定比AI更好。今年,谷歌暫停了“事實核查”(Fact Check)這一標籤,該標籤曾位於谷歌新聞報道欄,此前保守派媒體也曾指責谷歌對他們表現出了偏見。
不過,無論最終鑑別假新聞和個人偏見的解決方案是AI系統還是人工,抑或兩者兼而有之,假新聞被徹底消除的那一天都不會立刻到來。
據諮詢公司Gartner預測,到2022年,如果目前的趨勢不變,大多數發達國家的人看到的虛假信息將會多於真實信息。