熊節:算法推薦終於可關閉,中國《互聯網信息服務算法推薦管理規定》開世界先河
【文/ 觀察者網專欄作者 熊節】
手機上的App會“讀心術”早已不是秘密了。很多人有過這樣的體驗:剛和朋友聊天説到什麼想買什麼,轉眼就在某App裏看見了這件商品;剛瀏覽了幾條某個主題的新聞,突然某App裏就全是關於這件事的回答。
長期來,許多網民對這種情況感到不滿,甚至有點恐懼。
如今,一個開關“千呼萬喚始出來”,在許多常用App的“設置”頁,您應該能找到“關閉個性化推薦”之類的選項。
筆者找到了“知乎”和“淘寶”的相關開關並親測:

為何各個常見的App悄悄給出了關閉個性化推薦的選項?原因是今年1月4日正式公佈的《互聯網信息服務算法推薦管理規定》(下文簡稱《規定》)中有這麼一條:
第十七條 算法推薦服務提供者應當向用户提供不針對其個人特徵的選項,或者向用户提供便捷的關閉算法推薦服務的選項。用户選擇關閉算法推薦服務的,算法推薦服務提供者應當立即停止提供相關服務。
這份由國家互聯網信息辦公室、工業和信息化部、公安部、國家市場監督管理總局聯合發佈的《規定》將於今年3月1日正式起施行。
據筆者所知,這是全世界第一個對算法推薦行為加以具體約束的法案。
歐洲的《數字市場法案》(DMA)中也有“不允許利用數據優勢向用户投放指向性廣告,除非獲得用户明確許可”的約定,但DMA去年11月才獲得歐洲議會內部市場委員會通過,與歐洲各國政府的談判還未啓動,完成立法仍有一段距離。
而中國各大互聯網企業已經在以實際行動迎接《規定》的落地。
算法推薦的潛在危害
2006年,哈佛大學凱斯·桑斯坦教授在《信息烏托邦》一書中提出,人類社會存在一種“信息繭房”現象。他認為,在信息傳播中人們自身的信息需求並非全方位的,只會注意選擇自己想要的、能使自己愉悦的信息,久而久之接觸的信息就越來越侷限,就像蠶吐出來的絲一樣,細細密密地把自己包裹起來,最終將自己桎梏在“信息繭房”內,失去接觸和了解不同觀念的機會。
算法推薦則有可能強化信息繭房效應:你越是對某種事物感興趣、傾向於某種觀念,算法就會越是給你推薦關於這種事物、支持這種觀念的材料,讓你不斷強化自己的興趣和傾向。而且,算法推薦還可能被有目的性地引導人羣,從而影響公眾觀念,甚至影響政治決策。因此,美國數學家凱西·奧尼爾在《算法霸權》一書中將推薦算法稱作“數學大殺器”(weapons of math destruction)。在過去幾年中,這件“大殺器”已經在現實世界中多次產生效果。
2016年,在支持特朗普競選的“阿拉莫項目”(Project Alamo)中,來自臉書、谷歌、推特等幾個主要社交網絡平台的顧問在聖安東尼奧的同一間辦公室並肩工作,在數字廣告上投放了大約9千萬美元。阿拉莫項目採用了精妙的算法推薦技術來影響選民:當一位互聯網用户被識別為“關鍵選民”(例如搖擺州的搖擺縣的搖擺選民),社交網絡就會給這樣的用户定向投放具有引導性的內容,從而用相對不多的經費影響競選結果。
就在美國大選前幾個月,英國的劍橋分析(Cambridge Analytica)公司使用來自臉書的用户數據操縱了英國脱歐(Brexit)公投,令脱歐派意外獲勝——與特朗普意外當選如出一轍。
在正式用於影響英美政局之前,類似的手段已經在多個發展中國家做過實驗。2010年,在特立尼達和多巴哥,一場起源於臉書的“Do So”運動讓大批非洲裔選民拒絕投票,從而使印度裔主導的聯合民族大會(UNC)在大選中受益。2015年,部分尼日利亞用户在臉書上看到暴力血腥、仇視穆斯林的視頻短片,其目的是恐嚇選民、操縱選舉。算法推薦一旦被濫用,真的可以成為“大殺器”。
即使不是被故意濫用,算法推薦也可能暗含社會的偏見和歧視。去年10月,推特的推薦算法被發現“無意中放大了右翼團體內容的傳播”:政治右翼當選官員發佈的推文在算法上被放大的程度超過政治左翼;右翼媒體比左翼媒體的影響力更大。
更早之前,職場社交網站領英的搜索算法(也可以看作一種形式的推薦算法:根據搜索關鍵詞推薦“最匹配”的內容)被發現存在性別歧視,男性求職者會被放在更高的位置。谷歌的廣告平台AdSense被發現存在種族偏見,如果搜索關鍵詞看起來像是黑人的名字,AdSense就會有更大概率推薦犯罪記錄查詢相關的廣告。
因為算法推薦有這些潛在危害的風險,歐美一些研究者很早就提出對推薦算法加以管制。本次《規定》中要求的算法機制機理審核、科技倫理審查、允許用户關閉算法推薦等措施,在國外都早有人提過建議。然而國際互聯網大廠從未將這些建議落地,還經常辯稱“基於深度學習的算法無法被審核”。為了幫助讀者理解《規定》的重要意義,筆者將簡要介紹算法推薦背後的技術原理。
算法推薦的技術原理
各種形式的算法推薦,包括《規定》中列舉的“生成合成、個性化推送、排序精選、檢索過濾、調度決策”等形式,當下主流的實現方式都是採用機器學習(machine learning),背後的原理都是基於貝葉斯統計(Bayesian statistics)方法的預測——聽起來很高深,其實通過一個簡單的例子很容易就能理解。
假設你丟一個以前沒用過的骰子,你認為有多大概率丟出6點?當然,在沒有任何額外信息的情況下,你的預測是“1/6”。然後,你連續丟了20把,每把都是6點,這時候你認為下一把繼續丟出6點的概率是多大?經典概率論説,每次丟骰子都是一個獨立隨機事件,過去丟出的點數不影響未來丟出的點數,所以你的預測仍然應該是“1/6”。但很明顯正常人不會這麼想。
“這個骰子連丟了20把6點”這項信息很明顯會影響對未來的決策(例如可能説明這個骰子被灌了鉛),因此你會預測下一把有很大概率還是會丟出6點。簡化地説,貝葉斯統計就是“基於過去已經發生過的事件預測未來將要發生的事件”。各種算法推薦都是在進行這樣的預測:
知乎的個性化推送就是預測用户可能喜歡看什麼問題和回答;
百度的檢索過濾就是預測用户可能對哪些搜索結果感興趣;
淘寶的排序精選就是預測用户可能購買哪些商品。
這些預測所基於的“過去已經發生過的事件”則是與用户相關的、非常寬廣的數據集,不僅包含“用户看過/贊過/收藏過哪些回答”這種直接的用户行為,還包含大量用户本身的屬性信息:年齡、性別、地域、教育程度、職業、上網設備、買過什麼東西、發過什麼言論、住多大房子、家裏幾口人、喜歡張信哲、反感蔡徐坤……這些信息都會被用於預測用户的偏好。
每一項類似這樣的屬性信息也被稱為“特徵”(feature),對於一個普通用户,互聯網公司通常擁有數千、數萬項特徵信息。其中一些特徵信息來自該公司本身的業務,更多的特徵信息來自其他平台,三大運營商、微博、騰訊、阿里、手機製造商等企業都會SDK(軟件開發包)的方式與其他互聯網應用共享用户個人特徵信息。

知乎與第三方共享個人信息的清單(部分)
在所有這些特徵信息中,給定一項具體的預測,有些特徵與這項預測的相關度較高,有些特徵的相關度則較低。如果能從預測的結果回溯到哪些特徵產生了重要的影響,我們就可以説這種算法“具備可被審核性”(auditable)。例如最簡單、最基礎的機器學習算法線性迴歸(linear regression),其原理就是根據過去的事件給每項特徵打一個權重分數,然後根據這些權重分數預測未來的事件。從一個線性迴歸的預測模型中,可以直觀地看到每項特徵的在預測中的權重,因此線性迴歸是特別容易審核的一種算法。
當然,最簡單、最基礎的算法,也就存在預測能力不夠強的問題。形象地説,只用簡單的線性迴歸,無法把特徵值裏隱含的信息全都榨取出來,所以預測效果不見得特別好。於是科學家和工程師們想了很多辦法來壓榨特徵值裏的信息。一種辦法叫“特徵工程”(feature engineering),説白了就是從已知的特徵值推導出新的特徵值,例如根據用户的手機型號、購物清單給用户打上“購買力強”或者“時尚潮人”的新標籤,這就是一種簡單的特徵工程。
另一種壓榨特徵值的辦法是把起初的特徵信息視為一“層”輸入,然後用各種數學方法把輸入層變換成新的信息節點,從而形成一個多層的“網絡”。這個變換的過程可以重複進行,變換的層數越多,就説這個網絡越“深”——這就是“深度學習”(deep learning)這個詞的由來。
儘管科學家經常用“神經元”、“神經網絡”來類比這些數學變換的結果,但很多時候,經過這些變換得到的信息節點幾乎沒有現實世界中的含義,純粹是一種數學工具的產物。所以業界有一種説法:深度學習就像鍊金術(國內也稱“煉丹”),把數據丟進神經網絡,不知道什麼原因就煉出結果了——如果結果不理想,就再加幾層神經網絡。
正因為深度學習常有“鍊金術”的神秘感,使用它們的工程師經常自己都不知道為什麼一個算法有效。例如谷歌曾發表過一篇論文介紹他們的圖像識別算法,其中使用了一個深達19層的神經網絡(VGG19)。然而谷歌的照片服務(Google Photos)卻多次被曝暗含種族歧視,甚至把黑人照片識別為“大猩猩”。事後谷歌根本無法找出算法中的問題出在哪裏,只好刪除“大猩猩”標籤了事。

VGG19:深度為19層的卷積神經網絡,主要用於圖像識別
儘管有谷歌的前車之鑑,類似的問題仍然在各家互聯網巨頭的產品中反覆出現。2020年,部分臉書用户在觀看一段以黑人為主角的視頻時收到推薦提示,詢問他們是否願意“繼續觀看有關靈長類動物的視頻”。2018年MIT媒體實驗室的研究員Joy Buolamwini發現,微軟、IBM和Face++的人臉識別算法在識別黑色人種的性別的錯誤率要遠遠高於白色人種,而且膚色越黑,識別率就越低,黑人女性的識別錯誤率高達35%。過度依賴“鍊金術”式的深度學習算法,是這些互聯網巨頭對算法審核態度冷淡的原因,同時也導致它們難以修正其算法中隱含的系統性歧視。
我國《規定》的意義和疑慮
正因為業界對算法推薦、對深度學習技術的依賴,此次的《規定》才顯得尤為重要。筆者認為,《規定》的公佈,一方面迫使互聯網企業約束自身行為,要用算法推薦技術為善,堅持主流價值導向、積極傳播正能量,而不能製造信息繭房、誘導用户沉迷;另一方面迫使互聯網企業加強內部能力建設,建立算法審核能力,主動選擇並優化可被理解、可被審核的推薦算法,而不能搞唯技術論、過度依賴“鍊金術”式的推薦算法。
不過,畢竟此次的《規定》是一個開世界先河的新事物,在其實施過程中,筆者還是有一些具體的疑慮。
首先,算法機制機理審核和科技倫理審查如何落實,對於監管機構可能是一個新的挑戰。雖然《規定》要求“算法推薦服務提供者應當定期審核、評估、驗證算法機制機理、模型、數據和應用結果”,但這項要求是否落到實處,互聯網企業是否真的進行了審核、評估和驗證,算法結果是否合乎要求,其中可能有很大模糊空間。畢竟算法推薦審核不像違法不良信息審核,只要發現違法不良信息立即就能知道審核過程有問題,而算法推薦審核的效果是在長期、大範圍的統計意義上表現出來的,如何核實審核是否確實落地,本身可能就是一個技術難題。
其次,説明提供算法推薦服務的情況和允許用户關閉個性化推薦的選項,雖然各主要互聯網企業已經實現了這些功能,但很難説是“以顯著方式”告知用户。筆者作為IT專業人士,又是有意尋找,仍然花了一番功夫才找到幾大App分別把“關閉算法推薦”的選項藏在哪裏。
當然從互聯網企業的角度,他們肯定希望把這個功能藏在大多數用户找不到的地方,畢竟絕大多數用户找不着的功能就等於不存在的功能。那麼從監管立場,為了避免“用户關閉算法推薦服務”的權利變成一句空話,是否應該考慮像GDPR那樣,要求用户“明確許可”之後才能提供個性化推薦?

GDPR要求網站必須獲得用户明確許可後才能通過Cookie記錄用户信息,迫使網站以真正顯著的方式徵求用户許可
最後,在《規定》的監管下,互聯網企業雖然不能強行提供個性化推薦,卻仍有可能以“消極怠工”的方式迫使用户開啓(或者不能關閉)個性化推薦。
以知乎為例,一旦在隱私中心中勾選“關閉個性化推薦”選項,那些信息繭房式的推薦信息倒是沒了,但App裏出現的信息量也急劇減少。筆者大致統計一下,關閉個性化推薦之後,知乎App的“精選”頁每天出現的新條目不超過3條,很多天以前的回答還在不斷出現,甚至多次出現第一頁裏出現兩條重複信息的情況,而訪問量最大的“知乎熱榜”的內容卻從未被推送到“精選”頁面。偌大一個知乎,關掉個性化推薦之後就沒有內容可以向用户推薦了嗎?恐怕還是打算用削減內容量的辦法軟磨硬泡用户不要關掉個性化推薦吧。這類消極怠工的辦法,相信互聯網企業還能想出很多。監管機構應當如何發現、如何應對這些小伎倆,對《規定》的落實也是個新的挑戰。
儘管有這些現實的疑慮,此次的《規定》畢竟開啓了對互聯網具體算法加以監管的先河。過去互聯網技術長期被政府和公眾視為神秘的黑盒,只能從外部可見的結果加以監管,給資本和技術人員留下了太多搞小動作的空間。希望《規定》成為打開黑盒的第一步,與後續的其他監管政策和落地措施一道,揭開互聯網技術神秘的面紗,把那些藏在盒子裏的把戲都曝露在陽光下,接受合理的監督管理。同時也希望相關監管機構儘快建立起足夠的技術能力,真正把這些監管措施落到實處。
本文系觀察者網獨家稿件,文章內容純屬作者個人觀點,不代表平台觀點,未經授權,不得轉載,否則將追究法律責任。關注觀察者網微信guanchacn,每日閲讀趣味文章。