抖音靠什麼來治理黑灰產?| 淺黑筆記_風聞
观察者网用户_243785-2021-01-15 18:05

淺友們好~我是謝幺,【淺黑筆記】記錄了我平時穿梭遊走於科技前線的所見所聞所想。若你有什麼想了解的,不妨加微信(微信號:xieyaopro)告訴我。
抖音靠什麼來治理黑灰產?| 淺黑筆記
抖音是一張巨大的網,它用短視頻作繩,評論、點贊和關注作結,將無數個“喜歡記錄美好的人”和“喜歡欣賞美好的人”聯結到一起。
可總有一羣不速之客跑來:鬼鬼祟祟的小販、戴着面具的騙子、所到之處寸草不生的羊毛黨、刷量造假的黑灰產……
那麼問題來了:抖音靠什麼來保護用户?
答:機制、技術和“警察”。
這並非官方給出的答案,而是我前陣子去參加完抖音的**“媒體開放日-平台治理專場”**回來後自己歸納總結的。當天他們講了兩三個小時,最後我腦子裏就剩下這三個詞。
希望我的筆記能幫大家更簡單直接地理解抖音治理灰黑產的方法和邏輯。

一、機制
以內容審核機制為例。
每天有好幾億人刷抖音,卻少有人知道,一條視頻從上傳到爆火,要經過怎樣的審核流程。
抖音安全中心負責人帥帥(他真的姓帥名帥,以後有機會單獨講講他的故事)曬出一張流程圖:

大意是:先做機器審核**,**檢查有沒有明顯觸碰紅線的,比如色情、暴力等等。
通過之後,視頻會推送給一小部分用户,如果這條視頻很受歡迎,推薦系統將推送給更多的人,在此之前,視頻會進入**第二道審核工序:**人工審核。
人工審核又分成初審、複審、三審和四審,同樣是階梯式審核——視頻越受歡迎,推送的人越多,審核也越嚴格。
比如,初審主要看是否存在底線違規的問題,複審則要檢查內容導向是否存在問題,以此類推。
“抖音上一個播放量超過200萬的視頻,至少經過四層審核。 ”帥帥説,每一層審核可不止是“看一眼”,它可以細分成很多檢查項目、類型和流程。“如果真要細説,一天一夜也講不完。”
例如,抖音有一個特色審核機制:“背對背審核”。

好吧,“背對背審核”並不是説兩個審核員像上圖Kappa商標一樣背對背擁抱,而是指人工審核階段,每個視頻審核時至少推給兩位審核員,當兩位都通過,視頻才算通過,否則就要繼續推給第三、第四個審核員。
假如始終存在分歧,還會進入一個多人研判流程,類似投票表決,這裏就不繼續展開説了。
除了內容審核,抖音安全中心的其他工作也有各自的機制、流程和章法。

抖音安全中心的工作板塊
例如他們把“日常巡檢”分成**“常規巡檢”和“專項巡檢”**兩部分。
**“常規巡檢”**主要解決長期普遍存在、危害比較大的問題,他們會代入到用户的視角去刷視頻,看搜索,看熱點榜單等等,一旦發現問題立馬處理(如果每天的日常工作就是躺在沙發上刷抖音,想想還挺爽)。
**“專項巡檢”**則針對短期較為突出的問題,對同類內容進行回掃,舉一反三,觸類旁通。
比如2020年10月份,有媒體報導“假靳東事件”——有人利用追星心理,冒充演員靳東對中老年易受片羣體進行詐騙。

事件發酵後,抖音在兩天內對冒充靳東相關賬户進行速查,清查了5000多個疑似靳東仿冒賬號,當月下架話題143個,處理問題存量視頻195萬**。**
這就屬於典型的“專項巡檢”。
再説“用户反饋”環節,抖音也有一套機制和流程。
首先是把各種舉報入口鋪開,讓用户想舉報時,轉角就能遇到舉報入口。
除了站內舉報、郵箱舉報、違法和不良信息舉報電話,啄木鳥小程序等等,我們刷抖音時,點擊分享按鈕之後彈出的那個菜單,裏頭也有舉報按鈕。

分享到“舉報”
用户舉報之後,同樣要進入一個非常複雜的處理流程,先用機器識別,確認有效再由人介入。
一旦人工審核確認屬於違法違規,則會按照規則進行處理,下架、禁止投稿、充值用户資料、封號等等。
這裏多説一句,之所以先讓機器識別,是因為一方面舉報審核的工作量太大,另一方面是也有人會濫用舉報功能,不斷消耗平台的審核資源。
根據抖音官方給的數據:2020年1月至12月初,光是“啄木鳥舉報平台”小程序就累計處理了違法違規賬號159.5萬個。
這還只是單個渠道的有效舉報,再算上無效舉報和其他渠道,如此龐大的工作量,如果****沒有風控模型的幫助,審核小哥恐怕是要當場陣亡。
二、技術
既然已經講到“風控模型”,咱就説説技術對抗。
黑色產業鏈發展到今天,早就過了“刀耕火種”的時代,團伙作戰、專業分工、技術流……成熟程度超出許多人想象。
他們會用各種技術來武裝自己,比如模擬器——一台機器上模擬出很多個APP,各自開着賬户;比如雲手機——直接遠程購買或租用成千上萬台手機,不用買回來。還有羣控,按鍵精靈等等……

抖音安全中心的技術小哥張曦盛在講PPT
既然黑產都用上“技術流”,打擊黑灰產的一方自然也要“道高一丈”。
就拿抖音最常見的業務安全挑戰“刷粉刷贊”來説,平台要怎麼在茫茫人海之中發現哪些利用大規模機器作弊的人呢?
最早期,或者叫第一階段,抖音主要使用**“名單頻控策略”**。
“名單”可以簡單理解為“黑名單”—— 發現一個壞人就記錄下來,下次再來就預警。
“頻控”就是頻率控制——比如一個人一分鐘內給60個視頻點贊,且每一次點讚的間隔時間都毫秒不差,正常人顯然幹不出這種騷操作。
到了第二階段,就慢慢發展出更復雜的**“決策引擎”,同時引入“專家規則”**。
“決策引擎”就相當於一個打分機制,用多種維度給內容打分,超過一定閾值就自動處理。
**“專家規則”**就是找一些常年跟黑灰產打交道的“老濕敷”,讓他們把黑灰產常見的特徵、規則輸入到機器裏。就好比是工作多年的反扒刑警,一個眼神就能知道誰是小偷。
再到第三階段,“決策引擎”就發展成了**“風控系統”**,單車變摩托,軍艦變航母,戰鬥力又上一個台階。
這一階段最主要變化主要在於引入了人工智能技術。如前所述,哪怕老師傅們閲片無數,畢竟也還是個人類,經驗有限,且每個人都有認知盲區,而機器學習則可以一定程度上彌補人類的認知“缺陷”。
就像當年阿爾法狗橫空出世時,棋手們都驚呆了:“這是什麼野路子下法……咦?我怎麼好像要輸了……” 有時,人工智能非常準確地揪出黑產的機器,人類卻完全看不懂它依據的線索。
據抖音安全風控專家張曦盛説,抖音的智能風控系統有很多,最常用的叫**“鯊魚反欺詐系統”**。
黑產為了刷粉刷量薅羊毛等,經常需要屯很多賬號在手裏,而“鯊魚反欺詐系統”專門用來識別真人和大規模機器註冊。
問題又來了:那鯊魚反欺詐系統具體是怎麼分辨人和機器的呢?
1)行為
首先是通過行為來判斷。
**“用户在平台上的行為特徵,是有規律可循的。”**張曦盛舉了個例子:一位用户打開抖音,看了5秒鐘視頻,不太喜歡,於是下滑切換,第二個視頻比較有意思,看了大概15秒,並點進視頻創作者的主頁,用了20秒鐘瀏覽資料後,點了關注。
“通過模型訓練及數據分析,我們可以判斷這是一個正常用户,平台上大部分用户的行為規律都是類似這樣的規律。”張曦盛説,但如果有一個用户的操作是這樣的:
“他打開抖音,搜索視頻界面,進入主頁,馬上點關注,然後重複一系列的行為,那麼就很可能是一個作弊用户。”
2)羣組相似性
其次還可以“羣組相似性”來分辨異常用户。
正如《戰爭與和平》裏的那句名言**“幸福的人總是相似的,不幸的人各有各的不幸”**,張曦盛和小夥伴們在與灰黑產對抗的過程中,發現了一個很有意思的現象:
“壞人總是相似的,而好人則有各種樣的不同”——欺詐團伙總是在許多信息上都有高度的相似性,而好人沒有相似性。
這是因為灰黑產團伙在作惡的時候追求規模化效益,通常會同時操作許多設備進行作弊,很多時候就避免不了有這樣那樣的相似性。
基於無監督算法的“羣組模型”可以順着這個思路自動挖掘出一些相似度很高的異常團伙。
張曦盛向我展示了一組案例:

這五個賬號分別在不同的時間點贊,看似沒有什麼問題,但是這五個帳號的註冊時間是同一天,系統版本號相同,並且暱稱是數字連號,安裝、註冊時間也是同一天。顯然,正常的用户很難有如此高的相似度。
除了行為和羣組,人工智能技術在對抗灰黑產的過程中,還有其他不同維度的識別能力。 比如:
1)文本識別
早期的灰黑產發送廣告主要以文本的形式,在評論、暱稱、個人簽名裏添加導流信息,這時“文本識別模型”和“敏感詞檢測”就能進行有效識別打擊。
2)圖片識別
後來灰黑產開始使用圖片的形式,比如在頭像和個人資料內加入一些引誘性感的圖片,並在圖片裏添加聯繫方式的數字水印來發送色情、招嫖類信息。
這時,“圖片識別模型”可以對可疑內容進行識別,並且可以利用OCR文字識別技術去識別圖中的文字。
至此,圖片作弊類黑灰產也被逐個擊破。
(此處我不敢添加示例圖,就是怕稿子發在網上各個平台被機器審核誤傷……

)
3)視頻識別
再後來,灰黑產開始使用視頻來導流,本質上,視頻其實也是一幀一幀的圖片,內容識別系統可以截取視頻中的一些幀,再重新利用圖片識別模型來檢測。
4)語音識別
視頻、圖片類不良信息都被打擊掉之後,又出現了一類新的色情導流形式:**畫面正常,但語音裏夾雜色情淫穢內容,並且會念出聯繫方式。**於是抖音平台又引入語音識別技術,先將語音轉成文字,再進行識別和打擊。
就抖音目前的用户和內容體量來看,內容審查需要投入大量的人力,張曦盛説:“風控模型貢獻了一半的攔截量。”

為了在跟黑灰產的持久戰鬥中“節省體力”,抖音平台建設了風控數據庫,這些數據庫類似於人體免疫系統的“抗體”。 包括:
風險文本庫——黑灰產、欺詐話術等
風險鏈接庫——色情、賭博、木馬網站
風險設備庫——黑灰產手裏的硬件設備
這些資料庫可以幫助抖音用很小的成本代價攔住大量壞人。
張曦盛告訴我,抖音有百億級別的風險設備庫。
“可能有人要説了,全世界網民加起來都沒有一百億,抖音怎麼有百億級別的風險設備庫?原因正是因為灰黑產通過技術手段大量偽造移動設備。 ”
三、警察
正兒八經的稱呼應該是“聯合公安機關打擊違法犯罪”之類的,但“警察”二字顯然更直觀易懂 —— 打擊黑灰產方法五花八門,不及警察叔叔直接敲門。

在2020年7月至11月的短短四個月裏,抖音安全中心團隊聯合公安機關打掉黑灰產團伙25個,拘留87人。
周冉在抖音安全中心主要負責平台上違法行為的聯動打擊工作,她分享了幾個聯合警方打擊黑灰產的故事。
1)色情導流
色情導流是行業裏最常見的黑灰產行為。不要問我為什麼。
色情導流黑灰產通常先購買或批量註冊大量帳號,然後發佈帶有性暗示信息的視頻進行導流,吸引用户加微信、QQ等社交軟件,再將用户導流到黃色網站、賭博站點甚至線下色情場所,完成色情導流。
當然,也許有真·賣片和真·招嫖的,但其中也充斥着大量詐騙信息,收了錢直接拉黑,受騙者也拉不下臉去報警(裸聊詐騙了解一下?)。
打擊這類黑灰產,一方面靠前文所述的技術嚴防死守,提高其作案成本。
但是黑灰產導流的渠道和內容特徵變化非常快,比如一開始用露骨的視頻,被平台用技術手段防住之後,就改用性暗示的文字、圖片,和誘導性視頻,類似下面這樣的:

看到這種視頻,我只想對視頻主説:你不對勁。

儘管抖音平台也做了內衣、黃瓜的圖像識別,但,**人類總能想出這樣那樣的內涵表達。**風控模型做得太嚴格又容易誤傷正常創作者。
那咋辦呢?抓人,斬草除根。
2020年7月,抖音安全中心對攔截到的10萬級別的數據樣本進行分析,包括評論、視頻、導流的渠道去向等,抽絲剝繭、尋蹤覓源,發現了一些違法違規的線索。
之後他們聯合公安機關,鎖定了長沙一個色情犯罪團伙的窩點位置,配合公安機關在窩點位置進行了連續3天的摸排,最終抓獲嫌疑人11名,拿到他們發佈二維碼或鏈接販賣淫穢視頻的鐵證,扣押多個羣控設備,手機設備2000多個。這些嫌疑人後來被定為**“幫助信息網絡犯罪活動罪”**。

2)刷單詐騙
9月份,抖音安全中心發現刷單類詐騙線索,提供給公安機關。10月初,公安機關通過精密分析,去實體位置勘查,鎖定位於廣西南寧西塘區的窩點。
最終抓獲嫌疑人17人,扣押作案使用的手機300餘個,筆記本電腦1台,台式電腦1台。

周冉告訴我,刷單詐騙通常是“分級代理”模式,整個犯罪鏈條和網絡有時會非常龐大,“一網打盡”難度很大。
“因為和傳統犯罪手法相比,互聯網犯罪嫌疑人都是跨平台,作案地點、作案時間非常不固定,同時還會使用一些技術手段隱藏自己、躲避追蹤,這也就是為什麼會稱為‘新型違法違規行為’。”周冉説。
抖音安全中心的技術同事經過細心研究,發現詐騙團伙和分級代理在平台的行為特徵是非常類似的,基於人工智能技術的風控模型可以通過微小的特徵差異,識別出頂級詐騙團伙,可以給持續性打擊工作帶來很大幫助。
有了技術模型的深度結合,11月,抖音平台又輸出一批新的刷單線索,經公安機關認定,是10月份那個案子裏逃跑的幾個嫌疑人。
11月19日,廣西南寧公安機關將其頭目和其他人員全部抓獲,主犯認定為**“詐騙罪”,其餘人員為“幫助信息網絡犯罪活動罪”**。
3)寵粉詐騙
“寵粉詐騙”是2020年新發現的一種詐騙類型。主要針對中小學生遊戲玩家(小學生都不放過),受害者大多是手遊玩家。
7月份,抖音安全中心發現有人在抖音上利用 “關注送遊戲皮膚”、“玩遊戲送手機”等方式吸引用户進QQ羣。
這羣人為了躲避抖音的風控策略,二維碼一天都變化很多。
抖音安全中心負責調查的同事順藤摸瓜加入到某個QQ羣,羣裏聲稱送手機只需要支付郵費,可是等用户支付完郵費,對方又會稱仍需要支付保證金。
於是,他們對這個團伙的引流環節進行技術分析 ,於8月初將線索提交公安機關,警方通過偵查取證,確認可以實施打擊。
8月下旬,在齊齊哈爾市局刑警支隊反詐中心指揮下,將齊齊哈爾寵粉詐騙窩點進行打擊。現場扣押筆記本電腦5台,台式機電腦一台,手機94部,手機卡85張,銀行卡55張,U盾8個,現場抓獲7人,認定為“詐騙罪”,被全部採取刑事強制措施。
一點感想
有句話叫“太陽底下無新事”,頻發的“新型違法犯罪”讓我越來越意識到,網絡平台遇到的這些問題,不光是平台的問題,也是一個社會問題。
十幾年前在火車站邊問:“小夥要碟嘛?”、“小夥子來玩玩呀”的,和現在“色情導流”的,其實是一類人。
十幾年前,在馬路邊丟一捆假幣,跑過來主動跟路人分贓的,和現在做“刷單詐騙”、“寵粉詐騙”的,其實是一類人。
壞人常有,雖然並非網絡平台催生出來的,卻因為整個社會的信息獲取、交流渠道從線下轉移到線上,而跟着轉移到了網絡平台。
未來治理灰黑產必定和從前治理現實世界的犯罪一樣,任重而道遠。