環信推反垃圾服務,八大技術為用户保駕護航
那些年,用户被虛假廣告塞的壇滿缽滿;那些年,網民被欺詐信息騙的傾家蕩產;那些年,色情圖片搞得社區難以正常發展;那些年,反動信息讓平台面臨關停的風險。據《中國網民權益保護調查報告(2015)》顯示,2015年網民因個人信息泄露、垃圾信息、詐騙信息等現象,總體損失高達805億元。同時,垃圾信息也極大影響互聯網產品用户體驗,如果不加以控制,只能眼睜睜地看着活躍度下降用户不斷流失。
互聯網企業因此面臨着各方面巨大的壓力,為此不得不投入大量的資源。大型互聯網公司都有專門的反垃圾研發團隊,人數動輒數人甚至數十人。但大多數中小型互聯網創業公司資源有限,很難專門建立自己的反垃圾團隊。在美國,已經有多家創業公司以雲服務或其他形式提供反垃圾服務。而在中國,反垃圾市場缺口巨大,但目前還沒有第三方的專業反垃圾服務提供商。
為了維護平台以及網民的合法權益不再遭受垃圾信息的侵害,作為全球最大的即時通訊雲PaaS平台,環信率先推出了反垃圾服務。
一,反垃圾服務“Anti-spam”面臨六大挑戰
反垃圾服務“Anti-spam”是一項長期並且艱鉅的工作,面臨以下六大挑戰:
1)1:n,一個anti-spam團隊要面臨看不見的千千萬萬的spammer(人或者機器);
2)spammer利益豐厚,已經形成完整的地下黑色產業鏈;
3)spam的成本越來越低,打碼網站(第三世界打碼平台),萬能的淘寶(IP代理庫,手機黑卡,馬甲賬號)等;
4)spam質量越來越高,軟文與正常用户的文章差異越來越少;
5)anti-spam是拉鋸戰,學術界和工業界多采用機器學習的方法進行,但只要產品有流量,spammer會堅持不懈地研究策略和規則來繞開設定的屏障。anti-spam與其説是machine learning,不如説是adversarial learning;
6)anti-spam在大多數公司都是一個黑盒,為了保護自己,核心技術很少會拿出來公開交流。
二,環信反垃圾“anti-spam”服務八大技術讓垃圾消息無所遁形
環信作為國內即時通訊雲行業的開創者,有着連接人與人,連接人與商業的願景。不僅致力於為用户提供高穩定高可靠的底層消息服務,更致力於幫助用户不斷優化產品打造更好的用户體驗,從而實現雙贏。在反垃圾服務方面,環信anti-spam團隊將通過以下技術力圖識別惡意機器程序,將用户spam控制在可接受的範圍內。
1、關鍵詞過濾系統,主要用來過濾非法政治言論以及部分色情信息;
2、基於行為分析的spammer識別系統,藉助互聯網用户行為的特徵進行spammer識別;
3、惡意內容樣本自學習系統。基於內容的spammer識別系統,通過訓練,指針對用户的內容數據做判斷,從語義的角度分析spam的類別;
4、即時策略部署,緊急幫助用户攔截臨時爆發的spam;
5、用户產品指導等(註冊馬甲攔截,活動刷單等);
在上述anti-spam過程中,環信將會對用户的用户ID做匿名處理,充分保護用户隱私。並且將使用高效、準確的機器學習模型進行智能識別。
未來,環信還將部署以下三大技術: 1、消息惡意代碼檢測,xss等潛在的惡意攻擊;2、惡意URL檢測,釣魚網站等虛假URL檢測; 3、語音,圖片,視頻等spammer智能識別系統;
三,環信反垃圾“anti-spam”增值服務流程簡介:
1、環信反垃圾服務屬於增值服務,將面向所有互聯網企業,同時將優先向環信即時通訊雲和環信移動客服老用户開放。
2、企業可以聯繫環信商務申請開通反垃圾服務。
3、環信反垃圾團隊將跟企業溝通,瞭解用户垃圾消息的定義,商定垃圾消息的處理流程。
4、對企業的數據匿名處理,訓練模型,上線服務。
5、環信將不斷改進模型,提高準確率和召回率,同時幫助企業應對臨時事件。
截至12月份,已經有數十家環信老用户試用開通了環信反垃圾服務。某知名女性社交App在申請試用環信反垃圾服務以後,環信選擇其數據使用環信行為識別系統進行識別,發現該App目前的垃圾消息佔比高達40%,其中,垃圾消息主要分為非法廣告和虛假兼職兩類,比例為9:1,極度影響用户體驗。
通過環信行為檢測系統,垃圾消息監測準確率高達99%,垃圾消息召回率高達82%。該社交產品負責人表示:“環信反垃圾服務上線後用户活躍度獲得了明顯提升,以後再也不用為各種色情、政治類消息提心吊膽了。”
環信反垃圾服務將於近期正式對外開放申請,具體請聯繫環信商務或者關注環信官網(http://www.easemob.com/)更新。
名詞解釋:召回率,是機器學習的評判指標之一。舉個例子,現在某App有1000條消息,其中300條是垃圾消息,通過系統識別出了240條我們“算法認定”的垃圾消息,經過人工鑑定,這240條垃圾消息就是樣本中的垃圾消息,那麼算法的召回率是240/300=80%,算法準確率是100%。因為算法是一個學習的過程,所以會漏掉一些垃圾消息用作學習成本。