互聯網冗餘頁面超百億 360搜索上線“后羿算法”保護原創
互聯網的快速發展離不開原創和稀缺的優質原創資源。但採集網站採取瘋狂而低劣的手段,短時間內拼湊出大量低質量網頁,不僅嚴重影響了用户的瀏覽體驗,也極大挫傷原創作者和原創網站的積極性。近日,360搜索發佈站長公告,宣佈上線后羿算法,對低劣的採集站點加以控制,對原創和稀缺性網頁進行保護和提權,與站長共同建設良好的互聯網生態環境。

互聯網冗餘信息已達百億 嚴重挫傷原創積極性
“原創+轉載+信息分類聚合”已經成為互聯網新聞網站的最常見內容產出模式,比如新浪、搜狐、網易這些傳統門户,和今日頭條等移動APP。原創內容保證了網站的獨特性,而轉載內容保證網站信息的足夠全面,大量的分類聚合工作,讓互聯網信息條理清楚類目分明。
網站之間常規的轉載,要求轉載網站在醒目位置列出文章出處和原創頁面入口,用户可以直接跳轉到原創頁面。但採集站,往往隱瞞或者篡改文章出處,且不分條理的盲目抓取互聯網信息。為了獲得流量收益,採集站會在頁面中夾雜大量的廣告和彈窗信息,不僅浪費了搜索引擎的收錄資源,侵害了原創作者的版權,用户搜索體驗也大打折扣。
據估計,用户喜歡的高質量原創內容,互聯網每天會誕生數十萬個頁面,與之成鮮明對比的是,採集網站帶來互聯網上的冗餘信息則高達上百億個頁面,與冗餘信息相比,原創內容可謂九牛一毛。
採集站的內容分佈領域非常廣泛,常見的領域有普通問答類,商品購物類,娛樂新聞類,企業商情類,成人色情類,賭博詐騙類,私服外掛類,違法違禁類等,涵蓋了互聯網內容的各大領域。與此同時,移動互聯網的採集和垃圾網頁,雖然其數量級要比PC端要低,但在行為模式方面與PC端區別不大。
“后羿算法”倡導原創,控制惡意採集
12月26日,360搜索發佈站長公告,宣佈上線抑制採集保護原創的高級算法“悟空算法”,該算法將對低劣的採集站點加以控制,對原創和稀缺性網頁進行保護和提權。360搜索表示,願與無數專心做好站的站長共同建設良好的互聯網生態環境
“后羿算法”上線後,對於內容豐富的優質網頁(如原創、稀缺資源、精心編輯的內容頁等),會增加其在用户面前展現的機會;對於濫用採集手段的行為(如整站大規模採集,頁面內容拼湊、含有大量廣告干擾用户閲讀、惡劣彈窗跳轉、大量堆砌無關熱詞、站內搜索結果頁等),會顯著降低其展現機會和網頁收錄量;對於新聞網站正常的轉載行為,採取了合理引導和規範控制,而不是一棒子打死。
據悉,后羿算法採取了業界領先的大規模並行機器學習算法,通過億萬維度特徵的刻畫,結合對搜索領域問題的不斷探索和實踐,對海量文本數據進行主題和內容傾向性分析,對用户喜好程度進行全面建模和應用,能夠對原創信息進行快速而精準的鑑別,能夠對採集行為和垃圾網頁進行定向的約束和管控。
360搜索一直以來都掌握着採集類站點的完整索引量和歷史行為模式,並對之進行長期的密切的關注和監控,一旦發現有惡劣作弊傾向就會進行嚴肅處理,用“后羿“命名該算法,就是為了秉承了英雄后羿的“去除冗餘,除暴安良”精神。
原創收錄異議 可求助站長平台
公告中,360搜索表示將矢志不移地與無數專心做好站的站長共同建設良好的互聯網生態環境。360搜索建議那些存有惡意採集行為的站長,能夠從長遠發展考慮,積極完善網站建設,提供更多時效性高、內容豐富的原創內容,引擎將隨着網站完善,不斷提升收錄量。
360搜索同時也歡迎原創網頁的作者,通過360站長平台主動提報收錄缺失的信息。對於原創網站和作者,如發現自己的內容被惡意採集,對採集判定結果及收錄狀況存在異議時,360搜索建議通過站長平台的反饋中心及360搜索論壇版主進行反饋:

