爬信息爬到服務器癱瘓,今日頭條的頭條搜索成了小網站的噩夢!_風聞
差评-差评官方账号-2019-10-26 09:46
今年上半年,字節跳動放出了個讓百度虎軀一震的消息 —— 今日頭條開始做搜索引擎了。
兩個月前還大張旗鼓的在親爸爸字節跳動的官方公眾號上招人組隊來着~
沒過多久移動端的 “ 頭條搜索 ” 就低調上線。
頭條搜索從只限於頭條 App 的站內搜,變成可以抓取全網內容的全新搜索引擎,期間還和百度互剛了好幾波,字節跳動的野心可見一般。
( 世超之前還帶大家體驗了一把,沒看過的差友們可以點這裏補補課【傳送門】)
字節跳動下這步棋,其實完全是在情理之中的舉動。
依靠着今日頭條過億日活帶來的天然信息流資源,頭條搜索已經有了很大的基礎優勢,這不考慮分百度一羹都説不過去。。。
不過上線的這段時間,差評君關於他們的官方消息沒看到幾個,倒是爆出了這麼個新聞 ——
什麼是爬蟲?
爬蟲就是自動抓取全網內容的一種程序,它會定時把互聯網上的內容爬下來,彙總存儲到自己的服務器上,這樣你每次搜索的時候,搜索引擎就會在這些內容裏進行匹配相似度高的內容反饋給你。
為了讓大家總能查詢到互聯網上的最新內容,爬蟲一般每隔一段時間就再重新爬取一下網站內容。
在這個新聞裏,一些服務器體量較小的網站稱,一種名為 Bytespider 的爬蟲爬取他們的網站信息的頻率太高,直接把網站整癱瘓了。
大家順着爬蟲的 IP 地址查了一下,發現 Bytespider 就是今日頭條的搜索爬蟲。
crawl.bytedance.com
大公司的爬蟲都有自己的名字,像是谷歌的爬蟲叫 Googlebot,百度的爬蟲是 Baiduspider,搜狗的爬蟲 Sogouspider,而今日頭條家的就是 Bytespider。
但讓差評君疑惑的是,像是用爬蟲爬信息這種在互聯網界已經算得上最常規不過的操作,小體量的公司都很少出錯,今日頭條這種大廠怎麼把人家網站給搞癱了?今日頭條在業內的技術口碑一直不錯啊。。
會不會是漏洞或者是烏龍?所以差評君就多留心了下。。
不查不知道,一查嚇一跳,其實從今年 6 月開始就有網站主抱怨了這個 Bytespider。
根據網站主的描述,爬蟲短短一上午時間就對網站發出了 46W 次請求,直接耗掉服務器 7 個多 G 的流量。
46W 次請求。。。
這對平均日活可能都沒有過千的小網站來説,已經算得上一次小型的 DDoS 攻擊了啊。****。
而且從今年 6 月到 10 月,越來越多的人開始在網上爆料自己也遇到了類似的情況。
CNDS 上也能找到相關文章
某家網站的的服務器日誌
而且連國外的網站也不能倖免!!在國外的編程交流網站上
最過分的是,無論是國內還是國外的開發者,都表示遇到 Bytespider 無視自家網站 robots 協議的情況。
差評君給大家解釋一下什麼是 robots 協議。
它是一種網站附帶的文本文件,專門用來告訴爬蟲引擎在這個網站上的爬蟲規矩。
譬如説哪些內容可以被爬取,哪些內容不能被爬取,而某些涉及用户隱私的會直接禁止爬取。。。
如果你想查看某個網址的 robots 規則,只需要在主域名後面添加 /robots.txt 便可以看到。。
舉個栗子,下面這個圖片就是 Google 搜索的 robots 規則,Disallow 後面跟着的就是禁止爬蟲做的事情,Allow 後面跟着的則是允許爬蟲的操作。
當然 robots 協議並不是每個網站都有,並且 robots 協議也沒有什麼法律效力, robots 協議更像是一種江湖規矩,就像電影院裏貼着不要大聲喧譁,博物館裏不讓用閃光燈一樣。。
那些專門寫了 robots 協議的網站,就是告誡那些爬蟲網站,進了我家門,請遵守我的規定。
再舉個栗子,在用谷歌搜索的時候,你有可能會碰到有詞條有鏈接,卻沒有頁面説明的搜索結果。
這就很可能是因為對方的 robots 協議裏允許谷歌抓取信息,但不讓谷歌搜索結果對網頁進行描述。
大家都在互聯網這個江湖混,所以大部分人都老老實實的尊重這個江湖規矩。
有些小網站會根據自己的服務器體量和維護成本,直接在 robots 協議裏規定爬蟲爬取的頻率。
然而 Bytespider 卻會忽略掉人們的規矩,仗着自己財大氣粗、服務器牛逼,每秒幾十次,幾百次的抓爬訪問頻率,讓小網站變得卡頓,甚至直接 502 掛掉。。。
Google 上搜索 “ Bytespider ”全是抱怨
這不是不給小網站活路麼。。。
本來網站們是並不排斥爬蟲過來爬取他們的內容的,因為對他們來説被正常抓爬不是壞事,反而給自己的網站多了一個搜索曝光位,何樂而不為
我給你提供內容,你給我曝光量,這本來是個雙贏的事情,但這回頭條搜索的操作實在是太亂來了,壓根不管你的承受能力,索取無度。。
而且,遇到這種情況的開發者偏偏又很難找到渠道去和今日頭條溝通,只能在自己這邊直接禁掉今日搜索的爬蟲 IP 了。****。。
但其實這樣,對雙方來説都沒好處。
搜索引擎公司爬蟲被禁,可能直接導致它的搜索結果失去了一條有用結果;而對於禁爬蟲的公司來説,他們無疑少了一個渠道的曝光。
兩敗俱傷。。。
曾經 YisouSpider 也因為流氓爬取,被程序員們唾棄
而且忽略網站 robots 規則,也就是説,沒準兒今日搜索的爬蟲會爬到一些網站禁止訪問的內容,譬如用户隱私信息啥的,這可就是在法律邊緣試探了。。
至於頭條搜索為什麼要這麼做,差評君猜測很可能是因為產品急着上線,需要快速擴充內容庫,下了個狠手。
截止到目前,字節跳動或者頭條官方都沒有出面對這個事情做出闢謠或任何解釋。
差評君唯一能看到官方對於這個事情的回應還是在微博上的一則回覆。
接受一切反饋
不過所有的反饋能不能得到實際行動上的回應,着我們也不得而知了。
有人説,在搜索引擎界,頭條算是新入局的小孩兒,如果要拿他這次的 “ 流氓行為 ” 和現在已經數據基礎龐大,但是遵守規定的谷歌、百度去比,有點不公平。
差評君説句實話,字節跳動已經算得上一個大佬,這樣的行為對那些無力反抗的小網站來説公平嗎?
大家都遵守 robots 規則是有道理的:做信息分發等業務時,不能竭澤而漁擾亂互聯網生態,這樣大家相安無事互助互贏。
現在這麼一波暴力抓取,為了節省時間成本逼得網站不得不完全屏蔽掉它,結果整得大家都費力不討好。
關鍵是,無財無勢的小網站還輸不起啊!
不管是物資還是財力都更龐大的巨頭,更應該成為江湖界守規矩的標杆,老大要是亂了風氣,江湖可就徹底糊了。
參考資料:
cnBeta:《 頭條搜索還沒有推出但派出的ByteSpider爬蟲令小網站痛苦不堪 》
維基百科:robots.txt
微博:@互聯網的那點事
stackoverflow:What is the “Bytespider” user agent?
知乎:YisouSpider是合法的網站蜘蛛嗎?
IPHunter:今日頭條 搜索爬蟲