白嫖越來越多，網站越來越少，是怎麼回事？_風聞

非凡油条-非凡油条官方账号-深度解读全球政治财经动向的前因后果1小时前

2025-04-02

無法無天的AI爬蟲，正在偽造身份、修改 User-Agent、使用住宅IP代理來繞過限制，攻擊各種網站。

尤其是中小開發者，由於他們防護措施較為簡單，被攻擊代價不大，也缺少更有力的技術和法律手段，越來越多地成為AI爬蟲肆意爬取數據的犧牲品。

原本就小本經營的網站，因為爬蟲的瘋狂攻擊而卡頓延遲，消耗大量服務器資源，運營成本陡然拉高。而AI爬蟲在爬取數據後也只是提上褲子走人，負責更是無從談起。

眾所周知，大模型不是一開始就很多聰明的，它需要大量數據訓練，才有我們能看到的“人工智能”。

然而訓練的數據是從哪裏來的？很大一部分是網絡上，通過AI爬蟲爬來的。

AI爬蟲是一種基於機器學習和大數據技術的自動化數據採集工具，專為訓練生成式AI模型而設計。它通過模擬人類行為或繞過傳統反爬機制，以更高效率、更大規模抓取互聯網上的文本、圖片、視頻等內容，幫助AI訓練。

一直以來，不少網站靠robots.txt機制規避爬蟲。

robots.txt是網站根目錄下的一個純文本文件，用於向搜索引擎的爬蟲等各路爬蟲聲明網站的抓取規則。它通過簡單的語法指令，告知搜索引擎哪些頁面允許抓取，哪些應被禁止訪問。

簡單地説，它類似於網站大門口的告示，告訴訪客哪裏能去，哪裏不能去。

雖然這隻能算個君子協議，不少爬蟲也會無視，基本上偷偷摸摸爬取，但這麼多年來還是保持了一點體面。

AI爬蟲可就不一樣了，它們優先抓取高價值數據，經常無視robots.txt，完全是法外狂徒的做派。

而且AI爬蟲請求量遠超人類用户，每秒請求量數萬到數十萬次，堪稱賽博世界的殭屍撞門。Fedora Pagure 項目的管理員稱，最近AI爬蟲導致Fedora 代碼託管平台 pagure.io癱瘓。由於大部分惡意流量來自.br（巴西）的 IP 段，只能封鎖整個 .br（巴西）的IP段才勉強恢復訪問。

這樣的AI爬蟲攻擊，對開源開發者傷害尤其嚴重。

開源開發者非常依賴開放共享精神，因為這樣才能吸引更多人為項目添磚加瓦，而這樣的項目設防程度不高，很容易被AI爬蟲攻擊。很多開源項目價值很高，是AI極其願意汲取的養分來源，AI爬蟲就肆無忌憚攻擊這些項目。

從公開網站資料中攫取數據，還有另一個問題，人家辛辛苦苦創造的數據被隨意拿走，以後AI生成的代碼、文章、設計作品與原作高度相似，卻無需向創作者支付任何費用。

開發者不得不拿出大量精力限制AI爬蟲的攻擊，比如設置驗證碼、提高訪問門檻等，這卻苦了原本正常訪問的普通用户。他們原本是人類，卻不得不因為AI破壞，只能適應更高的訪問門檻，吭哧吭哧進行驗證，證明自己不是爬蟲。

更大一點的網站，則會主動將自己封閉起來，以不被爬蟲騷擾。

原本開放的資料，也因此成了加密內容，秘而不宣，想要訪問，要麼得有特定權限，要麼付一大筆錢。

開放的互聯網精神，越來越像一個笑話。移動互聯網時代，大廠們用一個個App畫地為牢，把自己的數據和用户圈起來；到AI時代，直接鐵索連江，爬蟲過不去，用户也過不去了。

更可怕的是，沒有被鎖起來的數據和知識，就是質量比較差的那批。

我們之前在《AI污染，觸目驚心》裏提到過，AI能爬取的網絡就是個大糞坑，裏面很多信息要麼是虛假的，要麼毫無意義。

這麼多虛假語料一把屎一把尿喂大的大模型，還在放爬蟲尋找高價值信息，但高價值信息重重保護，根本接觸不到，只會讓AI爬蟲接觸的語料進一步劣化，最終互聯網裏高價值的信息被鎖住，反倒是AI不斷生成的垃圾內容大行其事，徹底把人類用户和AI全部淹沒。

互聯網變得越來越封閉，內容越來越差，最終會被AI爬蟲毀掉。

上下滑動查看參考資料：

AI爬蟲大戰讓互聯網變得更封閉 https://mp.weixin.qq.com/s?__biz=MzI5MTcxMTA3Mw==&mid=2247507398&idx=1&sn=47ce14de27e0f40385f1acc0908401bd&chksm=ed55c235ffab9fa05c651315c83cc923166584cce5af52bf77e30cd37165b5152671adb491ac#rd

AI爬蟲拖垮整個網站！開發者崩潰：禁了整個巴西的訪問，才勉強救回來 https://mp.weixin.qq.com/s/3xYsJsb2kMQwdQytzlNq5g

文章用圖：圖蟲創意

本回完