白嫖越來越多,網站越來越少,是怎麼回事?_風聞
非凡油条-非凡油条官方账号-深度解读全球政治财经动向的前因后果1小时前

無法無天的AI爬蟲,正在偽造身份、修改 User-Agent、使用住宅IP代理來繞過限制,攻擊各種網站。
尤其是中小開發者,由於他們防護措施較為簡單,被攻擊代價不大,也缺少更有力的技術和法律手段,越來越多地成為AI爬蟲肆意爬取數據的犧牲品。
原本就小本經營的網站,因為爬蟲的瘋狂攻擊而卡頓延遲,消耗大量服務器資源,運營成本陡然拉高。而AI爬蟲在爬取數據後也只是提上褲子走人,負責更是無從談起。
眾所周知,大模型不是一開始就很多聰明的,它需要大量數據訓練,才有我們能看到的“人工智能”。
然而訓練的數據是從哪裏來的?很大一部分是網絡上,通過AI爬蟲爬來的。
AI爬蟲是一種基於機器學習和大數據技術的自動化數據採集工具,專為訓練生成式AI模型而設計。它通過模擬人類行為或繞過傳統反爬機制,以更高效率、更大規模抓取互聯網上的文本、圖片、視頻等內容,幫助AI訓練。
一直以來,不少網站靠robots.txt機制規避爬蟲。
robots.txt是網站根目錄下的一個純文本文件,用於向搜索引擎的爬蟲等各路爬蟲聲明網站的抓取規則。它通過簡單的語法指令,告知搜索引擎哪些頁面允許抓取,哪些應被禁止訪問。
簡單地説,它類似於網站大門口的告示,告訴訪客哪裏能去,哪裏不能去。
雖然這隻能算個君子協議,不少爬蟲也會無視,基本上偷偷摸摸爬取,但這麼多年來還是保持了一點體面。
AI爬蟲可就不一樣了,它們優先抓取高價值數據,經常無視robots.txt,完全是法外狂徒的做派。
而且AI爬蟲請求量遠超人類用户,每秒請求量數萬到數十萬次,堪稱賽博世界的殭屍撞門。Fedora Pagure 項目的管理員稱,最近AI爬蟲導致Fedora 代碼託管平台 pagure.io癱瘓。由於大部分惡意流量來自.br(巴西)的 IP 段,只能封鎖整個 .br(巴西)的IP段才勉強恢復訪問。
這樣的AI爬蟲攻擊,對開源開發者傷害尤其嚴重。
開源開發者非常依賴開放共享精神,因為這樣才能吸引更多人為項目添磚加瓦,而這樣的項目設防程度不高,很容易被AI爬蟲攻擊。很多開源項目價值很高,是AI極其願意汲取的養分來源,AI爬蟲就肆無忌憚攻擊這些項目。
從公開網站資料中攫取數據,還有另一個問題,人家辛辛苦苦創造的數據被隨意拿走,以後AI生成的代碼、文章、設計作品與原作高度相似,卻無需向創作者支付任何費用。
開發者不得不拿出大量精力限制AI爬蟲的攻擊,比如設置驗證碼、提高訪問門檻等,這卻苦了原本正常訪問的普通用户。他們原本是人類,卻不得不因為AI破壞,只能適應更高的訪問門檻,吭哧吭哧進行驗證,證明自己不是爬蟲。
更大一點的網站,則會主動將自己封閉起來,以不被爬蟲騷擾。
原本開放的資料,也因此成了加密內容,秘而不宣,想要訪問,要麼得有特定權限,要麼付一大筆錢。
開放的互聯網精神,越來越像一個笑話。移動互聯網時代,大廠們用一個個App畫地為牢,把自己的數據和用户圈起來;到AI時代,直接鐵索連江,爬蟲過不去,用户也過不去了。
更可怕的是,沒有被鎖起來的數據和知識,就是質量比較差的那批。
我們之前在《AI污染,觸目驚心》裏提到過,AI能爬取的網絡就是個大糞坑,裏面很多信息要麼是虛假的,要麼毫無意義。
這麼多虛假語料一把屎一把尿喂大的大模型,還在放爬蟲尋找高價值信息,但高價值信息重重保護,根本接觸不到,只會讓AI爬蟲接觸的語料進一步劣化,最終互聯網裏高價值的信息被鎖住,反倒是AI不斷生成的垃圾內容大行其事,徹底把人類用户和AI全部淹沒。
互聯網變得越來越封閉,內容越來越差,最終會被AI爬蟲毀掉。
上下滑動查看參考資料:
AI爬蟲大戰讓互聯網變得更封閉 https://mp.weixin.qq.com/s?__biz=MzI5MTcxMTA3Mw==&mid=2247507398&idx=1&sn=47ce14de27e0f40385f1acc0908401bd&chksm=ed55c235ffab9fa05c651315c83cc923166584cce5af52bf77e30cd37165b5152671adb491ac#rd
AI爬蟲拖垮整個網站!開發者崩潰:禁了整個巴西的訪問,才勉強救回來 https://mp.weixin.qq.com/s/3xYsJsb2kMQwdQytzlNq5g
文章用圖:圖蟲創意
本回完