陳根:當商業偏好影響技術中立,網絡爬蟲遭司法拷問_風聞
陈根-知名科技作家为你解读科技与生活的方方面面。2020-08-22 07:27
文/陳根
數字經濟時代,數據作為一種新的生產要素,在預判市場走向、調控交易行為、影響各主體權利義務等方面發揮着重要作用。市場參與者特別是互聯網企業,通過收集、存儲、挖掘、加密、交易等一系列行為,充分發揮數據作為生產性資源的經濟價值,更有企業直接將數據視為一種資產。
與傳統財產性資產不同,線上數據不具備明顯的有體性,而以無形、可共享及可傳輸為主要特點,這也就導致了商業競爭向新的方向發展,並以爭奪數據佔有狀態為主要形式。其中,除直接通過用户採集數據之外,另一大數據來源就是使用網絡爬蟲採集公開信息。
但也正因為互聯網和大數據產業的迅速發展,使得定向抓取網頁資源的網絡爬蟲產業發展迅猛。在吸引大量商業公司和個人從事其中的同時,大數據也帶來諸多安全風險。因此,如何有效引導網絡爬蟲已經成為現實性問題。
從爬蟲技術到爬蟲行為
網絡爬蟲也被稱為網頁蜘蛛或者網絡機器人等,是指能夠根據自身規則抓取信息的程序。**作為搜索引擎的基礎構件之一,網絡爬蟲直接面向互聯網,是搜索引擎的數據來源,**決定着整個系統的內容是否豐富、信息能否得到及時更新。網絡爬蟲的性能表現直接影響整個搜索引擎的效果。
網絡爬蟲平時會在網絡上自動爬取有用的數據,通過一定的選取機制、過濾機制、錄用機制等,來豐富它們的數據庫。**事實上,每個搜索引擎的爬蟲機器人都不一樣,它們有着自己的一套“爬取機制”。**誰把這個機制優化得最好,那麼誰就能更快給到用户真正想要的信息。比如,百度的爬蟲機器人叫做百度蜘蛛( Baiduspider ),360的爬蟲叫做360 Spider ,搜狗的叫做 SogouSpider …基於不同的程序爬取算法,它們也擁有不一樣的搜索結果。
網絡爬蟲系統運行時,會自動選擇一個較大網站的統一****資源定位符即網頁地址作為集合,在系統中把種子集合作為初始資源的地址。抓取數據時,在已經存在的網頁資源地址的基礎上得到新的網頁資源地址,相當於把種子網頁地址對應的網頁作為森林中一棵樹的根節點。
系統運行過程中,把種子URL加入到下載隊列,並從隊首取出一個網頁地址下載對應的網頁,之後儲存內容數據,利用解析器處理信息並得到新的網頁地址,把新的網頁地址加入到下載列隊,反覆執行上述操作,直到滿足所需條件,循環工作結束。
網絡爬蟲可以簡單分為通用網絡爬蟲、聚焦網絡爬蟲和增量式網絡爬蟲。
**通用網絡爬蟲可從種子網頁地址不斷擴展到整個萬維****網。**通用網絡爬蟲的作用是為用户站點搜索引擎時採集數據。爬行範圍和數量非常大,不需按照特定的爬行頁面順序,但新的頁面刷新時間較長。
**聚焦網絡爬蟲是選擇性爬行,優先爬行預先設定的相關的網頁,且只爬行與主題相關的頁面,**能夠有效節省硬件和網絡資源,滿足特定人羣對特定信息的需求。聚焦網絡爬蟲相關爬行策略有以下幾方面。第一,基於內容評價的爬行策略。把用户搜索查詢時的查詢詞作為主題,爬行頁面與這一主題相關。第二,基於連接結構評價的策略。其主要涉及兩種算法,一種是PageRank算法,可對計算值比較大的頁面進行連接訪問;另一種是HITS方法,通過計算每個已經訪問的頁面決定訪問順序。第三,增強學習的爬行策略。根據網頁文本和鏈接文本分類超鏈接,通過鏈接的重要性決定訪問順序。
增量式網絡爬蟲則在對應下載網頁的基礎上進行更新,即在新產生和發生變化的網頁中,保證的其爬行頁面為最新頁面。增量式網絡爬蟲可以在很大程度上減少數據下載量,及時更新網頁,避免空間和時間上的浪費。
網絡爬蟲按授權情況又可分為合法爬蟲和惡意網絡爬蟲。
合法爬蟲指在遵守網站的機器人協議(robots.txt)前提下,對網頁或網絡公開接口進行爬取,其爬取行為不會影響網站的正常運行,對網站數據的爬取也不會侵犯網站用户的個人信息和網站的重要數據資源。惡意爬蟲則會突破網站機器人協議的禁止爬取要求(規定在robots.txt文件的Disallow部分),爬取網站的核心數據資源,並可能極大地損耗被爬取網站服務器的性能。
爬蟲獲罪具體路徑
事實上,作為一項互聯網技術,爬蟲行為本身並不違法,甚至很多信息類網站的基礎技術就是爬蟲程序。然而,當技術中立受到商業偏好的影響時,非正當爬蟲行為則對雲空間中的各類數據形成安全性衝擊,進一步更深地影響到包括個人權、知識產權在內的合法權益。
**第一,從網絡爬蟲對個人信息權的侵犯來看,**大數據時代,多數公民的個人信息都是以電子數據的形式存儲於計算機信息系統或者網絡之中,易被網絡爬蟲抓取。個人信息區別於普通數據的最大特徵在於其與信息主體存在某種關聯性、專屬性,能識別特定個人,具有侵犯信息自決權的隱憂。根據我國刑法第二百五十三條之一第三款規定,竊取或者以其他方法非法獲取公民個人信息的,構成侵犯公民個人信息罪。
此外,大數據時代下對個人數據的財產化旨在保障數據主體能從對自身數據的收集、利用中獲益,並強化數據本身的經濟驅動功能,以打破傳統隱私權、信息權過度保護而阻礙數據流通的僵局。但財產權保護只能説明個人數據法律保護的必要性,卻不能作為採取絕對權保護模式的依據,且當前我國司法實務中亦無判決認可個人數據的財產權屬性,可見個人數據的財產權保護進路與現實生活經驗、需求並不吻合。這導致以個人數據財產侵權來追究網絡爬蟲民事責任難以實現。
第二,對於企業來説,如果是被爬取方,則其依託相關數據而享有的知識產權等可能****會因此受到侵害。在知識產權領域,企業數據的權利類型主要涉及著作權、專利權、商業秘密等。其中,著作權保護僅針對企業數據中具有“獨創性”的作品部分,而不包括缺乏獨創性的企業數據編排;專利權保護僅針對具有鮮明技術屬性並能解決一定技術問題的大數據運算程序,但不包括缺乏新穎性、非顯而易見性和實用性的企業數據編排;商業秘密保護僅針對具有價值性、新穎性和保密性的企業數據,而不包括缺乏新穎性、秘密性的企業原初數據。
**上述技術特徵導致實務中通過知識產權保護對網絡爬蟲提起訴訟存在較大障礙。**對於企業數據的財產權保護,主要考慮數據經營者通過對數據的收集、加工、利用、交易等而形成了動態的使用、利益關係,獲得了數據資產的經營權和資產權。這種財產權旨在安排一種鼓勵企業數據經濟化的私有結構,以體現企業數據的可支配性和排他佔有性私益,卻又面臨相關財產權的控制、分享、救濟難題。
對數據“權利化”的私法保護進路是通過對個人數據、企業數據的迭加式賦權來回應數據主體的利益訴求,卻在權益層級方面(民事權利或利益)和權益屬性方面(人格權、財產權)歷經曠日持久的爭論,這就導致網絡爬蟲的民法規制在權利確定、行為邊界和權利救濟上都相當困難。其根本原因在於,私法賦權忽略了數據本身的無形性、可分享性、公共性特點以及數據必須通過分享來實現自身價值的客觀事實**。**因而,基於數據的流動性、共享性對數據的開放程度及其公共秩序建構成為規制網絡爬蟲的另一個重要手段。
第三,大數據背景下,網絡爬蟲的不正當使用或****侵害的公平、自由的數據競爭秩序。從競爭法的角度而言,規制數據競爭的核心目標是維護數據要素市場的競爭秩序和競爭機制,這既需要兼顧數據控制方與數據使用方的利益訴求,也需要均衡數據資源的產出激勵效率和配置使用效率。
當前數據競爭的實質是上下游數據競爭者之間的利益博弈,上游數據企業基於對數據資源的巨大投資和收益期待,產生了數據保護訴求;下游數據企業基於互聯網“互聯互通”精神倡導數據流通和開放共享,產生了數據共享訴求。
因而,對數據競爭秩序的維護包括對公平數據競爭秩序的維護和對自由數據競爭秩序的維護:前者需要關注數據使用者的不正當競爭行為,如利用網絡爬蟲惡意竊取競爭對手的數據資源,攫取他人競爭優勢的“搭便車”行為;後者需要考察數據控制者限制競爭的不當壟斷、圈佔數據行為,如利用服務條款、技術措施等有針對性地拒絕他人獲取數據以打壓潛在競爭對手。
例如,大眾點評訴百度不正當競爭案件、新浪微博訴脈脈不正當競爭案件等,這些案件最終都認定為被告構成不正當競爭。原因正是被告未經原告許可,使用爬蟲技術抓取並且利用從原告網站中獲取的數據牟利。
**第四,**網絡爬蟲的技術風險還包括造成被爬取數據的網站擁堵甚至系統崩潰、對被爬取的數據進行破壞等。隨着數字化技術的發展,數據利用滲透至生活的每一個角落,針對數據的竊取、篡改、破壞、擴散等行為日益增多,並轉化成整體的資訊風險,對數據主體的使用、處分權能造成極大威脅,因而產生了針對數據自身安全的獨立保護需求。
這催生了新的數據法益——數據安全法益,包括數據的保密性、完整性和可用性,旨在保護數據利用的三個面向:數據的“保密性”是指確保數據免受未授權人探知、獲悉、使用;數據“完整性”是指確保數據不被修改或損害;數據“可用性”是指確保權利人能及時、有效地獲取、使用數據。
當前,各國主要通過“身份認證、訪問控制、安全管理審計、平台基線配置等大數據平台安全技術,以及數據防泄漏、業務數據風險管理、結構化和非結構化數據保護等安全制度,確保數據的保密性、完整性、可用性”。數據安全法益彌補了民法對非結構化數據的權利的忽視,並採取預備行為實行化的策略將網絡爬蟲非法獲取數據的行為納入刑法保護範疇,如我國《刑法》第285條第2款規定的非法獲取計算機信息系統數據罪。
如果網絡爬蟲侵入計算機信息系統後,對計算機信息系統進行破壞、對數據進行破壞,或者對計算機信息系統安全措施進行暴力破解,甚至將爬蟲技術濫用為網絡攻擊方式等,都可能構成破壞計算機信息系統罪。
爬蟲規制的法律邊界
當然,網絡爬蟲作為數據資源獲取和利用的重要手段,其技術中立更多的是一種理念,現實生活中的技術通常都是行為的工具,通過技術實施的競爭行為與技術本身的中立性不能簡單畫等號。技術中立有利於技術創新,但技術創新仍有其法律邊界。
無論是私法領域數據確權還是刑法領域數據法益保護,網絡爬蟲抓取數據的正當性、有效性都源於數據主體的授權,這種授權與數據的訪問權限和開放程度密切相關,由此衍生出的技術排他性規則和數據排他性規則構成了網絡爬蟲入罪判斷的兩個維度。
數據的訪問權限是界定網絡爬蟲法律責任的關鍵要素,要求對抓取是否被**“授權”進行規範性解釋。**為了維護數據安全,防止非法抓取,通常要求數據網站主觀上對數據具有保護的意思,客觀上採取一定的安全防控措施。
這些保護措施包括:合約授權,即通過意思表示允許或禁止他人訪問、獲取數據。如Facebook、LinkedIn、eBay、Craigslist等都在其網站中設置爬蟲協議、用户協議、權責聲明、使用條款、服務條件等對網絡爬蟲進行限制。技術措施,即通過設置各種技術性手段來監控、防止數據抓取,如監控網站流量、設置身份驗證措施等。
違反合約授權或突破技術措施意味着對數據權利的侵犯,但合約授權和技術措施所體現的數據保護意願、自治能力及法律實效均不同,所承擔的法律責任也不相同。這構成規制網絡爬蟲的第一個維度,並決定了其民事不法與刑事不法的界限。
**從數據開放程度來説,**數據網站有權決定數據的公開或共享的範圍和程度,除非涉及公共利益或其他強制性要求。顯然,數據的性質決定了網絡爬蟲的正當性和有效性。數據的獨佔性與價值越弱,法益保護需求就越低,網絡爬蟲被認為犯罪的可能性就越小。因此,數據的開放程度成為規制網絡爬蟲的第二個維度,並決定了其抓取數據行為的侵權內容和法益侵害實質。
當網絡爬蟲逐漸成為互聯網生態系統中的一個重要組成部分,數據網站必然向法院尋求抓取、使用數據的法律邊界。這凸顯了數字經濟時代數據經營者對數據資源的重視與爭奪,以及建立在數據流動規律基礎上的數據權利化與數據分享性的理念衝突和法律關切。
但這一問題不可能通過一般性的犯罪評估予以解決,而必須“清晰劃分相關領域的邊界,平衡相應的被保護利益,創立新的均衡機制”。最後,基於數據的流動性、共享性對數據的開放程度及其公共秩序的構建,已經成為當前我國規制網絡爬蟲的基點。