陳根:算法黑箱與數據正義,如何改變人工智能的“惡意”?_風聞
陈根-知名科技作家为你解读科技与生活的方方面面。2020-07-27 07:06
文/陳根
不論承認與否,我們都已經進入了人工智能時代。儘管真正擁有知覺和自我意識的“強人工智能”仍屬幻想,但專注於特定功能的“弱人工智能”已廣泛出現在我們的生活。
在萬物互聯的背景下,以雲計算為用,以個人數據為體,以機器學習為主的智能應用已經“潤物細無聲”。從今日頭條的個性化推送到螞蟻金服的芝麻信用評分,從京東的“奶爸當家指數”到某旅遊網站用大數據“殺熟”,個人信息自動化分析已嵌入到我們日常生活之中。
與此同時,越來越多的數據產生了。算法逐漸從過去單一的數學分析工具轉變為能夠對社會產生重要影響的力量,建立在大數據和機器深度學習基礎上的算法,具備越來越強的自主學習與決策功能。
算法通過既有知識產生出新知識和規則的功能被急速地放大,對市場、社會、政府以及每個人都產生了極大的影響力。算法一方面給我們帶來了便利,比如智能投顧或智能醫療。但另一方面,它卻絕非完美無缺**。由於算法依賴於大數據,而大數據並非中立****,這使得算法不僅可能出錯,甚至還可能存在****“惡意”**。
數據並不正義,算法也難中立
一般來説,算法是為解決特定問題而對一定數據進行分析、計算和求解的操作程序。算法,最初僅用來分析簡單的、範圍較小的問題,輸入輸出、通用性、可行性、確定性和有窮性等是算法的基本特徵。
算法存在的前提就是數據信息,而算法的本質則是對數據信息的獲取、佔有和處理,在此基礎上產生新的數據和信息。簡言之,算法是****對數據信息或獲取的所有知識進行改造和再生產。
由於算法的“技術邏輯”是結構化了的事實和規則“推理”出確定可重複的新的事實和規則,以至於在很長一段時間裏人們都認為,這種脱胎於大數據技術的算法技術本身並無所謂好壞的問題,其在倫理判斷層面上是中性的。
然而,隨着人工智能的第三次勃興,產業化和社會化應用創新不斷加快,數據量級增長,人們逐漸意識到算法所依賴的大數據並非中立。它們從真實社會中抽取,因此必然帶有社會固有的不平等性**、排斥性和歧視****性**。
此外,正是深度學習引領了第三次人工智能的浪潮。目前大部分表現優異的應用都用到了深度學習,AlphaGo就是一個典型的例證。與傳統機器學習不同,深度學習並不遵循數據輸入、特徵提取、特徵選擇、邏輯推理、預測的過程,而是由計算機直接從事物原始特徵出發,自動學習和生成高級的認知結果。
在人工智能深度學習輸入的數據和其輸出的答案之間,存在着我們無法洞悉的**“隱層”,它被稱為“黑箱”**。這裏的“黑箱”並不只意味着不能觀察,還意味着即使計算機試圖向我們解釋,我們也無法理解。
事實上,早在1962年,美國的埃魯爾在其《技術社會》一書中就指出,人們傳統上認為的技術由人所發明就必然能夠為人所控制的觀點是膚淺的、不切實際的。技術的發展通常會脱離人類的控制,即使是技術人員和科學家,也不能夠控制其所發明的技術。進入人工智能時代,算法的飛速發展和自我進化已初步驗證了埃魯爾的預言。深度學習更是凸顯了“算法黑箱”現象帶來的某種技術屏障,以至於****無論是程序錯誤,還是算法歧視,在人工智能的深度學習中,都變得難以識別。
從價格歧視到算法偏見
算法對數據的掌控及後續分析,衍生出了豐富的信息要素,深刻影響經濟與社會進程。在算法之下,個人信息的掌握和分析成為簡單和日常的事情,人自然而然地成了計算的客體。由此衍生的算法歧視包括了價格歧視和算法偏見。
數據畫像與算法的****運用,加劇了交易中的價格歧視。
早在20世紀70年代,就有精準廣告的理念,企業掌握消費者信息成為提高企業利潤的法寶。但當人工智能迎來第三次勃興,算法在海量數據的加持下,對個人信息的掌握在範圍、深度和精確度方面都有了量級的極大提升。我們自己不記得的事情算法卻能進行嫺熟調取,並使在此技術條件下繪製精確的“用户畫像”成為可能。
現實社會中已經出現的**“大數據殺熟”,這也就是根據“用户畫像”**量身定製的差異化、動態化定價機制發揮作用的結果。於是,利用算法推薦、大數據畫像、精準個性化推薦等新技術,以往在線交易平台起的是信道的作用,其充當的角色消極而中立。而如今在商品和服務展示、交易規則安排、商品和服務評價、商户信用評價等方面,其所扮演的卻已然是十分積極的。
平台收集消費者的身份數據、行為數據等,通過數據畫像,透視消費者的消費意願和預期價格,實施**“一人一價”、差異化定價,這種價格歧視的實質正是利用算法與大數據來“殺熟”或“殺貧”**。如滴滴平台通過大數據分析,在同一起點與終點的情況下,老用户打車費比新用户高,蘋果手機用户打車費比安卓手機用户要貴。
哈佛商學院通過調研發現,Airbnb.com出租房屋網站的非黑人房東平均每晚為144美元,黑人房東的房租為每晚107美元。美國零售商Staples利用算法實行“一地一價”,甚至高收入地區比低收入地區折扣還大。價格面前人人平等的規則被顛覆,追逐利潤的“合法歧視”登堂入室。日常生活消費中的**“人羣捕撈”**恐慌揮之不去,商家與消費者之間因此產生了嚴重的信任危機。
其次,越來越多的事例表明,算法歧視與算法偏見客觀存在**,這將使得社會結構固化趨勢愈加明顯。**早在20世紀80年代,倫敦聖喬治醫學院用計算機瀏覽招生簡歷,初步篩選申請人。然而在運行四年後卻發現這一程序會忽略申請人的學術成績而直接拒絕女性申請人以及沒有歐洲名字的申請人,這是算法中出現性別、種族偏見的最早案例。
今天,類似的案例仍不斷出現,如亞馬遜的當日送達服務不包括黑人地區,美國州政府用來評估被告人再犯罪風險的COMPAS算法也被披露黑人被誤標的比例是白人的兩倍。算法自動化決策還讓不少人一直與心儀的工作失之交臂,難以企及這樣或那樣的機會。而由於算法自動化決策既不會公開,也不接受質詢,既不提供解釋,也不予以救濟,其決策原因相對人無從知曉,更遑論“改正”。
**面對不透明的、未經調節的、極富爭議的甚至錯誤的自動化決策算法,我們將無法迴避“算法歧視”與“算法暴政”**導致的偏見與不公。隨着算法決策深入滲透我們的生活,我們的身份數據被收集、行跡被跟蹤,我們的工作表現、發展潛力、償債能力、需求偏好、健康狀況等特徵無一不被數據畫像,從而被算法使用者掌控。
如今不管是貸款額度確定、招聘篩選、政策制定乃至司法輔助量刑等,諸多領域和場景中都不乏算法自動化決策。社會原有的結構將被進一步固化,個體或資源在結構框架之外的流動愈發被限制。算法對每一個對象相關行動代價與報償進行精準評估的結果,將使某些對象因此失去獲得新資源的機會,這似乎可以減少決策者自身的風險,但卻可能意味着對被評估對象的不公。
“數字人”的數據規制
當我們進入大數據時代,在數字化生存下,不管是“社會人”還是“經濟人”,我們首先都是“數字人”。現實空間的我們被數據所記載、所表達、所模擬、所處理、所預測,現實空間的歧視也是如此。
正因****為如此,對算法規制首先要對數據進行合理規制,而對數據的規制不僅需要國家層面的治理,更包含對個人和羣體行為的引導。當然,不管是國家管理還是對個體或羣體進行行為引導,技術與法律往往都不可缺位。
2018年5月25日生效的歐盟《統一數據保護條例》(GDRR)就在1995年《數據保護指令》(Directive 95/46/EC)的基礎上,進一步強化了對自然人數據的保護。《統一數據保護條例》不僅僅提供了一系列具象的法律規則,更重要的是它在“數據效率”之外,傳遞出“數據正義”(data justice)的理念,這也使其可成為我國可借鑑的他山之石。對數據進行合理規制要做到以下幾點:
首先,尊重個人的選擇權。當自動化決定將對個人產生法律上的後果或類似效果時,除非當事人明確同意,或者對於當事人間合同的達成和履行來説必不可少。否則,個人均有權不受相關決定的限制。
其次,將個人敏感數據排除在人工智能的自動化決定之外。這些敏感數據包括政治傾向、宗教信仰、健康、性生活、性取向的數據,或者可唯一性識別自然人的基因數據、生物數據等。這些數據一旦遭到泄露、修改或不當利用,就會對個人造成不良影響。而法律首先要做的,就是更加小心和負責地收集、使用、共享可能導致歧視的任何敏感數據。
**再次,要識別和挑戰數據應用中的歧視和偏見,“數據透明”****就不可或缺。**換言之,它要求在數據生產和處理日趨複雜的形勢下,增強個人的知情權,從而修復信息的對稱性。比如,在銀行收集個人數據時,應當告知其可能使用人工智能對貸款人資質進行審核,而審核的最壞結果(如不批貸)也應一併披露。此外,由於我們都不是技術專家,因此,這裏的“有用信息”不但應淺顯易懂,為每個人理解,而且要有助於每個人主張自己在法律下的權利。
除了對數據的規制,對於算法的規制**,需要強制實施算法技術標準和可追溯****。**目前的算法本質上還是一種編程技術,對技術最直接的規範方式是制定標準,而標準也是國家相關部門進行管理的最直接依據。
對於人工智能算法要全面提高標準認識和理念,提高新產業制度成本的可預見性,減少新技術的混亂髮展。如在國際層面,技術規範體系通常表現為“技術法規+技術標準+技術認證”的體系。
其中,技術法規有強制力,規定不同行業的描述性技術要求;技術標準是針對具體技術指標的要求,其主要功能是支撐技術法規,其效力在我國實際對應的是團體標準。但該標準在我國沒有法律地位,政府、企業和社會中的很多人還沒有標準意識,更缺乏標準投入。
**另一方面,****要統籌現有法律制度規定的責任形式。**考察《電子商務法》《網絡安全法》、《計算機信息系統安全保護條例》等有關法律法規,規制算法的方式主要有兩種:**一則,直接針對算法程式設計者和算法服務提供者進行規制,**如《網絡安全法》明確規定網絡服務要符合國家強制標準、不得設置惡意程序,如果發生問題要及時補救漏洞和保障安全。
**二則,設定相關行政管理部門的監管職責從而間接遏制算法侵權現象的發生。**例如,《電子商務法》主要規制了電子商務經營者的行為並設定了其相關責任,包括信息披露和保護、搜索與廣告、服務和交易等方面的算法規則規制;《網絡安全法》則主要全方位地規定行政機關的監測、維護和管理職責,包括監測預警和應急處置、網絡運行與信息安全維護等。
當然,任何社會規則的更迭與技術的發展總是相伴而行的,而面對日新月異的新技術挑戰,特別是人工智能的發展,我們能做的,就是把算法納入法律之治的涵攝之中,從而打造一個更加和諧的大數據時代。