陳根:數據偏頗下,算法之惡意_風聞
陈根-知名科技作家为你解读科技与生活的方方面面。2021-08-30 09:45
文/陳根
在萬物互聯的背景下,以雲計算為用,以個人數據為體,以機器學習為主的智能應用已經“潤物細無聲”。從今日頭條的個性化推送到螞蟻金服的芝麻信用評分,從京東的“奶爸當家指數”到某旅遊網站用大數據“殺熟”,個人信息自動化分析深嵌入到我們日常生活之中。
與此同時,越來越多的數據產生,算法逐漸從過去單一的數學分析工具轉變為能夠對社會產生重要影響的力量,建立在大數據和機器深度學習基礎上的算法,具備越來越強的自主學習與決策功能。
算法通過既有知識產生出新知識和規則的功能被急速地放大,對市場、社會、政府以及每個人都產生了極大的影響力。算法一方面給我們帶來了便利,比如智能投顧或智能醫療,但另一方面,卻絕非完美無缺,由於算法依賴於大數據,而大數據並非中立,這使得算法不僅可能出錯,甚至還可能存在“惡意”。
一般來説,算法是為解決特定問題而對一定數據進行分析、計算和求解的操作程序。算法,最初僅用來分析簡單的、範圍較小的問題,輸入輸出、通用性、可行性、確定性和有窮性等是算法的基本特徵。

算法存在的前提就是數據信息,而算法的本質則是對數據信息的獲取、佔有和處理,在此基礎上產生新的數據和信息。簡言之,算法是對數據信息或獲取的所有知識進行改造和再生產。
由於算法的“技術邏輯”是結構化了的事實和規則“推理”出確定可重複的新的事實和規則,以至於在很長一段時間裏人們都認為,這種脱胎於大數據技術的算法技術本身並無所謂好壞的問題,其在倫理判斷層面上是中性的。
**然而,隨着人工智能的第三次勃興,產業化和社會化應用創新不斷加快,數據量級增長,人們逐漸意識到算法所依賴的大數據並非中立。**它們從真實社會中抽取,必然帶有社會固有的不平等、排斥性和歧視的痕跡。
此外,正是深度學習引領了第三次人工智能的浪潮,目前大部分表現優異的應用都用到了深度學習,AlphaGo就是一個典型的例證。與傳統機器學習不同,深度學習並不遵循數據輸入、特徵提取、特徵選擇、邏輯推理、預測的過程,而是由計算機直接從事物原始特徵出發,自動學習和生成高級的認知結果。
在人工智能深度學習輸入的數據和其輸出的答案之間,存在着人們無法洞悉的“隱層”,它被稱為“黑箱”。這裏的“黑箱”並不只意味着不能觀察,還意味着即使計算機試圖向我們解釋,人們也無法理解。
事實上,早在1962年,美國的埃魯爾在其《技術社會》一書中就指出,人們傳統上認為的技術由人所發明就必然能夠為人所控制的觀點是膚淺的、不切實際的。技術的發展通常會脱離人類的控制,即使是技術人員和科學家,也不能夠控制其所發明的技術。
進入人工智能時代,算法的飛速發展和自我進化已初步驗證了埃魯爾的預言,深度學習更是凸顯了“算法黑箱”現象帶來的某種技術屏障。以至於無論是程序錯誤,還是算法歧視,在人工智能的深度學習中,都變得難以識別。