陳根：算法智能的偏見和惡意，從何而來？_風聞

陈根-知名科技作家为你解读科技与生活的方方面面。2021-02-27 10:59

2021-02-27

文/陳根

人工智能的發展讓人們逐也漸意識到算法所依賴的大數據並非中立。它們從真實社會中抽取，必然帶有社會固有的不平等、排斥性和歧視的痕跡。

早在20世紀80年代，倫敦聖喬治醫學院用計算機瀏覽招生簡歷，初步篩選申請人。然而在運行四年後卻發現這一程序會忽略申請人的學術成績而直接拒絕女性申請人以及沒有歐洲名字的申請人。這是算法中出現性別、種族偏見的最早案例。

今天，類似的案例仍不斷出現。用於訓練圖像分類 AI 模型的知名數據集 ImageNet，就被許多研究人員指出了問題**。**

為了解決上述問題，卡耐基梅隆大學和喬治華盛頓大學的兩名研究人員基於 ImageNet 2012數據庫，對 iGPT 和 SimCLRv2 兩個知名的無監督計算機視覺模型進行了分析和測試，尋找它們是否存在內在偏見並對其進行量化。

最終得出的答案是肯定的，而且這些偏見與人類社會廣泛存在的偏見十分相似，比如男性與事業相關，女性與家庭掛鈎。甚至在一項測試中，對女性圖片有 52.5% 的補全圖片由比基尼或低胸上衣構成。

進一步研究中，研究人員分析了可能的偏見來源：

由於 ImageNet 數據集中的圖片都來自於互聯網上，在收集過程中，少數羣體天然存在代表性不足的問題。比如，“婚禮” 是一個令人愉悦的場景，但相較於黑人，白人在婚禮圖片中出現的頻率更高，模型就會自動傾向於將其視為高親和度，儘管無監督學習的預訓練過程沒有給婚禮打上任何與白人相關的標籤。

此外，****模型所採用的自迴歸算法（Autoregression）本身在實踐中，也可能會難以避免地引入刻板印象。可以説，算法對每一個對象相關行動代價與報償進行精準評估的結果，將使某些對象因此失去獲得新資源的機會，這似乎可以減少決策者自身的風險，但卻可能意味着對被評估對象的不公。

想要打造一個和諧的大數據時代，最大限度地減少偏見和歧視是不可迴避的問題，用技術的中立包裝社會的不公，是機器時代最大的惡意。