挑食、種族歧視、冤假錯案,“AI人臉識別”並非萬金油_風聞
科工力量-观察者网原创视频栏目-欢迎关注“科工力量”微博、微信公众号2021-05-06 16:21
大家好,我是觀察者網《科工力量》欄目主播,冬曉。人臉識別,作為AI領域最為廣泛的應用,已經深入到我們的日常生活中。手機解鎖、打卡上班,大家時不時的就得找AI刷個臉。使用AI技術對茫茫人海中的特定個人,進行精準識別,也成了公共安全領域的特殊法寶。諷刺的是,AI人臉識別並不像普通民眾想得那麼省心,甚至還差點釀成了冤假錯案。本來讓人省心的人臉識別,為什麼這麼鬧心呢?
在大多數人的印象中,人臉識別技術流行起來也就是最近十年的事情。不過,它的歷史,可比這十年長得多。上個世紀60年代,來自美國的計算機專家,就開始嘗試用電磁脈衝測量人臉特徵。並將這些特徵轉化成數據,錄入電腦系統。可這些黑科技卻沒能轉化成商業產品,為什麼呢?因為這項技術是CIA贊助的,服務內容基本保密。除此之外,當時的系統運行速度慢,電腦實在不給力。這項技術就低調發育了幾十年。
雖然發展低調,但是人臉技術的核心環節得到了傳承,這就是人臉數據點。早期的人臉識別技術流程,就是錄入特徵數據後,對照已知圖片的數據點。後來的人臉識別技術,核心目標就是補充更多的數據點,從70年代的21個特徵點,增加到80年代的100多個。量變必然引發質變。人臉識別下一步該怎麼走?那就要結合算法,成千上萬張臉來回看。這就跟AI搭上了線。
上世紀90年代,我們節目的老常客,黑科技創造者美國國防高級研究計劃局,拉上美國國家標準技術研究院 ,兩家機構一起搞了個FERET項目,目的是研發人臉識別算法和數據庫。人臉識別逐步走向了自動化。再到後來,各路技術巨頭研究深度學習和神經網絡,AI和算法自己發展出一套邏輯,能夠主動進行人臉識別。
這些企業是怎麼發展自己的人臉識別技術的呢?一方面靠技術推廣,另一方面靠人海戰術。技術推廣這一塊,谷歌和蘋果做的比較主動,安卓系統在智能手機發展前期,就進行人臉識別的實驗。最後做出了Trusted Face這種安全功能。蘋果不甘示弱,自家終端推出了Face ID功能,讓手機用户的臉,能夠直接變成賬號。至於人海戰術嘛,就得問問機器人扎克伯格和他的Facebook了,他們的平台圖片一天就達到上百萬,龐大的基礎數據支持下,就算喂也把AI喂出來了。
AI技術加持後的人臉識別,發展的成功嗎?相當成功。根據NIST在2019年的報告原話,他們認為“人臉識別的準確性有了顯著提高,這很大程度上是得益於卷積神經網絡的出現”。通俗來説,現在的算法和AI模型,可以通過户外拍攝的照片,與數據庫的正面人像進行對比。而十年前的人臉識別,還只能用正臉圖片相互對照。
AI人臉識別,技術實力很強。可是技術先進不能當飯吃,現實生活中的AI識別,要求的是一對一的精準匹配。可技術實際應用,卻經常打自己的臉。2019年,家住底特律的Robert Williams莫名其妙地被警察指控盜竊,在家人面前被抓了起來。
可是,他在案發時間,有着充足的不在場證明。一頭霧水的他,交完保釋金後,問警察抓自己的原因,結果警察理直氣壯的表示,“電腦説你是,你就是”。這電腦分析,怎麼跟現實情況衝突了呢?調取監控攝像才明白。監控現場的圖像,比轉發變綠的表情包還模糊。而且小偷全程沒有抬頭看監控,警方用稀裏糊塗的AI判定,去抓人,自然沒有好結果。
如果這個案例還不算離譜的話,那新澤西州的Nijeer Parks的經歷才是真正的魔幻:警方依靠人臉識別,指控他偷酒店的糖果,還駕車逃逸,直接給他關了10天。然而,他根本不會開車,連駕照都沒有。去警局還是聽自己奶奶的話,讓表哥開車送過去的。搞笑的是,當地警方還一直用AI識別技術向他施壓,鬧出烏龍之後表示,自己只有AI識別作為證據。
AI技術識別失誤,是AI在搞種族歧視嗎?當然不是。AI如果要做人臉識別的話,得用現場留下的照片,對照數據庫的照片。數據庫的照片,可以做到高清無碼不帶水印,可是現場照片做得到嗎?肯定做不到啊。監控攝像頭受限於使用條件,往往壓縮視頻圖像。很多面部特徵就被抹除了。
比如説人臉上的一個痦子,放到圖片中,可能就只是一個小像素點。然而就是這麼一個像素點,最後很可能導致警察抓錯了人。這就是AI人臉識別面臨的一個重大問題:大量的數據訓練,並不代表AI就能適應複雜的現實環境。
從技術上來説,AI沒有搞種族歧視。然而從技術應用上來説,AI確實是在搞種族歧視。前面提到一點,光是一個像素點,就可能導致警察抓錯人。現實生活中,AI需要大量的數據,可是少數族裔人羣樣本少,沒法提供大量的數據。這就導致AI對這些羣體的誤判,大幅增加。
根據前谷歌AI倫理科學家Timnit Gebru在2018年的論文,人臉識別針對黑人、女性的錯誤率高達 21%~35%,而針對白人、男性的錯誤率則低於 1%。你説你是亞裔?那你也別樂啊。你的誤判概率也是白人的10倍。而且這些數據的來源,基本都是現實生活中AI實際應用的誤判案例,幾乎不存在選擇數據的空間。本來服務社會的AI,最後搞成了技術壓迫。未免也太諷刺了點。
AI人臉識別為什麼會這麼鬧心呢?首先,要從AI識別的運行模式分析。AI的應用,主要還是依靠對大量案例特徵的總結歸納,不管是機器學習、深度學習,還是神經網絡。都離不開這個模式。這就導致了一個嚴重的問題:AI對某些數據和特徵的分析,純粹靠數量堆積。如果某些特殊情況的數據不夠,AI對這些數據的識別分析,誤差就會很大。
AI技術面臨的羣體,不可能每次都是大多數,總會有一些特殊的情況。如果訓練的數據,比例不夠均衡,挑食的AI就會給出有偏向性的結果。培訓AI模型的時候,AI就像一個孩子,如果孩子的飲食天天大魚大肉,那麼孩子大概率就 會挑食。AI並沒有主動挑起社會問題,但它卻把社會問題放大了。
除此之外,機器學習的思維,跟傳統的人類學習思維,是不一樣的。這就導致了我們不能按照人類的常規認知思路,去歸納機器學習的問題。來自澳大利亞的一篇醫學論文就指出,如果把大量特徵接近的X光片,扔給AI學習,識別病例。AI在長時間對照分析之後,並不會選擇按照疾病特徵,選出可疑患者,而是按照X光片是否特殊,選擇患者。完全不按照醫學邏輯分析影像,卻靠複製粘貼的模式“作弊”,反而漏掉了幾張與常規圖像接近的病變X光片。AI的思維模式,我們難以研究,但讓AI達到人的判斷標準,這個問題確實迫在眉睫。
作為一項便利、賺錢的技術,AI人臉識別已經成了AI商業化的萬金油。可是,在這個技術頻頻出錯的背後,人們才猛然發現,這項百試百靈的技術,沒有他們預期的那麼靠譜。AI人臉識別依賴大量的社會數據高速發展,這些數據背後的社會問題,又讓AI識別吃了不少的虧。AI還在發展,留給我們的時間還很多。但在人類摸清AI的運行模式之前,AI怎麼用這件事,估計還得商量着來。
今天這期,我們聊了聊AI的人臉識別,其實在上海的這邊,有些小區都已經開始推行了,進出確實方便很多,但是有個問題,我並不是小區的常住居民,房子是租的。換了小區之後,我原本錄入物業的人臉數據,是否會被刪除呢?有人就問了,這些數據應該是保存在政府機構的,但問題是,換了物業之後,那為什麼又要錄一次呢?所以,在技術便利生活的同時,保障個人隱私也是刻不容緩的問題。