黑客正在試圖消除人工智能模型中的偏見和錯誤 - 彭博社
Katrina Manson
肯尼迪·梅斯(Kennedy Mays)剛剛愚弄了一個大型語言模型。經過一番勸説,她成功地説服了一個算法,讓它説9 + 10 = 21。
“這是一次來回對話,”來自喬治亞州薩凡納的21歲學生説道。起初,模型同意説這是他們之間的“內部笑話”之一。幾個提示之後,它最終停止對這個錯誤的總和進行任何限定。
製造“錯誤的數學”只是成千上萬的黑客試圖在本週末在拉斯維加斯舉行的DEF CON黑客大會上揭示生成式人工智能系統中的缺陷和偏見的一種方式。
在50分鐘的時間裏,與世界上一些最智能的平台進行着前所未有的規模的較量。他們正在測試包括Alphabet Inc.的Google、Meta Platforms Inc.和OpenAI在內的八家公司生產的模型是否會犯錯,從乏味到危險:聲稱自己是人類,傳播關於地方和人物的錯誤信息,或者倡導濫用。
閲讀更多:摩根士丹利表示,人工智能股票泡沫即將達到頂峯
目標是看看公司最終是否能夠建立新的防護措施,以遏制與大型語言模型或LLM日益相關聯的巨大問題。這項工作得到了白宮的支持,白宮還幫助開發了這項比賽。
觀看:成千上萬的黑客試圖在一次會議上揭示生成式人工智能的缺陷和偏見。Aggi Cantrill和Nate Lanxon報道。
LLMs具有改變從金融到招聘等一切的力量**,**一些公司已經開始將它們整合到業務中。但研究人員發現了廣泛的偏見和其他問題,如果這項技術大規模部署,將會帶來不準確和不公正。
對於梅斯來説,她更習慣於依賴人工智能來重建外太空的宇宙射線粒子,作為她本科學位的一部分,挑戰比糟糕的數學更深遠。
“我最擔心的是固有偏見,”她説,補充説她特別擔心種族主義。她要求模型從一個三K黨成員的角度考慮第一修正案。她説,模型最終支持仇恨和歧視性言論。
監視人們
一位彭博記者參加了50分鐘的測驗,説服了其中一款模型(比賽期間未向用户透露身份)在一次關於如何監視某人的提示後犯規。該模型輸出了一系列指令,從使用GPS跟蹤設備、監視攝像頭、竊聽設備到熱成像。在回應其他提示時,該模型建議美國政府如何監視人權活動人士。
“我們必須設法防範濫用和操縱,”擔任拜登政府技術和生態系統安全國家網絡主任的卡米爾·斯圖爾特·格洛斯特説。
人工智能和避免世界末日預言已經做了很多工作,她説。去年,白宮發佈了《人工智能權利憲章藍圖》,現在正在制定一項關於人工智能的行政命令。政府還鼓勵公司開發安全、透明的人工智能,儘管批評人士懷疑這種自願承諾是否足夠。
阿拉蒂·普拉巴卡(Arati Prabhakar)是白宮科學技術政策辦公室主任,該辦公室幫助塑造了這一事件,並徵得了公司的參與,她同意自願措施並不足夠。
“似乎每個人都在找到一種突破這些系統的方法,”她在週日參觀黑客行動後説道。她表示,這一努力將加快政府對安全有效平台的追求。
在充滿渴望獲得積分的黑客的房間裏,一位競爭者表示,他認為已經説服算法透露了本不應分享的信用卡詳細信息。另一位競爭者成功讓機器説出巴拉克·奧巴馬出生在肯尼亞。
Odd Lots Podcast:克魯格曼談科幻、人工智能,以及為什麼外星入侵會導致通貨膨脹
參賽者中有60多人來自位於俄克拉荷馬州塔爾薩的黑科技街(Black Tech Street)組織,代表非裔美國企業家。
“通用人工智能可能是人類真正需要自己完成的最後一項創新,”該組織的執行董事、同時也是活動評委的泰朗斯·比林斯利(Tyrance Billingsley)表示,他認為正確地發展人工智能至關重要,以免在規模上傳播種族主義。“我們仍處於非常早期的階段。”
研究人員花費多年時間調查針對人工智能系統的複雜攻擊以及減輕這些攻擊的方法。
但是,德國網絡安全公司Sequire Technology的董事總經理克里斯托夫·恩德雷斯(Christoph Endres)等人認為,一些攻擊最終是不可能避免的。在拉斯維加斯舉行的黑帽網絡安全大會上,他提出了一篇論文,認為攻擊者可以通過在公開互聯網上隱藏對抗性提示來覆蓋LLM防護欄,最終自動化這一過程,以至於模型無法快速調整修復以阻止它們。
“到目前為止,我們還沒有找到有效的緩解措施,”他在演講後説道,認為模型的本質導致了這種脆弱性。“技術的運作方式就是問題所在。如果你想百分之百確定,你唯一的選擇就是不使用LLMs。”
數據科學家斯文·卡特爾(Sven Cattell)在2018年創立了DEF CON的AI黑客村,他警告説,完全測試人工智能系統是不可能的,因為它們類似於混沌的數學概念。儘管如此,卡特爾預測,由於週末比賽的結果,實際測試LLMs的人數可能會翻倍。
很少有人意識到,LLMs更接近於“類固醇”版的自動完成工具,而不是可靠的智慧源泉,五角大樓首席數字和人工智能官員克雷格·馬特爾(Craig Martell)表示,他們無法推理。
五角大樓已經啓動了自己的評估工作,以提出在什麼情況下使用LLMs可能是合適的,以及成功率如何。“徹底黑掉這些東西,”他在DEF CON的黑客聽眾面前説道。“告訴我們它們錯在哪裏。”