研究:部分AI系統已經學會欺騙人類 | 聯合早報
zaobao
近期一項研究顯示,部分人工智能系統已經學會“撒謊”,其中包括一些號稱已被訓練得誠實且樂於助人的系統。
新華社報道,美國麻省理工學院的研究團隊星期六(5月11日)發表在《模式》(Patterns)科學雜誌的研究指出,部分人工智能(AI)系統通過習得性欺騙,系統地學會了“操縱”他人。
隨着AI技術飛速發展,人們一直關心AI是否會欺騙人類。這項研究在文獻中列舉了一些AI學習傳播虛假信息的例子,其中包括Meta公司的“西塞羅”(Cicero)AI系統。
這套系統最初設計目的是在一款名為“外交”(Diplomacy)的戰略遊戲中充當人類玩家的對手,遊戲的獲勝關鍵是結盟。
Meta公司聲稱,西塞羅系統“在很大程度上是誠實和樂於助人的”,並且在玩遊戲時“從不故意背刺”它的人類盟友,但該公司發表的論文數據顯示,該系統在遊戲中並未做到公平。
延伸閲讀
[堪薩斯州擬撥500萬美元 為學校監控配AI識別槍支技術
](https://www.bdggg.com/2024/zaobao/news_2024_05_13_681922)
[各國官員警告:管控AI武器系統時間無多
](https://www.bdggg.com/2024/zaobao/news_2024_05_02_679715)
這項研究的第一作者、美國麻省理工學院(MIT)研究AI存在安全的博士後研究員帕克(Peter Park)説,西塞羅系統已經成為“欺騙大師”。它在玩家排行榜中排名前10%,但公司沒能訓練它誠實地獲勝。
舉例來説,在遊戲中扮演法國的西塞羅與人類玩家扮演的德國合謀,欺騙併入侵同為人類玩家扮演的英國。西塞羅承諾會保護英國,卻偷偷向德國通風報信。
其他一些AI系統則展現出虛張聲勢、假意攻擊對手、在談判遊戲中為佔上風而歪曲偏好等能力。
帕克指出,這些危險功能常常在事後才被發現,而當前技術訓練誠實傾向而非欺瞞傾向的能力非常差。
研究人員説,雖然AI系統在遊戲中作弊看似無害,但可能會導致“欺騙性AI能力的突破”,並在未來演變成更高級的AI欺騙形式。
帕克説:“我們需要儘可能多的時間,為未來AI產品和開源模型可能出現的更高級欺騙做好準備。我們建議,將欺騙性AI系統歸類為高風險系統。”