研究：部分AI系統已經學會欺騙人類 | 聯合早報

zaobao

2024-05-13

近期一項研究顯示，部分人工智能系統已經學會“撒謊”，其中包括一些號稱已被訓練得誠實且樂於助人的系統。

新華社報道，美國麻省理工學院的研究團隊星期六（5月11日）發表在《模式》（Patterns）科學雜誌的研究指出，部分人工智能（AI）系統通過習得性欺騙，系統地學會了“操縱”他人。

隨着AI技術飛速發展，人們一直關心AI是否會欺騙人類。這項研究在文獻中列舉了一些AI學習傳播虛假信息的例子，其中包括Meta公司的“西塞羅”（Cicero）AI系統。

這套系統最初設計目的是在一款名為“外交”（Diplomacy）的戰略遊戲中充當人類玩家的對手，遊戲的獲勝關鍵是結盟。

Meta公司聲稱，西塞羅系統“在很大程度上是誠實和樂於助人的”，並且在玩遊戲時“從不故意背刺”它的人類盟友，但該公司發表的論文數據顯示，該系統在遊戲中並未做到公平。

延伸閲讀

[堪薩斯州擬撥500萬美元為學校監控配AI識別槍支技術

](https://www.bdggg.com/2024/zaobao/news_2024_05_13_681922) [各國官員警告：管控AI武器系統時間無多

](https://www.bdggg.com/2024/zaobao/news_2024_05_02_679715) 這項研究的第一作者、美國麻省理工學院（MIT）研究AI存在安全的博士後研究員帕克（Peter Park）説，西塞羅系統已經成為“欺騙大師”。它在玩家排行榜中排名前10%，但公司沒能訓練它誠實地獲勝。

舉例來説，在遊戲中扮演法國的西塞羅與人類玩家扮演的德國合謀，欺騙併入侵同為人類玩家扮演的英國。西塞羅承諾會保護英國，卻偷偷向德國通風報信。

其他一些AI系統則展現出虛張聲勢、假意攻擊對手、在談判遊戲中為佔上風而歪曲偏好等能力。

帕克指出，這些危險功能常常在事後才被發現，而當前技術訓練誠實傾向而非欺瞞傾向的能力非常差。

研究人員説，雖然AI系統在遊戲中作弊看似無害，但可能會導致“欺騙性AI能力的突破”，並在未來演變成更高級的AI欺騙形式。

帕克説：“我們需要儘可能多的時間，為未來AI產品和開源模型可能出現的更高級欺騙做好準備。我們建議，將欺騙性AI系統歸類為高風險系統。”