我國發布大語言模型測試工具檢測含暴力等不良生成內容 | 聯合早報

zaobao

2024-05-31

新加坡推出全球首個大型語言模型測試工具之一，能夠檢測到含有暴力、煽動仇恨等不良生成內容，從而幫助正在開發相關模型和應用的公司進行發佈前的內測與調整。

通訊及新聞部長兼內政部第二部長楊莉明星期五（5月31日）上午在新加坡亞洲科技會展（Asia Tech x SG）的亞洲科技峯會（ATxSummit）活動上致辭時宣佈，新加坡推出“登月計劃”（Project Moonshot），全球首個大語言模型測試工具之一。

楊莉明説，該計劃將我國個人工智能驗證系統AI Verify的工具從傳統人工智能擴展到生成式人工智能領域，旨在應對與使用大語言模型相關的安全挑戰，

她指出，登月計劃是世界上首個用於生成式人工智能的開源工具之一，它將基準測試（benchmarking）、紅隊演練（red teaming）和測試基線（testing baselines）等網安測試技術整合到同一個通用平台。

她提到，新工具可以用於測試基礎人工智能模型和相關應用。它可以幫助正在構建人工智能的機構更輕鬆地進行測試，並比較結果，從而找出可改善和修復的弱點。

延伸閲讀

[黃循財：各國應在資料保護標準上尋求共識　

](https://www.bdggg.com/2023/zaobao/news_2023_06_07_611978) [尚達曼：人工智能科技治理是維持創新強大推動力

](https://www.bdggg.com/2024/zaobao/news_2024_05_30_685461) 資訊通信媒體發展局商業科技組合副組長鄭鈞元指出，當局與新電信、淡馬錫、機器學習平台DataRobot等合作，為這個新測試工具提供使用反饋和建議。

“登月計劃”於公佈當天進入公開測試階段。

鄭鈞元在展示環節以紅隊演練為例解釋説，新測試工具涵蓋人工智能模型的功能與風險兩個維度，通過專業人士扮演駭客，對大語言模型發送含有不良信息的內容，測試它的回應。

在人工智能治理方面，新加坡也計劃擴大模範人工智能治理框架，將生成式人工智能納入其中。

楊莉明也指出，該框架將延續人工智能治理上注重整個生態系統的特點，並列出決策者應全面考慮的九大方面，包括數據訓練管理、網安襲擊通報等，將一些建議轉化為具體行動。

她強調：“良好的治理不是創新的敵人。相反，良好的治理能夠促進持續創新。”