我國推出大型語言模型測試工具可辨識“新加坡式”暴力不雅內容 | 聯合早報

zaobao

2024-06-01

新加坡推出名為“登月計劃”的全球首個大型語言模型測試工具之一，它不僅能在人機對話中識別含有暴力、煽動仇恨等不良的本土化內容，也體現我國在生成式人工智能領域前沿探索未知、拓寬邊界的勇氣和決心。

通訊及新聞部長兼內政部第二部長楊莉明星期五（5月31日）上午在新加坡亞洲科技會展（Asia Tech x SG）的亞洲科技峯會（ATxSummit）活動上致辭時，宣佈新加坡推出“登月計劃”（Project Moonshot）。

楊莉明説，“登月計劃”是世界上首個用於生成式人工智能的開源工具之一。“它是一個最簡可行產品（minimum viable product），顧名思義，‘登月’是一項挑戰自我的計劃。”

她指出，該計劃將我國首個人工智能驗證系統AI Verify的工具，從傳統人工智能擴展到生成式人工智能領域，旨在應對與使用大語言模型相關的安全挑戰。

由資訊通信媒體發展局和人工智能驗證基金會共同研發的新測試工具，能讓企業通過特定的基準測試（benchmarking）來評估其應用的表現，例如大語言模型應用是否能識別本地語言的意涵，以及文化背景下的細微差異。

延伸閲讀

[尚達曼：人工智能科技治理是維持創新強大推動力

](https://www.bdggg.com/2024/zaobao/news_2024_05_30_685461) [英偉達將與我國共創本土AI大語言模型支持11種語言

](https://www.bdggg.com/2023/zaobao/news_2023_12_07_650831) 楊莉明提到，新工具可用於測試人工智能底層模型，以及基於這些底層模型構建的應用。它可以幫助企業與機構更輕鬆地測試並比較結果，從而找出可改善和修復的弱點。

資訊通信媒體發展局商業科技組合副組長鄭鈞元在展示環節指出，新工具能組織名為“紅隊演練”（red teaming）的模擬對抗，即通過專業人士扮演駭客，對大語言模型發送含有不良信息的內容，測試它的回應。

資訊通信媒體發展局商業科技組合副組長鄭鈞元在展示“登月計劃”時指出，這個測試工具能識別並評估可能出現的、具有新加坡本地特色的不雅詞彙等。（白豔琳攝）

鄭鈞元舉例説，這個測試工具能識別並評估可能出現的、具有新加坡本地特色的不雅詞彙等。

當局與新電信、淡馬錫、機器學習平台DataRobot等合作，為這個新測試工具提供使用反饋和建議。

“登月計劃”於公佈當天進入公開測試階段。

在人工智能治理方面，新加坡計劃擴大模範人工智能治理框架，將生成式人工智能納入其中。

楊莉明指出，該框架將延續人工智能治理上注重整個生態系統的特點，並列出決策者應全面考慮的九大方面，包括數據訓練管理、網安襲擊通報等，將一些建議轉化為具體行動。

針對有些企業持保護措施與鼓勵創新相悖的疑慮，她強調，新加坡希望能避免這種零和思維。“良好的治理不是創新的敵人。相反地，良好的治理能夠促進持續創新。”

她提到，我國正在加強開展人工智能測試和評估研究的數碼信任中心（Digital Trust Centre），通過隱私增強技術確保數據安全，並將其重新規劃為新加坡人工智能安全研究所（AI Safety Institute）。

不過，她説，由於現行法律已可解決一些危害，新加坡在近期內沒有出台一項整體涵蓋人工智能的法令的計劃。

她以人工智能生成的虛假新聞為例説：“無論假新聞是如何生產的，只要揭穿它有利於公共利益，法律已允許我們發佈更正通知來提醒人們。”