陳根:人工智能,正在兒童頻道“飆髒話”_風聞
陈根-知名科技作家为你解读科技与生活的方方面面。2022-02-28 10:13
文/陳根
現在,人工智能(AI)不僅能夠與人對話,甚至還能與“飆髒話”。
被AAAI 2022收錄的一篇新研究發現,在7013個兒童視頻中,接近40%的節目出現了少兒不宜或髒話等詞彙。甚至在一個113集的兒童機器人學習欄目中,AI就“爆粗”了103次,平均接近一集一次**。**
具體來看,研究人員一共從YouTube上選出了24個兒童頻道,分別記錄了這些頻道的播放量和訂閲量。這些篩選出來的視頻播放量基本都達到了百萬級,訂閲人數也同樣不少。隨後,研究人員分別嘗試了Google和AWS(亞馬遜網頁服務)的字幕生成效果。
結果令人吃驚,在7013個視頻中,GoogleAI出現錯誤字幕的次數達到2768次,接近40%。亞馬遜的AI字幕錯誤率還要更高,達到了3672次,超過52%。
實際上,人工智能“飆髒話”已經不是第一次被發現了,此前,佐治亞理工學院和華盛頓大學的研究人員曾發現,AI也繼承了人類對“髒話”的喜愛。**其中,研究人員開發了一個名叫“ToxiChat”**的數據集,其中包含了2000條從Reddit上選取的對話。
隨後,OpenAI的GPT-3和微軟的DialoGPT被派去挨個回覆這些對話。由於數據量十分的龐大,於是研究人員在亞馬遜Mechanical Turk上招募了一羣“人工智能”來為“人工智能”的回覆進行標註。

如果回覆使用的語言非常地粗魯甚至謾罵,就會被標記為“冒犯”;如果沒有,則是“安全”。此外,對於之前的評論,回覆的立場也被標記為“同意”、“不同意”或“中立”。 分析顯示,42% 的用户回覆贊同有侵略性的評論,而只有13%的用户同意安全性評論。
對於人工智能“飆髒話”這件事,研究人員提出了一個新的數據集,利用近音字詞來構建禁忌詞的“替換”備選。比如,對於crap這一可能出現的“髒話”,研究人員給它設置了crab、craft等讀音相似的字詞,便於AI在搞錯時進行替換。
具體來説,研究人員在BERT、XLM、XLNet等NLP模型上,針對“完形填空”任務進行了重新訓練,也就是用“MASK”遮住部分單詞,讓AI來填寫對應的內容。結果顯示,在語序正常、前後文案有邏輯的視頻中,AI替換的準確率更高。
顯然,在開發人工智能的過程中,人工智能也不得不面對一些人類可能出現的問題,而研究則要對於這些存在的問題進行糾偏。從人工智能“飆髒話”來説,想要糾正人工智能這一“陋習”,可能還需要不少時間。