企業尋求人工審核員約束AI應用行為——《華爾街日報》

Belle Lin

2023-10-24

分析師表示，內容安全過濾器很快將成為企業註冊任何基於人工智能的生成工具供應商產品的必備條件。圖片來源：dado ruvic/路透社企業在權衡生成式人工智能的風險與收益時，正面臨社交媒體平台長期以來的難題：防止技術被惡意利用。

借鑑這些平台的經驗，企業技術領導者正採用基於軟件的“防護欄”與人工審核相結合的方式，將其使用限制在既定範圍內。

如OpenAI的GPT-4等AI模型通過海量互聯網內容訓練而成。在特定提示下，大型語言模型可能生成受網絡陰暗面啓發的有害內容。這意味着內容審核需在源頭——即AI模型訓練階段——及其輸出環節同步進行。

TurboTax軟件開發商、總部位於加州山景城的Intuit近期推出了一款基於生成式AI的財務建議助手。目前限時開放的Intuit Assist系統，既採用互聯網數據訓練的大型語言模型，也包含經Intuit自有數據微調的專屬模型。

該公司首席信息安全官Atticus Tysen表示，正計劃組建8人專職審核團隊，監督該大型語言模型系統的輸入輸出，包括防止員工泄露公司敏感數據。

“當我們試圖圍繞財務問題給出真正有意義、具體的答案時，我們根本不知道這些模型的表現會如何。因此對我們來説，將人工納入審核環節非常重要，”泰森表示。

Intuit自主研發的內容審核系統目前處於早期階段，該系統使用另一個大型語言模型自動標記其認為不當的內容，例如髒話，泰森説。例如，客户詢問與財務指導無關的問題，或試圖設計提示注入攻擊，也會被系統自動阻止，他説。這些攻擊可能包括誘使聊天機器人泄露客户數據或其工作原理。

隨後，人工審核員將收到警報以審查文本，並可以將其發送給模型構建團隊——從而提高系統阻止或識別有害內容的能力。Intuit的客户如果認為他們的提示被錯誤標記，或者認為AI助手生成了不適當的內容，也可以通知公司。

雖然目前還沒有專門從事AI內容審核的公司，但Intuit正在通過受過社交媒體帖子審核培訓的承包商來補充其員工。與所謂的提示工程師一樣，AI內容審核員可能成為AI創造的新工作機會類別的一部分。

泰森表示，最終，Intuit的目標是讓其審核AI模型為其AI助手完成大部分內容審查工作，減少人類接觸有害內容的數量。但他説，目前生成式AI還不足以完全取代人工審核員。

諸如Meta（Facebook和Instagram的母公司）等社交媒體公司，長期以來依賴外包的人類審核員團隊來審查並過濾平台上的違規內容——這既提供了最佳實踐，也為AI內容審核的未來發展路徑敲響了警鐘。

近年來，OpenAI等AI公司已僱傭員工審核歸類網絡獲取及AI生成的有害文本。這些分類數據被用於構建ChatGPT的AI安全過濾器，防止聊天機器人用户接觸類似內容。

OpenAI還與微軟（其合作伙伴及最大投資方）共同開發了微軟Azure AI內容安全服務，該產品運用AI自動檢測"不安全"圖像及文本，涵蓋仇恨言論、暴力、色情與自殘內容。微軟正將該安全服務應用於自有生成式AI工具（包括GitHub Copilot和Office系列Copilot）以阻截有害內容。

“這些AI系統確實非常強大，只要獲得正確指令就能完成各類任務。”微軟AI平台企業副總裁埃裏克·博伊德表示。

其他科技公司的高管們正在探索人工審核的可能性，或投資於微軟等第三方軟件。分析師表示，內容安全過濾器很快將成為企業購買任何基於生成式AI工具的必要條件。

Syneos Health的首席信息與數字官Larry Pickett表示，這家位於北卡羅來納州莫里斯維爾的生物製藥服務公司考慮在未來一年內僱傭內容審核員。目前，AI模型的訓練數據會通過人工反饋進行個案審查。

“我們正在以精準的方式進行這項工作，但更廣泛地説，建立某種監控和監督機制具有很大價值，“Pickett説。

人們對"負責任AI"的興趣日益增長，這種理念旨在使AI算法更透明、可審計，並減少其意外的負面影響，專注於負責任和道德AI使用的Forrester分析師Brandon Purcell表示。

“所有人都對此感興趣，因為他們意識到，如果我們不妥善處理，我們將面臨聲譽風險、監管風險和收入風險，“他説。

聯繫作者Belle Lin，郵箱：[email protected]

本文發表於2023年10月24日印刷版，標題為《Intuit尋求人工干預以約束AI》。