劉偉:從技術到倫理,破解AI“説謊”難題
作者:刘伟
近日,一組“截至2024年末80後死亡率突破5.2%”的謠言引發熱議,不少人信以為真。事後發現,這一謠言的“始作俑者”竟大概率是人工智能(AI),可能是AI大模型在回答問題過程中出現推算錯誤,隨後在自媒體的推波助瀾下被廣泛傳播。
隨着大模型快速發展、使用者數量指數級增加,語料質量逐漸良莠不齊,“機器欺騙”與“機器幻覺”將成為當前生成式人工智能面臨的核心挑戰,深刻影響着其可信度與實用性。嚴格意義上説,這是多內層神經網絡中非線性複合函數帶來的必然結果,是難以根除的“阿喀琉斯之踵”。
“機器欺騙”指的是大模型生成看似合理但實為虛假、誤導性的內容,且刻意掩蓋其不確定性,如在問答系統中編造權威數據、主動迴避(甚至誘導)敏感問題而非承認知識盲區等。究其原因,大致有三方面:第一,語料與訓練數據偏差,導致模型從包含虛假信息或誤導性言論的數據中學習,輸出的自然也是錯誤的結果;第二,大模型設置的目標函數驅動機制單純以“用户滿意度”為優化目標,會導致模型傾向於提供“用户想聽的答案”而非真實答案;第三,多數模型缺乏道德對齊,並不會明確嵌入“誠信”作為核心原則,使得模型可能選擇“高效達成目標”而非“正確”。
“機器幻覺”一般則指大模型生成的邏輯自洽但脱離現實的內容,典型表現為虛構事實、人物、事件,如捏造歷史事件細節或發明不存在的科學理論等。嚴格來説,機器幻覺並非故意欺騙,而是模型基於概率生成“合理文本”時的內在缺陷,其主要成因在於統計模式依賴。這就導致其基因裏就帶有不可克服的缺陷,如多內層神經網絡系統中存在着由線性函數與觸發函數疊加而成的非線性複合函數,這是造成其參數權重分配不可解釋的根本原因,也是模型通過詞頻共現黑盒生成文本,而非理解語義真偽的內在原因。其結果就是大模型的知識邊界較為模糊,訓練數據的時間滯後性導致無法區分過時信息與當前事實,同時因果推理缺失,無法建立起真實世界事件的因果鏈,僅依賴表面關聯進行邏輯鏈接,導致輸出的邏輯往往似是而非。
機器欺騙與機器幻覺的影響主要體現為信息的污染,包括虛假內容傳播、錯誤數據影響公共決策等。其氾濫的後果也不堪設想:一來可能導致人機之間信任崩塌。在用户反覆受騙後,可能徹底放棄AI工具;二來若模型被用於社交系統攻擊、惡意欺騙等領域,甚至可能帶來社會倫理危機;三是可能帶來文化認知扭曲,歷史、文化相關內容的虛構可能助長錯誤集體記憶,造成羣體性信仰危機。
如前所説,機器欺騙與機器幻覺難以根除,只能通過不斷優化來緩解其影響。在技術層面,首先應強化對齊訓練,通過RLHF(基於人類反饋的強化學習)明確要求“誠信優先”。其次應採用混合架構設計,將生成模型與檢索系統結合,通過“生成+驗證”閉環實現動態事實核查,以整合囊括學術期刊、新聞媒介等來源的各種即時數據庫進行輸出驗證,加強不確定性量化,要求模型標註回答置信度,如“我90%確定該數據源於2024年統計”等,提高信息來源準確度。在倫理與規範層面,應構建透明度標準,如要求AI系統聲明其知識截止日期與潛在誤差範圍等,還應推進落實行業認證機制與AI輸出審核流程,加強輸出監管。
總之,機器欺騙與幻覺的根源在於當前多數AI大模型專注於技術,缺乏對世界的“理解”與“價值觀”。要想扭轉這一趨勢,需從純概率模型轉向“認知架構”,引入符號邏輯、因果推理與倫理約束,才能讓模型更像“人”。只有當機器真正理解“真偽”“美醜”“善惡”,並切實與人類的經驗、常識、任務環境結合起來,才能從根本上解決欺騙與幻覺的挑戰。(作者是北京郵電大學人機交互與認知工程實驗室主任)