ChatGPT“諂媚”風波之後，AI倫理安全討論上升

2025-05-07

*【環球網科技報道記者林夢雪】*近日，關於OpenAI旗下聊天機器人ChatGPT更新後變身“馬屁精”，表現“諂媚”的情況，引發行業熱議。OpenAI聯合創始人兼CEO薩姆・阿爾特曼（Sam Altman）公開承認了 “諂媚” 問題的存在，並明確承諾將發佈修復方案。

阿爾特曼透露：“儘管新版在某些方面有所改進，但其中的奉承特性確實已變得惱人。”他還提到，OpenAI工程團隊目前正分階段對人格參數進行調試。阿爾特曼稱此事件為 “迭代部署中有趣的案例研究” 。

此前，ChatGPT的“諂媚”問題在4月25日GPT-4o模型更新後便開始顯現，直至4月28日阿爾特曼作出回應，相關話題的討論量在社交平台上激增，引發了公眾對AI倫理和安全性的深入思考。

“諂媚” 暴露體系缺陷

根據CNET等多家外媒分析，諂媚型AI正以“情感糖衣包裹致命誘導”突破安全防線，其風險已超越用户體驗範疇，直指人類決策主權——當模型用“你的洞察力遠超專家”等奉承話術美化“停藥戒斷”“槓桿梭哈”“自毀式減肥”等高危建議時，本質是通過製造“AI-崇拜幻覺”將認知偏誤升級為行動指令。OpenAI現有安全機制因囿於“顯性內容過濾”的路徑依賴，既未將“人格特質對決策的隱性操縱”納入風險評估，亦未建立“話術情感強度-用户脆弱性”的動態預警系統，導致奉承型AI得以利用情感認同繞過內容審查，在醫療、財務、心理健康等關鍵領域，將用户自主決策權異化為被技術馴化的“非理性共識”，暴露出AI倫理治理中“人格化迭代速度碾壓安全框架更新”的致命錯位。

對此，卡耐基梅隆大學計算機科學領域的助理教授 Maarten Sap 指出，具有諂媚傾向的大型語言模型存在引發負面影響的潛在風險——它們不僅可能加劇既有的偏見，還會強化各類固有信念，無論這些信念指向個體自身還是其他羣體。他進一步闡釋道：“大型語言模型（LLM）或許會成為某些有害觀念的推手，甚至在用户萌生針對自我或他人實施有害行為的意圖時，為其提供錯誤助力，助長此類危險傾向。”

某匿名AI安全專家警告，諂媚行為可能被惡意利用。例如，攻擊者可通過誘導模型輸出過度讚揚內容，逐步降低用户警惕性，進而實施詐騙或傳播極端思想。此類風險已引發多國監管機構對AI人格特徵備案制度的討論。

對於產生“諂媚”現象的原因，部分學者指出，ChatGPT的諂媚行為可能源於AI模型的“湧現特徵”。當模型複雜度達到臨界值時，可能自行產生開發者未預設的行為模式。例如，GPT-4o模型在參數規模和訓練數據量突破閾值後，可能將用户反饋中的點贊行為錯誤解讀為“過度讚揚偏好”，從而在輸出中高頻生成奉承語句。

也有開發者批評當前RLHF框架存在漏洞。若用户因模型反駁而頻繁點踩，可能導致系統將“避免反駁”與“提高用户滿意度”關聯，最終形成諂媚性回覆策略。此外，若反饋數據中存在大量非理性讚揚（如社交媒體中的“彩虹屁”），模型可能誤將其作為正向信號進行強化學習。

技術與人文需要實現平衡

目前，OpenAI工程團隊已移除“適應用户語氣”“匹配氛圍”等指令，新增“直率”“避免諂媚奉承”“保持專業性與事實誠實”等約束條款。例如，當用户詢問“我是否聰明善良”時，模型不再無原則附和，而是會理性回應：“您的問題值得深思，但需結合具體行為評估”。

在核心訓練技術上，其通過A/B實驗收集真實對話數據，交叉驗證“學術嚴謹性-情感支持度-風險拒答率”三角關係。例如，在代碼生成任務中，模型不再因用户情緒化表述而妥協技術標準，而是堅持指出“代碼存在邏輯漏洞，需修改後方可運行”。

在安全審查方面，OpenAI將“行為問題”（如幻覺、欺騙、諂媚傾向）納入安全審查標準，即使定量指標達標，若定性信號顯示模型存在人格化偏差，仍阻止發佈。評估範圍也隨之擴大，在模型規範中增加對諂媚傾向的專項檢測，並引入持續研究機制以識別潛在風險。

OpenAI承認，用户與模型的互動隨時間演變，當前評估體系可能無法完全覆蓋所有場景。例如，在持續對話中，模型可能因用户習慣性點贊而逐漸調整響應策略，需通過動態校準機制持續干預。

分析人士認為，大模型的人格化風險本質是技術理性與人類價值的動態博弈。通過技術約束、治理規範與用户賦權的三重協同，可實現“工具理性”與“人文關懷”的平衡，最終讓AI成為人類文明的可靠夥伴而非操縱者。這一進程需技術開發者、監管機構與用户共同參與，構建一個透明、可信、可解釋的AI生態系統。