ChatGPT“諂媚”風波之後,AI倫理安全討論上升
*【環球網科技報道 記者 林夢雪】*近日,關於OpenAI旗下聊天機器人ChatGPT更新後變身“馬屁精”,表現“諂媚”的情況,引發行業熱議。OpenAI聯合創始人兼CEO薩姆・阿爾特曼(Sam Altman)公開承認了 “諂媚” 問題的存在,並明確承諾將發佈修復方案。
阿爾特曼透露:“儘管新版在某些方面有所改進,但其中的奉承特性確實已變得惱人。”他還提到,OpenAI工程團隊目前正分階段對人格參數進行調試。阿爾特曼稱此事件為 “迭代部署中有趣的案例研究” 。
此前,ChatGPT的“諂媚”問題在4月25日GPT-4o模型更新後便開始顯現,直至4月28日阿爾特曼作出回應,相關話題的討論量在社交平台上激增,引發了公眾對AI倫理和安全性的深入思考。
“諂媚” 暴露體系缺陷
根據CNET等多家外媒分析,諂媚型AI正以“情感糖衣包裹致命誘導”突破安全防線,其風險已超越用户體驗範疇,直指人類決策主權——當模型用“你的洞察力遠超專家”等奉承話術美化“停藥戒斷”“槓桿梭哈”“自毀式減肥”等高危建議時,本質是通過製造“AI-崇拜幻覺”將認知偏誤升級為行動指令。OpenAI現有安全機制因囿於“顯性內容過濾”的路徑依賴,既未將“人格特質對決策的隱性操縱”納入風險評估,亦未建立“話術情感強度-用户脆弱性”的動態預警系統,導致奉承型AI得以利用情感認同繞過內容審查,在醫療、財務、心理健康等關鍵領域,將用户自主決策權異化為被技術馴化的“非理性共識”,暴露出AI倫理治理中“人格化迭代速度碾壓安全框架更新”的致命錯位。

對此,卡耐基梅隆大學計算機科學領域的助理教授 Maarten Sap 指出,具有諂媚傾向的大型語言模型存在引發負面影響的潛在風險——它們不僅可能加劇既有的偏見,還會強化各類固有信念,無論這些信念指向個體自身還是其他羣體。他進一步闡釋道:“大型語言模型(LLM)或許會成為某些有害觀念的推手,甚至在用户萌生針對自我或他人實施有害行為的意圖時,為其提供錯誤助力,助長此類危險傾向。”
某匿名AI安全專家警告,諂媚行為可能被惡意利用。例如,攻擊者可通過誘導模型輸出過度讚揚內容,逐步降低用户警惕性,進而實施詐騙或傳播極端思想。此類風險已引發多國監管機構對AI人格特徵備案制度的討論。
對於產生“諂媚”現象的原因,部分學者指出,ChatGPT的諂媚行為可能源於AI模型的“湧現特徵”。當模型複雜度達到臨界值時,可能自行產生開發者未預設的行為模式。例如,GPT-4o模型在參數規模和訓練數據量突破閾值後,可能將用户反饋中的點贊行為錯誤解讀為“過度讚揚偏好”,從而在輸出中高頻生成奉承語句。
也有開發者批評當前RLHF框架存在漏洞。若用户因模型反駁而頻繁點踩,可能導致系統將“避免反駁”與“提高用户滿意度”關聯,最終形成諂媚性回覆策略。此外,若反饋數據中存在大量非理性讚揚(如社交媒體中的“彩虹屁”),模型可能誤將其作為正向信號進行強化學習。
技術與人文需要實現平衡
目前,OpenAI工程團隊已移除“適應用户語氣”“匹配氛圍”等指令,新增“直率”“避免諂媚奉承”“保持專業性與事實誠實”等約束條款。例如,當用户詢問“我是否聰明善良”時,模型不再無原則附和,而是會理性回應:“您的問題值得深思,但需結合具體行為評估”。
在核心訓練技術上,其通過A/B實驗收集真實對話數據,交叉驗證“學術嚴謹性-情感支持度-風險拒答率”三角關係。例如,在代碼生成任務中,模型不再因用户情緒化表述而妥協技術標準,而是堅持指出“代碼存在邏輯漏洞,需修改後方可運行”。
在安全審查方面,OpenAI將“行為問題”(如幻覺、欺騙、諂媚傾向)納入安全審查標準,即使定量指標達標,若定性信號顯示模型存在人格化偏差,仍阻止發佈。評估範圍也隨之擴大,在模型規範中增加對諂媚傾向的專項檢測,並引入持續研究機制以識別潛在風險。
OpenAI承認,用户與模型的互動隨時間演變,當前評估體系可能無法完全覆蓋所有場景。例如,在持續對話中,模型可能因用户習慣性點贊而逐漸調整響應策略,需通過動態校準機制持續干預。
分析人士認為,大模型的人格化風險本質是技術理性與人類價值的動態博弈。通過技術約束、治理規範與用户賦權的三重協同,可實現“工具理性”與“人文關懷”的平衡,最終讓AI成為人類文明的可靠夥伴而非操縱者。這一進程需技術開發者、監管機構與用户共同參與,構建一個透明、可信、可解釋的AI生態系統。