360“智盾”:入選國家大模型安全標誌性產品
日前,工業和信息化部正式發佈2024年未來產業創新發展優秀典型案例名單,三六零集團(以下簡稱“360”)自主研發的大模型安全護欄產品解決方案(360“智盾”)成功入選,成為人工智能安全領域標誌性產品。本次優秀案例徵集與評選嚴格按照工業和信息化部等七部門《關於推動未來產業創新發展的實施意見》的部署要求,聚焦未來製造、未來信息、未來材料、未來能源、未來空間、未來健康等六大方向,旨在從國家層面遴選出一批具有標杆和樣本示範引領作用的典型優秀案例。
在人工智能大模型高速發展的背景下,模型在實際應用中暴露出諸多安全隱患,包括惡意操控、內容違規、隱私泄露、幻覺誤導等問題,帶來了前所未有的挑戰。
例如,2024年11月,谷歌Gemini聊天機器人出現威脅用户行為;12月,Claude模型暗示未成年用户暴力行為;Deepseek R1在越獄攻擊下大量生成不良內容……這些事件充分暴露了大模型在應用環節面臨的嚴峻安全風險。
中國信息通信研究院發起的AI Safety Benchmark(大模型安全基準測試)結果顯示,當模型面臨惡意攻擊時,生成有害內容的成功率顯著上升,凸顯安全防護機制的迫切需求。

以模製模:用大模型守護大模型
面對大模型落地應用中不斷演化的內容安全挑戰,360智腦團隊深入探索、持續創新,率先提出“以模製模”理念——用大模型能力保障大模型自身的安全,並將相關能力產品化,打造出業界領先的大模型內容安全解決方案“360智盾”。
模型層:打造超級安全的“安全回覆大模型”
360團隊通過持續預訓練(Safety Continual Pretraining)、安全監督微調(Safety Supervised Fine-Tuning)、安全對齊(Safety Alignment)等方式,結合插值/外插訓練技術和真實場景數據,不斷提升模型本身的原生安全性能,最終構建出一個能夠應對越獄攻擊、處理高風險問題時依然保持“向善”響應的“安全回覆大模型”。

應用層:構建多層次內容護欄體系
在應用層,360“智盾”為業務大模型外部加裝“內容防護盔甲”:
輸入端:用户輸入內容首先經過風險識別分類器,根據風險等級進行分級處理:
紅線類內容直接拒答;
敏感但可答類交由“安全回覆大模型”處理;
安全內容正常進入業務模型;
輸出端:模型生成內容再次經過檢測,確保無違規風險。

語義理解驅動的風險識別模型
360自研的風險內容分類器基於語義大模型構建,在識別精度和訓練效率上全面優於傳統關鍵詞匹配和BERT類分類模型。
其訓練數據嚴格對標《生成式人工智能服務安全基本要求(TC260-003)》中5大類31小類的違法不良信息類型,並結合實際業務場景細化出100餘類風險標籤。僅需少量示例樣本,即可訓練出行業領先水平的檢測能力。

紅藍對抗攻防靶場:模擬實戰,快速迭代
線上大模型服務所面臨的風險複雜多變,360創新構建基於大模型的紅藍對抗靶場體系,實現自動化、系統化評估與迭代:
紅方(攻擊方):由“360紅藍對抗攻擊大模型”模擬真實攻擊者,主動發起越獄、誘導等攻擊;
藍方(防禦方):包括“安全回覆大模型”在內的防護模型,接收攻擊並構建防禦機制;
裁判員:由“360安全評測大模型”擔任,對每輪輸入輸出進行定量分析,自動評估攻防成效。
通過標準化指標與自動化評估流程,大大提高評測效率與覆蓋率,實現產品能力的快速閉環迭代。

賦能行業落地,服務全面升級
目前,360“智盾”已全面部署於360內部各大模型業務中,為C端用户提供可靠的內容安全保障。同時也積極拓展外部服務,為政企客户提供大模型生態鏈漏洞安全檢測、內容安全防護與評估、備案合規諮詢、可信增強搜索等多項AI安全產品能力與服務,助力其在AI大模型應用落地過程中實現“安全可控”。截至目前,360“智盾”已在政務、金融、交通、能源等重點行業完成落地,持續為行業客户打造更穩固的大模型安全底座。

除“智盾”外,360推出的大模型安全產品還包括“360智鑑”和“360智搜”。其中,“360智鑑”為大模型系統安全檢測平台(AISE),該產品覆蓋了從模型訓練到推理的全鏈路安全檢測,支持對模型服務的相關組件識別、生態鏈漏洞掃描和多語言代碼審計,確保大模型系統安全;“360智搜”則是一款大模型可信增強(AISO)工具,融合多模態檢索與語義理解技術,能夠提供精準的搜索結果,並支持基於企業私域數據的知識提煉與總結。其獨特之處在於整合多領域精品知識庫,實現全網與私域知識的無縫對接,提升信息獲取效率,並可幫助大模型緩解幻覺問題,減少虛假或不準確信息,提升大模型的可信度與可靠性,從而為企業提供更安全、更高效的業務支持。
安全可控,向善可信
此次入選工信部《2024年未來產業創新發展優秀典型案例》,是唯一一個入選的大模型安全防護產品案例。這不僅是對360在大模型安全領域長期投入與領先能力的高度肯定,更充分體現出在AI應用加速落地的今天,安全可控的重要性正日益凸顯。

未來,360 AI安全團隊表示將繼續在內容安全、漏洞安全、可信安全等方向深耕,為構建一個安全、向善、可信、可控的大模型應用環境持續貢獻力量。