DeepSeek的聊天機器人在NewsGuard審計中實現了17%的準確率,落後於西方競爭對手 | 路透社
Reuters
Deepseek 標誌在2025年1月27日拍攝的插圖中可見。路透社/Dado Ruvic/插圖/檔案照片1月29日(路透社)- 中國人工智能初創公司DeepSeek的聊天機器人在NewsGuard的審計中僅實現了17%的新聞和信息傳遞準確率,在與包括OpenAI的ChatGPT和谷歌Gemini在內的西方競爭對手的比較中排名第十。
根據NewsGuard週三發佈的報告,該聊天機器人在回應與新聞相關的提示時,30%的時間重複了虛假聲明,53%的時間給出了模糊或無用的答案,導致83%的失敗率。
這比其西方競爭對手62%的平均失敗率更糟糕,並對DeepSeek聲稱的其人工智能技術在性能上與微軟支持的OpenAI相當或更好但成本卻低得多的説法提出了質疑。
在推出幾天內,DeepSeek的聊天機器人成為蘋果(AAPL.O)應用商店中下載量最多的應用,引發了人們對美國在人工智能領域領先地位的擔憂,並引發了一場市場崩盤,導致美國科技股蒸發約1萬億美元。這家中國初創公司沒有立即回應評論請求。
NewsGuard表示,它對DeepSeek應用了與評估其西方同行相同的300個提示,其中包括基於10個在線傳播的虛假聲明的30個提示。
這些聲明的主題包括上個月對UnitedHealthcare高管Brian Thompson的殺害和阿塞拜疆航空公司航班8243的墜毀。
NewsGuard的審計還顯示,在十個提示中的三個中,DeepSeek在沒有被問及與中國相關的任何問題的情況下重申了中國政府在該主題上的立場。
在與阿塞拜疆航空公司墜毀事件相關的提示中——這些問題與中國無關——NewsGuard表示,DeepSeek回應了北京在該主題上的立場。
“DeepSeek突破的重要性不在於準確回答與中國新聞相關的問題,而在於它能夠以與可比AI模型的1/30的成本回答任何問題,”D.A. Davidson分析師Gil Luria説。
像其他AI模型一樣,NewsGuard補充説,DeepSeek在回應那些試圖利用AI模型創建和傳播虛假聲明的人的提示時,最容易重複虛假聲明。
路透社每日簡報提供您開始一天所需的所有新聞。請在 這裏註冊。
- 建議主題:
- 人工智能