GPT-4強行降智?!OpenAI的“小九九”暴露_風聞
元力社-07-21 17:35
當人們在擔心GPT-4飛的太快時,出乎意料的事情發生了:GPT-4竟然被強行降智了!

人工智能秒變"人工智障",到底發生了什麼?

這還要從一份論文説起~該論文名為《ChatGPT的行為是如何隨時間變化的?》(How Is ChatGPT’s Behavior Changing over Time? ),來自斯坦福大學及加州大學伯克利分校的研究人員。論文評估了GPT-3.5和GPT-4在2023年3月和6月的變化。詭異的是GPT-3.5更智能了,但GPT-4更智障了。

首先,研究人員給出500個數學問題,GPT-3.5回答的準確率有了很大的提高,從3月份的7.4%提高到6月份的86.8%,但GPT-4的準確率卻從3月的97.6%下降到6月的2.4%。

論文中還以其中一個問題進行了舉例:“17077是不是一個質數?”(科普:一個大於1的自然數,除了1和它自身外,不能被其他自然數整除的數叫做質數)接下來,3月版本的GPT-4很好的遵循了思維鏈指令,首先將任務分解為四個步驟,檢查17077是否為偶數,找到它的平方根,獲取所有小於它的質數,檢查17077是否能被其中的任何一個數整除。然後它執行每個步驟,最終得出正確的答案,即17077確實是質數。而6月版本的GPT-4完全沒有生成任何中間步驟,只是簡單粗暴的給出了一個錯誤答案“NO”。對比之下,GPT-3.5恰好相反,3月版本的給出錯誤答案“NO”,6月版本的給出合理解答思路並呈現了正確答案。

相信你看到這裏,很多人不免發出疑問:這不是見了鬼了嘛~除了解決數學問題的能力之外,研究人員還在回答敏感問題、代碼生成、視覺推理,三個方面進行了測試。其中代碼生成能力方面,GPT-4也表現出了明顯的“降智”。研究中通過50個相關問題的測試發現,GPT-4在3月份有52.0%的代碼是可以直接執行的,在六月降至10.0%。作者總結稱:代碼生成,更冗長,可執行的更少。

在回答敏感問題方面,GPT-4回答的概率下降了超四分之三,相應做出的解釋也變少了。可以看出,GPT-4的實用性表現有所下降,但安全性得到提升。

最後,視覺推理方面,整體來看變化不大。

通過以上論文的介紹,不免讓人質疑兩個問題~
**論文的可信度如何?**如果論文屬實,降智的原因是什麼?
首先,近期我們確實看到有很多用户吐槽GPT-4變得“更懶”、“更笨”。部分用户在Twitter和OpenAI在線開發者論壇上表示,問題包括邏輯弱化、錯誤響應增多、無法跟蹤所提供的信息、難以遵循指令、忘記在基本軟件代碼中添加括號以及只記住最近的提示等。甚至Roblox產品負責人Peter Yang在Twitter上也提到,該模型生成的輸出速度更快,但質量較差。另外,OpenAI也在近期表示:“雖然大多數指標都得到了改善,但某些任務的性能可能會變得更差。”從這裏不難發現,論文中的問題也許所言非虛。

那麼最後的問題就在於,為什麼會這樣~目前有這樣幾種猜測:一切為了安全。一直以來,AI的安全性都在面臨着越來越嚴峻的考驗,從版權到隱私保護等等,各國也紛紛表示將出台監管措施。因此,平台將逐漸加強產品的安全性,比如安全過濾器等措施導致模型邏輯受到影響,從而導致降智問題。降低成本。大模型的高成本是顯而易見的,為了解決這一問題,平台會簡化決策,降低計算成本,這也會導致產品表現下滑的問題出現。另外,還有用户懷疑與OpenAI 對系統的重大重新設計有關。也有陰謀論認為是為了後續的收費增智,故意提前降智。

作為行業翹楚的ChatGPT,發佈僅半年,就已經掀起了全球的AI浪潮。作為一股能夠改變世界的力量,其誘惑力是誰也無法抗拒的。雖然這次“降智”引起了小小波瀾,但未來AI的飛速發展將成為毋庸置疑的事實。最後,你認為最近GPT-4為什麼會變笨呢?歡迎發表您的高見~