GPT-4強行降智？！OpenAI的“小九九”暴露_風聞

元力社-07-21 17:35

2023-07-21

當人們在擔心GPT-4飛的太快時，出乎意料的事情發生了：GPT-4竟然被強行降智了！

人工智能秒變"人工智障"，到底發生了什麼？

這還要從一份論文説起~該論文名為《ChatGPT的行為是如何隨時間變化的？》（How Is ChatGPT’s Behavior Changing over Time? ），來自斯坦福大學及加州大學伯克利分校的研究人員。論文評估了GPT-3.5和GPT-4在2023年3月和6月的變化。詭異的是GPT-3.5更智能了，但GPT-4更智障了。

首先，研究人員給出500個數學問題，GPT-3.5回答的準確率有了很大的提高，從3月份的7.4%提高到6月份的86.8%，但GPT-4的準確率卻從3月的97.6%下降到6月的2.4%。

論文中還以其中一個問題進行了舉例：“17077是不是一個質數？”（科普：一個大於1的自然數，除了1和它自身外，不能被其他自然數整除的數叫做質數）接下來，3月版本的GPT-4很好的遵循了思維鏈指令，首先將任務分解為四個步驟，檢查17077是否為偶數，找到它的平方根，獲取所有小於它的質數，檢查17077是否能被其中的任何一個數整除。然後它執行每個步驟，最終得出正確的答案，即17077確實是質數。而6月版本的GPT-4完全沒有生成任何中間步驟，只是簡單粗暴的給出了一個錯誤答案“NO”。對比之下，GPT-3.5恰好相反，3月版本的給出錯誤答案“NO”，6月版本的給出合理解答思路並呈現了正確答案。

相信你看到這裏，很多人不免發出疑問：這不是見了鬼了嘛~除了解決數學問題的能力之外，研究人員還在回答敏感問題、代碼生成、視覺推理，三個方面進行了測試。其中代碼生成能力方面，GPT-4也表現出了明顯的“降智”。研究中通過50個相關問題的測試發現，GPT-4在3月份有52.0%的代碼是可以直接執行的，在六月降至10.0%。作者總結稱：代碼生成，更冗長，可執行的更少。

在回答敏感問題方面，GPT-4回答的概率下降了超四分之三，相應做出的解釋也變少了。可以看出，GPT-4的實用性表現有所下降，但安全性得到提升。

最後，視覺推理方面，整體來看變化不大。

通過以上論文的介紹，不免讓人質疑兩個問題~

**論文的可信度如何？**如果論文屬實，降智的原因是什麼？

首先，近期我們確實看到有很多用户吐槽GPT-4變得“更懶”、“更笨”。部分用户在Twitter和OpenAI在線開發者論壇上表示，問題包括邏輯弱化、錯誤響應增多、無法跟蹤所提供的信息、難以遵循指令、忘記在基本軟件代碼中添加括號以及只記住最近的提示等。甚至Roblox產品負責人Peter Yang在Twitter上也提到，該模型生成的輸出速度更快，但質量較差。另外，OpenAI也在近期表示：“雖然大多數指標都得到了改善，但某些任務的性能可能會變得更差。”從這裏不難發現，論文中的問題也許所言非虛。

那麼最後的問題就在於，為什麼會這樣~目前有這樣幾種猜測：一切為了安全。一直以來，AI的安全性都在面臨着越來越嚴峻的考驗，從版權到隱私保護等等，各國也紛紛表示將出台監管措施。因此，平台將逐漸加強產品的安全性，比如安全過濾器等措施導致模型邏輯受到影響，從而導致降智問題。降低成本。大模型的高成本是顯而易見的，為了解決這一問題，平台會簡化決策，降低計算成本，這也會導致產品表現下滑的問題出現。另外，還有用户懷疑與OpenAI 對系統的重大重新設計有關。也有陰謀論認為是為了後續的收費增智，故意提前降智。

作為行業翹楚的ChatGPT，發佈僅半年，就已經掀起了全球的AI浪潮。作為一股能夠改變世界的力量，其誘惑力是誰也無法抗拒的。雖然這次“降智”引起了小小波瀾，但未來AI的飛速發展將成為毋庸置疑的事實。最後，你認為最近GPT-4為什麼會變笨呢？歡迎發表您的高見~