剛剛,ChatGPT-4發佈,全方位碾壓老版本,甚至能看懂網梗表情包為什麼好笑_風聞
知危-知危官方账号-03-15 12:42
今天凌晨,OpenAI 發佈了 GPT 模型的 GPT-4 版本。

它比早先大家使用的 ChatGPT 的 GPT-3.5 內核強悍了一大截,再次刷新了知危編輯部對 AI 的認知。
首先,非常非常重要的一點是,GPT-4 除了文字輸入,還可以接受圖像輸入了,並且支持文字與圖像的混合輸入。
在官方的示例中,用户給 GPT 上傳了一張 Reddit 上的梗圖,問 GPT 這張圖為什麼好笑:

GPT 非常詳細且精準地描述出了圖片上的內容,並且有思維條理的解釋了為什麼這張圖會讓人覺得好笑。

這已經不只是能通過圖靈測試的水平了,它簡直快成了圖靈本人。。。
當然,這個功能並不只是能解釋梗圖那麼簡單,它擁有無限的想象空間,比如:
在今天凌晨的官方直播視頻中,GTP 的開發人員演示了 GPT-4 可以識別他手繪的一張網頁草圖,並且根據草圖寫出網頁的前端代碼。

手繪的網頁草圖,非常抽象

GPT-4 給出的網頁以及代碼
雖然這個是示例裏的網也非常簡單,但 GPT-4 的理解能力和創造力還是讓人覺得不可思議:
重要的不是它能不能做得很好,而是它能做到,這是一個質的飛躍。
看到這個功能之後知危編輯部躍躍欲試,可惜官方表示該功能暫時不對公眾開放,也沒有給出何時可以試用的時間窗口。

而在文字問答方面,GPT-4 也有非常大的提升,它在專業領域上的回答,全方位碾壓了老版本。
比如,在統一律師考試( Uniform Bar Exam )中,GPT-4 可以超過 90% 的人類考生,而老版本只能超過 10% 的人類考生,相當於一個是考第一名,一個是考倒數第一名。
**在 GRE 數學考試中 GPT-4 可以考 163 分( 170 分滿 )**超過 80% 的考生,老版本只能超過 25% 的考生。
**在 GRE 語文( 閲讀與填空 )考試中 GPT-4 可以考 169 分( 170 分滿 )**超過 99% 的考生,而老版本只能超過 63% 的考生。
單從這兩門的分數來看,GPT-4 到了可以申請哈佛、麻省理工、斯坦福大學的水平。

更多考試對比
不只是知識淵博,GPT-4 相較於老版本,還可以成為更好的導師。
如果你提出一個問題,老版本的 ChatGPT 會一股腦的回答,而 GPT-4 可以像一名真正的人類老師一樣一步一步引導、鼓勵你思考並獲得答案。



這個功能,一定會在教育領域大有可為,雖然他不太可能完全取代人類導師,但可以解決不少學生的時間,提高學習效率。
並且,“ ChatGPT 讓人思考能力退化 ” 的隱憂可能也不復存在了。
至於回答相對隨意的對話,GPT-4 也比老版本強,但感知不是很明顯,官方的形容是 “ 區別微妙,只有問題複雜度足夠高的時候能有所體現,GPT-4 比老版本更細、更可信、更富有創造力 ”。

這個版本已經可以在 ChatGPT plus 中小規模試用了( 每四個小時對話 100 次 ),所以知危編輯部連夜讓美國同事給賬號充錢試了試。( 國內信用卡和賬單地址不可用 )
我們首先找了一道外科選擇題問 ChatGPT-4:

同樣的問題問老版本 ChatGPT 的回答如下:

新老版本的回答都是正確的,並且對答案的解釋程度相仿,區別不大。
所以,我們問了一些更需要 “ 創造性 ” 或是 “ 思考 ” 的問題,比如:
關於最近一次特斯拉投資者大會上 “ 實現全球可持續能源 ” 的計劃,你覺得是可行的嗎?為什麼可行?
GPT-4 的答案如下圖,雖然 GPT-4 的知識庫還沒有覆蓋半個月前的那場投資者大會,但它給出的思路與特斯拉投資者大會上的思路驚人地相似。

而老版本 ChatGPT 的回答就遜色了很多,沒有條理,還有一堆車軲轆話,沒有建設性觀點。

隨後,我們又問了一個行業思考相關的問題:
請解釋量子計算對現有密碼學和密碼體系的潛在影響,並討論可能的解決方案。
ChatGPT-4 的回答如下:

老版本 ChatGPT 的回答如下:

兩個回答的主體思路相仿,但GPT-4 對問題的回答更加細緻有條理,並且含有更多專業詞彙與內容。
我們又繼續問了一個最近在國內互聯網上比較火的社會現象問題:
現在越來越多的白領不想坐在寫字樓裏上班,而是想辭職去幹體力活,你覺得原因是?
ChatGPT-4 的回答是:

老版本 ChatGPT 的回答是:

ChatGPT-4 的回答明顯比老版本的回答要維度更寬、思考更深,老版本的回答有些浮於表面,而新版本則是 “ 更具有深度思考 ”。
我們又繼續問了一個關於互聯網文化的問題:
為什麼人們熱衷於把某個網絡熱梗不斷地進行抽象?
ChatGPT-4 的回答是:

老版本 ChatGPT 的回答是:

結果跟前幾個問題有些像,ChatGPT-4 相較於老版本,更具富含邏輯,更能深度剖析問題,似乎在試圖解構問題中的互聯網文化。
總的來講,這次發佈的 ChatGPT,無論是基礎功能、想象空間、邏輯能力、思考能力,都比之前強了一大截。
距離老版本 ChatGPT 顛覆我們的認知,才沒過去幾個月,這個發展速度,我們只能説是:
恐怖如斯。