Deepseek把大模型最大的問題弄明白了,很會寫但“讀”的水平很低,沒有理解_風聞
陈经-亚洲视觉科技研发总监-40分钟前
1. 大模型三大絕招,一大致命bug。三大絕招,第一是知識壓縮,幾乎所有人類知識都在訓練素材裏。效果驚人,無所不知,什麼風格都會。這確實是革命性思想,全包進去反而最強,以前沒有這樣的產品。
2. 第二大招,RLHF,人來給它的輸出打分,建立一個打分器,自動評估輸出訓練改進。這樣大模型輸出符合人類習慣,對話風格活潑,寫詩寫文的“文字”水平極高。有些文字意境深遠,哲學、感悟都很厲害。
3. 第三大招,深度思考長思維鏈COT。自己看題目和答案摸索出解題過程,高考數學100分,奧數金牌。領域知識組織輸出,規劃流程,編程寫代碼。許多人被大模型的思維能力震驚,沒想到它的思考這麼像人。
4. 以上三大招,都是在模擬輸出,讓人滿意。人看輸出越來越滿意,“寫作”、“做題”的水平已經吊打最厲害的人類考試高手。但是,這都是模仿人類得出來的。目前還沒有一個數學命題是AI先證明的。AI也沒有寫出一個很好的小説,沒有寫出思想深刻的分析文章流傳。更為嚴重的是幻覺,編造事實胡扯起來很自然,雖然聯網搜索緩解了症狀。
5. 大模型最大的bug,就是作為讀者,存在嚴重bug。它完成一些“閲讀考試”“文章總結”這些任務沒問題,但都是概念定義明確清楚的,數學題概念都很明確。我讓deepseek説出2月13日哪吒單日票房,聯網加深度思考,它看新聞知道當日票房破百億,但是連是3億多還是4億多都搞不懂,kimi也不行。
6. 這是因為“單日票房”是需要人類分辨的概念,需要理解。而這方面恰恰是信息過多,到處都是票房的新聞,還有幾種概念,含預售、海外、分賬票房等等,大模型就暈了。它沒有辦法建立單日票房的概念,簡單數學公式建立不起來。
7. 同樣,deepseek寫古詩水平極高,從“文采”來看,唐宋沒有人比得過了。但是,這些就是文字排列組合的功夫,北大中文博士打分。最大的問題是,沒有理解,看詩等於token,知道token這樣組合人類博士打分高。不知道為什麼分高,訓練逼的,自己寫的詩不知道什麼意思。沒有理解,就沒有辦法寫出很好的有創新中心思想的文章,也觀察不出社會現象和數據的意義。
8. 例如讓它寫公文總結,像模像樣完成任務。但是,要寫出思想性就不容易了。很多事還得人類自己去理解問題,把邏輯串起來,還得防備它幻覺胡扯。只能當工具,沒有思想、沒有靈魂、沒有理解。用來當客服就會發現,最大問題是不理解人們在説什麼。
9. 可以確定,現在AI水平的天花板就是理解。AI從原理上就沒辦法理解問題。它知道token之間的關聯,按次序輸出token模擬人類輸出。這不是理解,這是文字排列組合算法。人類的理解能力非常厲害,還有感情、知覺,都是大模型取代不了的。
