Deepseek把大模型最大的問題弄明白了，很會寫但“讀”的水平很低，沒有理解_風聞

陈经-亚洲视觉科技研发总监-40分钟前

2025-02-17

1. 大模型三大絕招，一大致命bug。三大絕招，第一是知識壓縮，幾乎所有人類知識都在訓練素材裏。效果驚人，無所不知，什麼風格都會。這確實是革命性思想，全包進去反而最強，以前沒有這樣的產品。

2. 第二大招，RLHF，人來給它的輸出打分，建立一個打分器，自動評估輸出訓練改進。這樣大模型輸出符合人類習慣，對話風格活潑，寫詩寫文的“文字”水平極高。有些文字意境深遠，哲學、感悟都很厲害。

3. 第三大招，深度思考長思維鏈COT。自己看題目和答案摸索出解題過程，高考數學100分，奧數金牌。領域知識組織輸出，規劃流程，編程寫代碼。許多人被大模型的思維能力震驚，沒想到它的思考這麼像人。

4. 以上三大招，都是在模擬輸出，讓人滿意。人看輸出越來越滿意，“寫作”、“做題”的水平已經吊打最厲害的人類考試高手。但是，這都是模仿人類得出來的。目前還沒有一個數學命題是AI先證明的。AI也沒有寫出一個很好的小説，沒有寫出思想深刻的分析文章流傳。更為嚴重的是幻覺，編造事實胡扯起來很自然，雖然聯網搜索緩解了症狀。

5. 大模型最大的bug，就是作為讀者，存在嚴重bug。它完成一些“閲讀考試”“文章總結”這些任務沒問題，但都是概念定義明確清楚的，數學題概念都很明確。我讓deepseek説出2月13日哪吒單日票房，聯網加深度思考，它看新聞知道當日票房破百億，但是連是3億多還是4億多都搞不懂，kimi也不行。

6. 這是因為“單日票房”是需要人類分辨的概念，需要理解。而這方面恰恰是信息過多，到處都是票房的新聞，還有幾種概念，含預售、海外、分賬票房等等，大模型就暈了。它沒有辦法建立單日票房的概念，簡單數學公式建立不起來。

7. 同樣，deepseek寫古詩水平極高，從“文采”來看，唐宋沒有人比得過了。但是，這些就是文字排列組合的功夫，北大中文博士打分。最大的問題是，沒有理解，看詩等於token，知道token這樣組合人類博士打分高。不知道為什麼分高，訓練逼的，自己寫的詩不知道什麼意思。沒有理解，就沒有辦法寫出很好的有創新中心思想的文章，也觀察不出社會現象和數據的意義。

8. 例如讓它寫公文總結，像模像樣完成任務。但是，要寫出思想性就不容易了。很多事還得人類自己去理解問題，把邏輯串起來，還得防備它幻覺胡扯。只能當工具，沒有思想、沒有靈魂、沒有理解。用來當客服就會發現，最大問題是不理解人們在説什麼。

9. 可以確定，現在AI水平的天花板就是理解。AI從原理上就沒辦法理解問題。它知道token之間的關聯，按次序輸出token模擬人類輸出。這不是理解，這是文字排列組合算法。人類的理解能力非常厲害，還有感情、知覺，都是大模型取代不了的。