AI是模擬智能的輸出,能力上限在摸索,理解是關鍵_風聞
陈经-亚洲视觉科技研发总监-昨天 08:54
1. Deepseek展示了思維鏈,顯示了驚人的文字能力。對於AI的興趣再次高漲,AI有沒有靈魂,能不能很快開發出AGI、ASI,問題價值極大。好事是,大模型的“技術秘密”基本清楚了。這也是Deepseek的貢獻,OpenAI閉源製造神秘感失敗。
2. 高水平AI架構都是基於Transfomer的,建立大段內容中詞元(token)與詞元之間的複雜關聯。一段內容,所有token互相之間都有權重係數指出關聯大小,而且還有多達128重視角去建立不同角度的關聯。
3. 大模型用多達2萬個大矩陣去記載這些關聯,每個矩陣是7000*7000規模的,5000萬個係數。人類知識被壓縮進這些矩陣裏了。這就是Deepseek R1滿血版是671B的意思,B是billion,10億。
4. 一個方向是,繼續增多係數,如幾萬億個,記載更多人類知識。這條路可能到頭了,主要的知識已經在訓練素材裏了。很多東西是數據,如每天股票交易價格波動,不是關鍵知識。有新知識的論文也不多。人們寫的文章往往是舊知識的排列組合。新發生的事,聯網搜索就可以了,不需要立刻訓練進係數裏。
5. 現在熱點轉向了,在大模型知識體系裏,加強輸出效果。這包括,寫詩寫文追趕文豪,做題編程人類頂尖,科學知識水平超過領域內博士,更能分辨互聯網真假信息,任務非常多。再深入,就用大模型來規劃複雜任務,進行越來越長的思維,步驟越來越多。
6. 不少人相信,思維能力超過所有人類、什麼領域都最強的AGI通用人工智能、ASI超級智能,很快就出來了,樂觀一年,正常兩三年。業界態度大幅轉向樂觀了。特別是“只給題目答案不給過程,讓大模型自己思考摸索”的成功,讓人們看到了機器自學的新路。
7. 個人認為,現在這些大模型成果,都是模擬智能。把輸出訓練調試得像是高水平思維的結果。它裏面在搞無數個矩陣乘法,人類肯定不是這麼思考的。人類思考也等於是文字輸出,大模型思維鏈就是模仿這些中間結果輸出。模仿得很好,甚至超過普通人的思維水平。這就是矩陣關聯模仿的威力。
8. 不過這還是以計算來模仿思維輸出的套路,模擬智能的輸出。真正的問題還是理解。人類理解問題,基於自然界物理信號,而不是概念之間的關聯。原始人,也可以比劃交流,大家對物理世界有同一的理解。大模型無法真正理解概念,只是一個關聯計算器。你要問它什麼是感覺,它會説出來現象,但不知道感覺是什麼。
9. 因此,我認為大模型是“關聯探索器”。可以模仿很多人類已經建立的關聯,但是很難憑空造出一個新東西,建立新的包含智慧的關聯。因此,大模型還不是高級智能,如沒法證明未知數學難題(人類也不知道答案),因為需要構建一個複雜的證明體系,裏面有非常深刻的洞察。它也很難構建一個很複雜的人類社會羣落,寫出很好看的劇本和小説。這些都需要人類的靈魂和感覺。
