AI訓練與人類學習過程的對比和感悟_風聞
天天看-有没有新鲜事…52分钟前
人類對人類自身認知科學本身的理解還比較膚淺。其實並沒有完全從機理上搞明白“人是如何從嬰幼兒學習成長起來的”。2017年,Attention is all you need這篇論文用後面大家的開發實踐證明了人類可能無意中仿真出了人工認知過程。Attention是Transformer算法裏的核心提升,它把原本神經網絡算法一直難以突破的各神經元間隱藏某些關聯打通了,於是催生出了ChatGPT以及DeepSeek等眾多大模型。全球大量大模型的湧現,反覆實踐和證明了Transformer算法的偉大。而各家大模型的差別,實質只是在Transformer算法的優化變體、具體構架訓練過程、推理過程以及語料庫選擇優化等方面各有調整而已。
回過來,人工智能的成功突破無意中證明了人類學習過程中有些做法的正誤。比如死記硬背是不是必須的?我覺得能證明這一點最好的一句話就是“熟讀唐詩三百首,不會作詩也會吟”。這句話也可以作為人工智能訓練過程的註解。
瞭解人工智能訓練的朋友知道,在大模型訓練之初,Transformer裏的各個矩陣參數都是抽隨機數產生的。然後通過學習“語料庫”(就像讀唐詩三百首),通過一遍遍獎勵/懲罰函數的修正(背對給顆糖,背錯是打手心),逐步更新各矩陣參數值。反覆訓練的過程,實際是從語料庫不斷吸收人類各個基本知識點(比如“愛”、“人”、“國”)之間在人類歷史知識中體現出的特徵關係的過程。並最終把這些關係存到多個高維空間向量矩陣中。這個高維空間可以是比如1536維或4096維,維度越多,表達各知識點之間的細膩度就越高。最終形成的“語料庫”精華都以向量權重的方式存到的大模型的權重文件裏。這些飽吸人類知識精華的權重數據,實際就存在最初開始訓練時那些抽了隨機數的各數據矩陣參數中。這些矩陣裏最初的那些隨機數據項,已經通過反覆訓練、獎勵、懲罰,被修正成體現人類知識關聯精華的高維度概率值數值。大模型此時已學會了愛國,而非愛敵人;學會感謝哺育之恩,而是崇拜金錢誘惑……因為這些概念在人類語料庫中反覆出現,它學習到了。
人工智能訓練的這個過程,其實非常人性、有點感人。就如同我們每個人都赤條條來到人世(各維度參數都是抽了隨機數的),讀小學、中學、大學(大模型反覆訓練)後走向社會,可能還需要經過社會拷打(繼續後訓練),終於“悟到人生”開始為人處世(大模型推理來解答問題)。人類小孩好的學習條件,刻苦的學習過程,如同大模型訓練優秀的語料庫選擇,反覆漫長而昂貴的訓練過程一樣,最終培養出了一個智慧的人或大模型。
deepseek開源包中最大個的bin文件,就是存儲它訓練所得人類知識精華的權重文件。因為目前人工智能的神經網絡算法比人類神經元效率還是要低,所以人工智能上述訓練過程的遍數比人類要多很多倍。ChatGPT花了幾億美元的算力資源反覆訓才成功,DeepSeek優化了算法(教育方法),成本低了很多。
人類小時候死記硬背的過程,就像大模型訓練時語料庫反覆訓練的過程。沒有這個過程,後面不可能期待智慧湧現之時,人類和大模型同樣如此。有了這個過程,如果練得不夠多,達到的湧現級別可能也不會太高。不會得到deepseek滿血版,也許是7b的或者1.5b的。b小,也能生存。快樂教育就是從策略上就全部搞小b;精英教育就是目標搞大b,實在搞不成,也可以降箇中b出來。我和小明一起長大,一個當了售貨員(1.5小b),一個當了教授(滿血671b),我們都有光明的未來。收貨員當然也應該有幸福的人生。但國家競爭時會是怎樣一個態勢,可想而知。