如果ai是數字智能,大腦是生物智能,生物神經元恰恰是從符號開始訓練的_風聞
苍狼向月-踩吧踩吧,被缺智者踩,你以为我会在乎白痴的反应吗50分钟前
【本文來自《最適合AI思考的語言是中文》評論區,標題為小編添加】
蒼狼向月
本來還想説説象形文字漢字背後的信息對AI邏輯推理的巨大影響,例如“情理”一詞,背後“曉之以情,動之以理”的隱匿信息國人一看就能照單全收,不需要更多的想象就能直接對應。而英語則要創造一個新詞來讓大語言模型去訓練……但看到回覆中一羣無知的回覆,頓時就沒了興趣!guan_15809764021786
展開説説。02-08 13:03 來自上海市蒼狼向月
好吧,不過這個説起來會有點漫長。
其實我是一個對漢字這種象形文字在現代科學時代是有滯後影響的,尤其是簡化漢字之前的繁體字持相同感觸的。
主要源於在上個世紀初期北京大學的錢玄同等文人宣稱“欲救國,先滅漢字”,請注意錢玄同的拉丁化思想是得到胡適以及魯迅非常積極響應的!
對,你沒看錯,就是魯迅也積極倡導中文拉丁化的。他們曾呼籲過“漢字不滅,中國必亡 ”。
象形文字為什麼會阻礙人類社會發展,這裏面又會涉及到楔形文字和埃及的聖書體十分複雜難學。由於字體複雜多樣,識別困難,發展到近代也根本就不適合排版印刷……
但是腓尼基人卻根據埃及的聖書體文字發明了腓尼基字母,隨後影響到其後的古希臘和古羅馬字母,再其後就影響到西方(西邊)所有國家的文字發展就按照字母化發展到今天,當然也包括英語字母。
字母的好處就是不需要再理解象形文字背後的表意,只需要按照二十多個字母的排列組合就能製造出新詞,人民只需要背誦就能識別。
所以古埃及在被古羅馬等征服後,埃及文字就被古羅馬字母給拋棄了,雖然字母也是從埃及聖書體中借用過來的。
字母雖然識別起來容易了,但問題是每個時期就會製造出大量的單詞出來,那簡直就是海量單詞。所以現代專業科學方面,你英語再精通,你也必須要有一部相關專業的英語詞典才能讀懂該技術論文,例如化工和航天等詞典是完全不同的(但語法大致相同)。
這種問題尤其是到了AI大模型訓練的時候,AI面對英語單詞就發矇了,因為它需要調動起一個概念下所有的英語單詞才能通過推理訓練,那麼這個訓練量就太大了。
然而這時候象形文字的好處就突然顯現出來了,例如“星期一”到“星期天”,我們只需要“星期N”就可以表達了,但是英語的週一到週日需要七個單詞,我們開玩笑的星期八英語還沒發明這個單詞,但中國人都知道是星期一的另一種表現……
再一個就是順序,例如成語“唇舌齒喉”這個詞組,這個詞組本身就包含了推理的順序所在,四個字就表達完了。
而舶來詞彙例如“塵肺病”,中文三個字(六個字節)就把病因、病灶給説的一清二楚,而英語則是一大串字母“pneumoconiosis”,你説這是幾個字節?它想繼續説明病因病灶,還需要多少單詞?
所以AI大模型推理訓練面對這些不瘋了才怪,它如果沒有強大的算力根本就走不動,但實際上就是因為字母文化的海量詞彙讓它的訓練效率大減!
顯然,原來被詬病的象形文字,現在成了大語言模型訓練的香餑餑,這是錢玄同和魯迅始料未及的。
據華為宣稱,鴻蒙現在可以用漢字寫代碼了,而如果中國的ai大廠如果聯合起來去造一箇中文元模型,外國人就可以通過翻譯軟件先把英語轉化成中文再進行訓練,這也就意味着高效率的中文模型就會成為全球ai的訓練標準,孔子的“有教無類”,就實現了科技平權的大一統境界。
當然這是後話了,但的確對於AI領域來説,這無疑是一條現成的捷徑……
02-08 14:16 來自湖北省guan_15809764021786
也就是説,以英語為主要的底層思維邏輯架構的大模型天生就需要強大的算力堆砌,而以漢語為主要的底層思維邏輯架構的大模型需要的算力遠遠小於前者。所以deepseek天然花錢少。是這樣吧?昨天 19:00 來自上海市蒼狼向月
我可沒這麼説,deepseek可不是漢字代碼,所以你別搞出本末倒置的結論。但你可以這麼想!
然而我也有些不確定的地方在於,想象文字的漢字其實很多歧義的,一句話可能會有多種意思,例如“我喜歡上一個人”,可以是“我喜歡了一個人”,但也可以是“我喜歡前一個人”,這就讓ai邏輯推理會有更多的運算量了。
所以中外政府、商業之間簽訂的聯合聲明、條約、協議等等都要做大量的文書勘定,避免歧義,甚至有時候需要用第三方文書加註(多為法文合同文本),限定詞義(字母文字的單詞就簡單的多,一個詞一個意)。
不過老外將英語轉化為中文再進行推理訓練,這種語法在翻譯中可能會被規避掉,訊飛等機翻應該不會發生多含義的翻譯結果,而國人在表達時也可以有意識規避歧義表述……
昨天 20:35 來自湖北省
guan_15809764021786
好的,多謝。
昨天 22:56 來自上海市
洗漱完就看到你這個回覆,我再補充一下吧。
如果把ai看成是數字智能,人類大腦則是生物智能,而生物智能恰恰是從符號(象形文字)開始的。
在你回覆的樓上,網友Chemiholic的回覆説“漢語等了AI五千年”,這句話很深刻,也很酸爽。畢竟人類最早的文字都是從象形文字起源的,所以不僅僅是“漢語等了AI五千年”,楔形文字和古埃及的象形文字“聖書體”也在墓中笑醒了,tmd古羅馬人當初用字母幹掉我,現在字母也有哭的時候。
埃及文明之所以斷代,就是因為腓尼基人字母從埃及“聖書體”中提煉(可以理解為“蒸餾”)出來字母單元,進而發展出西方(西邊)整個人類文字表達的字母文化,尤其是古羅馬字母乾脆就把“聖書體”象形文字給幹掉了,從此埃及古文字就此消失,而字母文化遍及全球……
不得不説字母的優勢是方便認識和書寫等使用,效率遠比象形文字高的多。
但象形文字是人類開始有意識的認識和表達世界的識別積累,是生物智能的起點,如今人類用數字重構“智能”,如果還用字母文化,那的確就很難為“字母”了。
因為“字母”本身就是從象形文字中蒸餾出來的後人類文明行為,已經失去象形文字圖形表意的功能,數字智能無法一開始就用圖形去理解,並在此基礎上進行推理。是學生而非教師,再怎麼努力也超越不了教師,只能無限接近……
事實上,2024年諾貝爾獎獲得者辛頓在Vector Institute 2024上的主題演講上就對目前數字智能進行了諷刺,認為其是“投機者”,而inductive Logic programming(歸納邏輯程序設計)的技術則更能從“生物智能”的角度出發,通過“離散的搜索符號操作規則”更能接近人類“生物智能”的程度。
然而,已經在字母文化中進化了幾千年的整個西方社會到哪裏去找完整認識世界的圖形符號?
這是一件非常痛苦的事情,我記得李飛飛就是靠圖片進行3D模型訓練(視頻)的,她把幾十萬上百萬張自然攝影得到的圖片通過互聯網發送到全球電腦愛好者電腦裏,請他們對每張圖進行“標註”,好像是吧,我老人家記不住了……
好在天無絕人之路,在人類世界中,還有漢字這麼一個現成的圖形文字,並且歷經了四千多年的歷史沉澱,這在追求人工智能的時代,無疑是一件幸事!
我雖不是一個ai工作中,僅僅只是對人類的文字文化感興趣。其實,我和錢玄同、魯迅一樣,一開始也是對漢字頗有微詞的,只不過是從漢字延續了四千多年的歷史事實,基於對漢字的自豪和尊重,我選擇了對漢字在科學發展過程中的阻礙以無視的立場。
但世界真的就是這麼輪迴,所以我為什麼説Chemiholic回覆“漢語等了AI五千年”這句話很深刻,也很酸爽,就是這個道理……🤣