人工智能的基礎語言將是中文_風聞
立刚科技观察-通信业观察家项立刚-通信业观察家15分钟前
這幾年我花了很大的精力去研究人工智能的信息處理。當然我研究的不是做一個具體的模型,而是研究人腦的信息處理機制。
我越來越相信,中華文明是更為高級的文明,而未來人工智能要進行信息處理,也應該以中文為基礎。
人類之所以有智慧,一件非常重要的事情是有了語言和文字,這樣可以對世界的萬物進行信息編碼,通過這些編碼進行信息傳遞。我們身體對外界刺激有了反應,通過神經系統傳到我們大腦的生物電是有不同的頻率,也有不同的強度。對於這些生物電產生的信息,別的生物是不可能知道的,因為他沒有接受這樣的生物電。
我們人類有了語言和文字,對於這樣的生物電就進行了定義,某個頻率和強屋的生物電我們定義為痛,某個強物的生物電我們定義為癢,某個強度的生物電我們定義為麻。這就是對信息進行了編碼,信息編碼的高級與否,決定了信息傳輸的準確性和效率。
然而我們還要用簡單的編碼,進行更為高效的信息傳輸,否則這個編碼和解碼系統就是一個龐大的系統,複雜到硬件無法承受。在人工智能這個領域所謂就是算力。對於人而言這就需要更多的腦細胞。
高效的編碼機制決定了人類文明的高低。
目前人類的世界,最高效的信息編碼機制,一定是中文。和英文相比,它更高級,這表現在信息的準確性,編碼的高效率和信息的擴展性。
英語基礎的文字是字母,26個字母是比較好學,也利於記憶。然而是26個字母本身沒有意義。意義是用詞和句子組成的。字母只是組詞的工具。所以英文有大量的詞彙,而且還在不斷的製造出新詞,過去的詞不做解釋就忘記了。語言的延展性非常差,語音傳承的效率極低。
中文是以字為基礎,事實上每一個字都是有含義,約3000個左右的常用字構成了信息的一個基本體系,在這3000左右的常用字上又進行信息的延展,這就有了詞。詞彙之外中文還有特殊的成語,成語包括了更深刻的意義,卻只用4個字來進行信息編碼。比如説刻舟求劍、鄭人買履、精衞填海。在這之上才組成了句子 。
信息編碼更為高級的階段,就是信息的相對模糊,形成的信息延展性。用中文很簡單的幾個信息:枯藤、老樹、昏鴉、小橋、流水、人家,古道西風瘦馬,夕陽西下。就可以構建出遠遠超出這些文字之外的意境,這是把信息編碼的延展能力達到了至高無上的境界。
通過多層次的信息系統的疊加,形成了更為複雜的信息體系,中國的普通老百姓對於很多價值觀和文化思想的理解,並不次於社會很好教育的人,所謂肉食者鄙。一個重要的原因就是中國語言和文字的信息系統編碼和延展效率非常高,最普通的中國人也可以接受深刻的道理。這件事情在西方是做不到的,社會下層的精神境界一般都很低,因為缺少教育,如果沒有系統的教育,不可能通過一般的閲讀獲得深刻的道理。
普通的中國人可以通過人生的經歷,一般性的閲讀打通自己和歷史的通道,達到很高的精神境界。所以在中國沒有貴族,因為在精神上普通人和貴族是平等的,獲取信息的差距不是很大。
人工智能一定需要簡潔高效的信息編碼方式,實現是人類和機器的交互,機器本身的信息處理也需要高效和有延展性。今天來看全世界沒有一種語言可以超越中文。所以中國人做出來的大語言模型,效率會更高,對於算力的依賴更低,這和用中文進行思維的思維方式是分不開的。
中華文明是人類世界更高級的文明,這件事情必須要明白,理解到這一點,你才能夠理解人類發展的大方向,才能看到技術的大趨勢。
