漢字的優勢從APP霸榜就能體現,現在來到了大模型_風聞
陈经-亚洲视觉科技研发总监-50分钟前
1. 中國APP在美國榜單上,都能在前十佔據6個位置。以前印度榜單上也是一大堆中國APP,後來被禁了一堆,近期又有36個悄悄回來了。在全球各國經常有中國APP忽然火起來。這是什麼原因?
2. 法國電視節目討論了,一個妹子對中國很熟悉,有中國男友。她解釋説,這是因為中國人用漢字,是二維表意的,而西方人是一維線性文字。這導致了思維方式的根本不同,中國人更關注文字、畫面的整體,而西方人更關注局部、焦點。例如西方APP界面,需要突出一個按鈕,一個文字提示;而中國APP先給人整體的感覺,佈局會更為深遠考慮,一層層推進。
3. 妹子説,這個思維讓中國APP明顯有設計優勢,有很多優秀的設計,能更好滿足客户要求,快速滿足常用需求。如所有中國APP都能快速完成支付,而西方的需要設置一堆東西,有時要幾十分鐘。
4. 近期大模型讓全球進一步認識到了漢字的優勢,有的西方大模型居然用漢字思考了。不少西方人驚訝,在受到嚴重限制的情況下,中國居然迅速在大模型上取得了突破。有的西方使用者評論説,deepseek在英文“創意寫作”上表現極好。這是漢字體系優勢的另一個表現,而且更為本質。
5. 漢字表意,不僅有二維的整體特性,在“詞元”token之間的關聯上,與英語等線性文字體系,有截然不同的拓撲結構。大模型最大的任務就是為各種詞言的詞元建立關聯權重,漢字明顯有優越性,關聯更有邏輯,如豬肉、牛肉、雞肉,一月、二月、三月,關聯非常自然,在英語裏卻全是看上去沒有相關性的詞。而且漢字能夠輕鬆擴展包含融合進新概念,不需要發明新字,甚至可以減少許多字。漢字體系是“先難後易”,學會了隨便看點什麼知識水平就不斷進步,而西方社會容易產生知識非常貧乏的人,很多成年人閲讀理解能力相當成問題。
6. Deepseek的性能進步,除了大模型數據結構、訓練算法、代碼優化,新聞裏沒有説的,是對中文訓練數據的整理、評估。業界傳Deepseek非常重視數據標註,梁文鋒自己都來打標,請北大中文博士來打標。高質量的數據,就象嚴師,讓Deepseek R1有了非常強大的中文能力。它似乎以中文思維為底座,有了不一樣的靈活思維,羣眾普遍反應和以前的大模型不一樣。即使用英文輸出,在創新寫作上也能表現出能力。
7. 因此,Deepseek取得性能突破,很可能受益於中文體系。一個簡單的事實是,只有中文和英文能夠以自己為主,構建對人類知識體系的完整理解。許多語言甚至連科學詞彙都沒有,生造新詞也不行,還不如改學英文或中文。

