中文與空格_風聞
code2Real-有人就有江湖,有code就有bug2021-08-16 23:01
二十年前,曾經從事過自然語言處理,具體一點説,就是從事中文分詞工作。
那時,計算機要處理中文語料,需要事先將文本分成一個一個詞彙。
開始時,是一羣中文語言學家開發出中文分詞軟件,分詞速度每秒從幾十個到幾百個不等。
後來找了一個專業程序員,重新編寫分詞軟件,分詞工作在內存裏處理,不用來回讀寫磁盤文件,結果分詞速度提高了幾萬倍。
計算機處理中文語料之所以需要分詞,主要是受編譯器思維的影響。
編譯器總是將源代碼分解成抽象語言樹(AST),然後將AST轉化為相應的彙編符號。
計算機語言在設計時,為了方便編譯器工作,總是儘可能減少語言的歧義。
但自然語言總是存在歧義,因此基於語法樹的轉換其實並不適合自然語言處理。
隨着深度學習(deep learning)的興起,人們發現用AI處理中文語料其實不需要分詞,就象中國人在閲讀中文時其實不需要分詞一樣。甚至中國古代的文言不僅不需要分詞,而且連標點符號都沒有。
中國古代讀書人學會斷句。
人們對深度學習在自然語言上的應用印象深刻,但是忽視了深度學習對哲學上的影響。
現代知識的基礎其實是分類,沒有分類,我們人類有限的智力難以消化巨大的現實。
在軟件設計時,我們經常採用“分而治之”的方法分解模塊,分解到可以手動寫代碼的程度。
但是對於更復雜的系統,這種”分而治之“會面臨着無從下手的困難。
此外,過度的分化會導致整體的消失。把人分解成一個一個細胞,人的活力就失去了,人的意識就失去了。
深度學習的出現,意味着我們可以吞下更大的現實,我們需要做出改變的是接受深度學習吞下的東西。
在覆盤阿爾法狗的圍棋套路時,柯潔發現傳統的圍棋經驗被顛覆了。
傳統圍棋思維是“金角銀邊白肚皮”,人的智力總是沿着邊邊角角向中心試探,但是AI直接只在棋盤中心佈局。
阿爾法狗只需要自己與自己對弈十幾個小時,就能達到人類九段棋手的水平,就能參透人類幾千年來的圍棋經驗。
如果現實是大象,以前我們總是將大象分解成鼻子、腿、耳、尾、肚等幾分不相干的部分進行認識。以為大象長得象管子、柱子、扇子、蛇,牆。
以至於,科學家為光是波還是粒子爭論了很長時間,直到愛因斯坦提出波粒二象性。
我們的感官只能感覺低維屬性,對於高維的存在只能採用分析的方法。
當我們使用深度學習發現真正的大象或巨龍時,我們會不會因為葉公好龍而被嚇跑?
西方長期俯視中國,拒絕中國成為巨人的可能性。
當中國真正成為巨人時,西方選擇無視、抹黑。
因此可以肯定,基於分析的西方科學已經走向窮途末路了,他們無法接觸深度學習發現的巨龍。