如何解決漢字的快速排序檢索?_風聞
夏国民-昨天 21:29
如何解決漢字的快速排序檢索?
——拼形文字(第8篇)
夏國民
漢字數量大、結構較複雜,千百年來一直缺乏一個快速、科學的檢字法。常用的幾種傳統檢字法都存在嚴重缺陷。1、部首檢字法歸部原則不明確、查字繁瑣(需要兩次數字畫、三次翻頁找);2、四角號碼檢字法歧義性強且規則龐雜;3、筆畫序列檢字法編碼冗長而費時費力;4、音序檢字法無法處理不知道讀音的字。因而長期以來,人們總是羨慕拼音文字按字母順序查字快。殊不知,如果單純討論查字典速度快,拼形文字是完全可以超越任何拼音文字的。
這裏先簡單介紹一個名為“漢字字根數碼檢字法”的檢字方案。該方案是用數字代碼縮寫漢字的方法將漢字數字化,能夠同時解決上述傳統檢字法的四個主要問題。
字根數碼檢字法是藉助目前廣泛使用的計算機標準鍵盤,將除Z以外的25個英文字母鍵,分為1至9個區,將二百多個字根分佈在各個字母鍵上(字根詳細形態另見字根表),檢字時用各自的區號代替字根並按規則編四碼,在對應的檢字表中對號入座查讀音。例如“座”字的字根依次是“廣、人、人、土”,檢字編碼是9881,對應的讀音是zuò,位列《通用規範漢字字典》第497頁。
字根數碼檢字法是把所有漢字分為字根字和非字根字兩種。以下是拆字和編碼規則。
(一)字根字,即字本身又是字根,總共有一百多個。例如“日、月、水、火,山、石、田、土”等。
1、字根字的拆字規則:將字根字按筆畫順序拆成“橫、豎、撇、點、折”五種單筆畫字根。例如,“方”字應拆成“丶、一、乙(折)、丿”四個單筆畫字根。這裏的拆字,採用的是漢字的第一種拆分方法,即“將漢字拆分為筆畫”(前面已詳細介紹過)。
2、字根字的編碼規則:按筆畫順序編成四個數字碼。即主要將筆畫“橫、豎、撇、點、折”,依次編為1、2、3、4、5。
(1)如果字根字的單筆畫字根數(即筆畫數)多於四個,取前三個和最後一個進行編碼(前三後一)。例如“金”字的檢字編碼是3411。
(2)如果字根字的筆畫數少於四個,則在後面補0至四碼。例如“人”字的檢字編碼是3400。
(二)非字根字,即字本身不是字根的成千上萬的大量普通漢字。
1、非字根字的拆字規則:順序按筆畫,簡單讓複雜,數量要最少,儘量不交叉。此規則可以簡稱為字根訣,簡單解釋如下。
(1)順序按筆畫:拆字分字根,按筆畫順序進行。例如“武”字應拆成“二、止、乙(折)、丶”四個字根。
(2)簡單讓複雜:一般情況下,筆畫少的字根要讓位於筆畫多的字根。例如“美”字應拆成“點撇、王、大”三個字根。
(3)數量要最少:將字拆分後所得的字根數量要求最少。例如“為”字應拆成“丶、力、丶”三個字根。
(4)儘量不交叉:在滿足以上條件的前提下,字根與字根之間儘量不要交叉。例如“知”字應拆成“撇橫、大、口”三個字根。
上述所稱的字根,是指各個漢字中相對簡單而且完全符合上述拆字規則的構字單位,一共有兩百多個。這裏採用的是漢字的第二種拆分方法,即“將漢字拆分為字根”,後續將詳細討論。
2、非字根字的編碼規則:按筆畫順序將字根等編成四個數字碼。
(1)如果字的字根數量多於四個,取前三個和最後一個(前三後一)進行編碼。例如“橫”字的檢字編碼是6618。
(2)如果字的字根數量只有三個,再將最後一筆重複使用一次,作為單筆畫字根來加長編碼。例如“最”字的檢字編碼是2554。
(3)如果字的字根數量只有兩個,編碼先按第(2)條的方法處理後再加0。例如“邊”字的檢字編碼是5940,又如“碼”字的檢字編碼是1510。
如果以字根數碼檢字法為主,按字根數碼的順序來編排如《新華字典》一樣的近萬個頭字的字典詞典,編碼從1000排到9999,都能井然有序。這樣一來,由於看到任何漢字便能快速讀出數碼,加之重碼字的同碼數量比較小,查漢字翻頁找,基本上是一次到位,因而原來字典上的檢字表都可以淘汰掉。
與拼音文字比較,查漢字將由世界上最困難的查字法變成最簡單的查字法。例如,查“書”字,字根數碼是5524。
由於0不代表字根,這裏每編一個數碼僅僅只是從9個阿拉伯數字中挑一個,而且每一個字都只有四個數碼。而查英文“書”的單詞“book”,每往右推進查找一個字母,要從26個英文字母中挑一個,況且常用單詞的字母數平均是在七個以上,查找時間自然比較長。
如果學熟了字根數碼檢字法(比部首檢字法易學),查一個字只需要幾秒鐘時間,頗具神奇魅力,只有漢字這種拼形文字才做得到。
歷來有一種社會現象,我國的大多數成年人都不習慣於經常查字典。為什麼呢?主要有以下幾個原因。一是根據拼形文字的形態,很多字都能夠透過偏旁猜出字的部分意思,例如:囿,很多人不知道該字的準確讀音,但從字面上就可以感覺到是被困住了;二是根據詞語中的前後字,就能夠琢磨出生字的部分意思,例如:淺嘗輒止,略微嘗試一下就停下來。三是以往的查字方法的確都比較麻煩,人都有不同程度的墮性,對待查字典,很多人採取的態度是得過且過。
補上查字的短板後,養成經常查字典的習慣,自然能夠不斷提高語言文字水平,無論個體,乃至社會,都值得期待。
下圖是字根數碼檢字法簡表,主要是為了方便初學者用於熟悉鍵盤方位,這裏還沒有嵌入字根。

(未完待續)