漢字字根數碼檢字法的基本原理_風聞
夏国民-13小时前
漢字字根數碼檢字法的基本原理
——拼形文字(第9篇)
夏國民
漢字字根數碼檢字法的基本原理,是綜合利用阿拉伯數字排列簡單,漢語一字一音讀數簡單,世界通用的QW計算機鍵盤佈局,依據筆順規範儘可能地將漢字拆分為“塊”,採用數字代碼進行編排的方法,深度且簡捷地將漢字數字化,從而結束漢字長久以來無法進行有效排序的歷史。
數碼查字是按照編碼的數字順序直接查找。掌握了字根數碼檢字法後,針對《通用規範漢字字典》,只要利用對應編排的“字根數碼檢字表”,定睛一個漢字,無論使用者是否知道讀音,立刻就能轉換成4個數碼,幾秒鐘就能查到字的準確讀音。例如查“芻”字,數碼是8510,讀chú,位列《通用規範漢字字典》第49頁。

不僅如此,根據“漢字字根數碼檢字表”上的讀音,要進一步瞭解字的詳細釋義,所有含有漢語拼音的字典都能利用。
更進一步,藉助“字根數碼”教識字,因全部“分塊”而易學。例如,將“狗”拆成“犭、勹、口”三個字根,即分為“5、8、2”三塊。這是一種簡捷的分解式熟記漢字的學習方法,稱呼簡單,記憶爽快,不拖泥帶水。
字根數碼便於“識字、寫字、檢字、打字”四位一體教學。
實際上,漢字字根數碼檢字法主要是借鑑了王雲五先生《四角號碼檢字法》的數字代碼方式,繼承了王永民教授五筆字型拆字高效的優點,吸收了筆畫檢字法拆字易學的長處。下面分別予以簡單介紹。
利用阿拉伯數字轉換成漢字號碼排序檢字,始於二十世紀初,當時出現過數十種方法,歷史都比較短,其中影響最大的首推四角號碼檢字法,該方法由王雲五先生髮明。四角號碼完全拋開了漢字的字音、字義,對漢字構形上的解釋也與傳統漢字分析方式大相徑庭,既不考慮字的讀音,也不看重字的偏旁,而是假定每一個漢字都有四個角,根據四角形狀的局部特徵代之以四個數字號碼,並按由小到大的順序排列,查檢漢字時按號索驥。歌訣為:1橫2垂3點捺,叉4插5方塊6,7角八8小是9,點下有橫變0頭。如果能熟練使用《四角號碼字典》,查檢速度很快捷,直到現在仍然有人認為是一種很優秀的檢字法。例如“轎”的號碼是4252,判定四角號碼後,按數字順序直接翻到正文4252處即可找到該字。
五筆字型是王永民教授於上世紀八十年代初發明的一種漢字輸入法,以高效拆字著稱,是將大多數漢字的常用形旁和筆畫相對較少的字或構形作為字根,用以分解漢字,故能夠快速還原(打字)。
筆畫序列檢字法是根據單字筆畫數量的多少和橫豎撇捺折五類筆畫的先後順序來查檢漢字,其方法建立在筆順基礎知識之上,由於有規律可循,容易學習,不易忘記。
在借鑑、繼承、吸收以上三種方法優點的同時,字根數碼檢字法克服了四角號碼檢字法歧義多、筆畫檢字法查字太慢、音序法依賴音、部首查字法繁瑣的缺點。
首先,詳細説一下四角號碼檢字法的缺點。
由於漢字形體千差萬別,結構多樣,形狀不規則,對漢字四角筆形的認識理解,往往會因人而異。如果使用者的理解認識與《四角號碼字典》編者的認識不一致,查錯一個角,就可能找不到要查找的漢字,何況漢字四角都有查錯的可能性,缺點顯而易見。
1、歧義性強。四角號碼的歧義性突出表現在以下三個方面。
一是認知模糊。例如“戲”字,其四角號碼是1345,規定左上角處理為橫1,右上角為點3,左下角為叉4,右下角處理為插5。但“風”字是7721,左下角為垂2,右下角卻規定處理為橫1。不難看出,“戲、風”二字兩下角筆畫都相同,而編碼不一樣。
二是規定不一。四角號碼既規定用過的筆形后角作0,又規定一筆可以分角取號,自相矛盾。例如“扎”字的四角號碼是5201,其中提手旁左上角取號插5,左下角筆形算用過作0處理;而右偏旁右上角先取了2,右下角卻又取1即沒有作0處理。
三是取筆牽強。四角號碼有些字的取號角形不易理解,例如“籌”字,號碼是8834,左下角取筆形點,令人迷惑,取插5或取垂2,似乎都比居中取點3更為合理。
關於四角號碼的歧義,早在1928年萬國鼎先生就指出:“四角亦非固定基礎。雖有人為的規定,頗涉細碎,易生誤會。”
2、離散性差。
四角號碼檢字法對漢字的排列從0000開始至9999結束,理論上能夠排列一萬個漢字不重複。但由於漢字中很多字四個角中有三個角甚至四個角相同,號碼分佈不均勻,編碼雷同現象比較普遍。例如“病”的四角號碼是0012,其外圍“疒”就佔據了三個角,故前三個號碼都是001,至使大量的同類字只能靠右下角的不同筆形,才能在編碼上有所區別。根據對2004年出版的“第10版《新華字典》大字本”其中所附的“四角號碼檢字表”進行統計,在該字典所收7830個頭字中,有38個字的號碼都是4422,編碼4422是其中重碼字最多的號碼,另有7個編碼重碼字都在31個以上,有109個編碼的重碼字都在11個以上。
為了增加離散性,四角號碼檢字法除按規定編完四角號碼後,還另外加一個附號,實際上四角號碼檢字法各字都有五個號碼。但即便增加附號進一步處理,象“幾、凡、風、鳳、凰、夙、肌”等七字,不僅四角號碼7721一樣,第五個號碼還都是一樣為0。
3、規則太多。
四角號碼檢字法除主要表格和口訣外,查字方法另外還有十五六條詳細規定,每條規定之下都各有一串典型的不同字例示範。以上還不包括“新舊檢字法比較”所列主要修改的五個項目,後者除有一頁説明外,還有長達八頁的新舊號碼對照表。
人類大腦的記憶能力有限。四角號碼檢字法附帶了太多的規則,僅用於查字,即使熟練掌握了,也容易逐漸生疏。
其次,再説説筆畫序列和音序檢字法。
筆畫序列檢字法是按筆畫數的多少排列,現在改進了的方法是,首先數單字的總筆畫數,第二步找到對應的筆畫數頁面,然後根據前兩筆不同的二十五種形式分類(按一、丨、丿、丶、乙依次排列)裏面去找。由此可見,以全筆畫按筆畫順序排列作為查字法,使用效率仍然較低。
音序檢字法對待多音字,是根據讀音將字分別放在不同的頁面。我國大陸目前使用的字詞典,其正文內容大多是以漢語拼音字母順序來排列的。對於不知道讀音的字,音序檢字法無能為力,這是其主要問題。
另外,母語為漢語的大多數人實際上只識字四千個左右,《新華字典》中差不多有一半的字不是真正認識。音序法需要讀準字音才能查字義,受方言影響,很多人使用時有障礙。加之漢語同音字太多,例如在第11版《新華字典》中yi的同注音字是148個,在眾多同音字中要找到所查的字,並不是很容易。