登入  |  English
感謝您對「自由軟體鑄造場」的支持與愛護,十多年來「自由軟體鑄造場」受中央研究院支持,並在資訊科學研究所以及資訊科技創新研究中心執行,現已完成階段性的任務。 原網站預計持續維運至 2021年底,網站內容基本上不會再更動。本網站由 Denny Huang 備份封存。
也紀念我們永遠的朋友 李士傑先生(Shih-Chieh Ilya Li)。
自由專欄 等待新漢碼-漢字的數位化與中華文化的衝擊(上)

等待新漢碼-漢字的數位化與中華文化的衝擊(上)

◎ 前言

一百多年來,中華民族在優勢的外來文明衝擊下,人民普遍喪失民族自信心,不僅使得中國傳統文化成了代罪羔羊,也使其更新的腳步停滯不前,無法受到應有的重視與發展。最無奈的是,許多中華文化的寶貴資產,就在這樣的時代大洪流中無聲無息流失!

今天,兩岸的大漢民族普遍都富足了,然而這種文化上的自卑,仍然存在著。所以當下重要工作就是促成中華文化的更新與再興。漢字是中華文化的根本材料,其影響無所不在,因此漢字的數位化工程,也就成了中華文化進化到數位時代的重要基礎工程。

漢字數位化工程中最基本的就是漢字表達的基礎結構。漢字數位架構的良窳,深深地影響到中文資料儲存成本、交換成本以及檢索效能等,也關係著中華文化的傳承與創新的能力。

◎ 漢字資訊的五大要素

自古漢字就由「形、音、義」三個要素所構成,在資訊時代則必需加上「碼」和「序」二個要素。

「碼」是電腦認定一個漢字的一個相對數字,通稱為「字碼」,所有的電腦的資料處理、資料交換都是針對「字碼」進行認定和處理。

「序」係人類認知的排列方式。由於有查找排序和比對等資料處理的需要,一個自然、共同認定的「字序」是一個文字系統重要而有價值的本質。以查字典為例,查 英文字典是簡單方便且準確,但查漢字字典就很不確定,這種問題相信你一定能感受到,這是因為漢字還沒有確定字序的原故。

◎ 當前的漢字資訊表達的情況

一、形
漢字字形的產生主要有點陣字和向量字兩種:

(一)點陣字形
點陣字對電腦來說其實是一種「字圖」,就是在有筆畫的地方描上細細的點。點陣字的好處就是處理簡單,缺點就是每一種尺寸都需要一 套點陣資料,因為一個點陣字就是一張圖片,且資料量與字形的大小成等比級數上升,字形變大,資料量快速變大。這使得記憶體受限的小型數位裝置所能提供的字形就非常有限。

另一方面,要從這點陣資料圖中取得有關這個字形的特徵資訊不多,因此,除了進行高級的影像處理外,點陣資料的進階處理並不容易。

(二)向量字形
向量字則是只記錄各筆畫內容的位置、長度寬度等字形資料,而在最後展現時,才由電腦轉換成點陣圖來呈現。

向量字的發展主要為解決點陣字資料量龐大的問題。但向量字形在呈現成點陣時所需要的轉換非常複雜,目前在機能不夠強大的數位設備上仍不易實現。

二、音
由於漢字是一種形意文字,與音韻並無緊密的連結,加上古今漢語音韻之變遷,形和音的對映是多對多的(多字同音,一字多音),其中字音可以簡單地用建表的方式解決。但如果要處理破音和語境問題,就涉及自然語言處理的範疇,這方面學術單位已有相當多的有關研究。

三、義
形是義的視覺介面,音是義的聽覺介面,有形無音,稱為「符號」,有音無形,叫作「語言」,只有同時具備形、音兩要素,才構成文字。

四、碼
中文在資訊時代的第一個挑戰是「編碼」,也就是為每一個漢字編上一個數字碼。一個漢字被編上一個對應的字碼,就無法進行數位化處理,也等於「不存在」在數位世界中,甚至會造成世界上「沒有這件事」的假象。

碼可分為「內碼」和「輸入碼」兩種,內碼是中文字的數位代碼,是方便電腦處理的代碼,人無法記憶,因此才衍生了各種方便人記憶或辨識的輸入法來產生相應的內碼,輸入碼主要是針對輸入漢字的人機介面,也是人和機器溝通時的中介表達方式。

(一)內碼
內碼的主要考量是軟體的相容性、儲存的效率和程式處理的簡易性,因為在這數位世界中,漢字字碼是無所不在的,因此漢字的處理成本,這也就成了無所不在的成本負擔。

在早期電腦的文字模式 (text mode) 時代,為了遷就 ASCII 碼表,故有 Big5、GB、 JIS 等雙字元(一個字元就是一個 BYTE,一個 BYTE= 8位元,雙字元= 16 位元)的設計。然而,電腦進入圖形模式的現在,字形在螢幕上的顯示,已不再限定為固定寬度,加上當今電腦的容量與速度,因此對於實際儲存的字元數以及運算 的複雜度已經不在,讓是中文內碼的設計上有了很大的自由度。

目前電腦平台上涵蓋面最廣、最成功的內碼 Unicode(統一碼),已經成為當今 Windows、Mac 及 Unix-like 等主流平台的內碼,因此 Unicode 事實上已取代 ASCII 、Big5、GBK 碼,成為各作業系統的預設編碼,並漸漸地成為國際間交換資料時主要的交換碼。

(二)輸入碼
輸入碼可分為「拆形」和「拼音」兩大類。「電腦中文化」的歷程就是利用英文電腦的鍵盤,編上部首和注音的映對鍵位。然而中文部首的數目遠遠超過了鍵盤的鍵數(「康熙字典」的基本部首有 224 個),因此就必須在有限的鍵盤上,用一個鍵對應多個部首的方式來輸入。

由於這些分解動作,都加入了人為指定與巧思,並非來自文字的本質,因此需要很多的學習和記憶,對漢字使用者無疑是建立了一個很大的門檻。現在社會上還有很 多人「不會電腦」,其實大部分都是「不會輸入」的意思。這種現象不僅在大人的世界發生,在兒童方面,也因為這個緣故,在電腦的啟蒙時間也被延後了,這使得 華文的小孩在電腦應用與普及上與英語世界相較,有輸在起跑點的無奈。 (待續)

關於作者:
陳昌江,網名阿江,部落格;畢業於台灣科技大學電機系,曾任易符智慧科技董事長(易符科技從事 CPU及嵌入系統的開發其中也包括中文字形及其相關的中文造字系統),現為「剎那搜尋工坊」籌備處負責人,主要從事中文資料庫之搜尋及中文缺字之處理。

本文章參考易符智慧科技所發表「中文資訊的表達與易符無限字庫」,針對當今中文數位化之困局加以剖析闡述,文中許多觀念源於中央研究院謝清俊教授之啟發及葉健欣先生之導入,特此銘謝。全文依據創用CC「姓名標示 2.5 台灣」授權條款出版,授權條款之詳細內容,請參考此處



您也許有興趣閱讀以下文章:




自由軟體鑄造場電子報 : 第 68 期 GPL 最新案例剖析

分類: 自由專欄