登入 | English

感謝您對「自由軟體鑄造場」的支持與愛護，十多年來「自由軟體鑄造場」受中央研究院支持，並在資訊科學研究所以及資訊科技創新研究中心執行，現已完成階段性的任務。原網站預計持續維運至 2021年底，網站內容基本上不會再更動。本網站由 Denny Huang 備份封存。
也紀念我們永遠的朋友李士傑先生（Shih-Chieh Ilya Li）。

你知道嗎？漢字是組出來的（下）

建立日期 2007-01-22 08:00 最近更新在 2012-02-03 14:56 作者是張正一

為什麼會說有新字問題呢？化學元素表已經固定了嗎？其實非也，這幾年又發現了新元素，照例得造新字了。為什麼要造新字？漢字的本質，是一種形意文字，其最大的特色就是可以在單一方塊內呈獻精確、有條理、結構化的意涵，使可望形生意，在大腦一接收到視覺的信號就馬上聯結成意念達成理解，跟聲音無關（表音文字的話，看到字，先取得視覺信號，還要聯結到過去的聽覺信號記憶，才能聯結成意念，慢了一點），所以古代即使差異甚大的語族之間，仍可進行精確的書信溝通，書同文偉大的貢獻是也，比起拼音文字上有著很高的表意效率。然而文明科技是不斷往前走的，隨著時代發展，描述新事物的字各個朝代因應當代的文化、科技進展，不斷創新字，例如說，在商朝時，「文」初指花「文」、裝飾、線條、裝扮、色彩交錯等等，但是到了後來的朝代，文化開展，事物越來越複雜，所以新創了「紋」字表示實體肉眼可看到的規律，例如說花紋、獸紋、條紋等，「文」改用在描述抽像的規律，例如說文字、文章、人文（人類活動的規律）、水文等等；凹、凸是在唐朝時才被發明（可不是所有漢字都是遠古時代倉頡一個人完成，然後頒行萬世的）；清朝時，內憂外患，痛恨洋人，所以有了「犬英」、「犬美」等字，近代的科技發展了，發明了像化學元素的鈽、銪、醇、氚等百餘字以及浬、吋、呎等字表新式度量衡。

然而在進入電腦時代後，卻由於一字一碼，造字困難，使得新字再也沒有創造的空間，這帶來的是什麼呢？在最近新科技產生的新事物，就無法以傳統的會意、形聲組字法組出有表意效率的字，只能組詞了。這導致很多表示新出現的事物詞語只得越來越長，越來越缺乏溝通效率，越來越失去漢字原來的長處。不常用的還沒有關係，現代生活常用的，如：「Central Processing Unit」，中文的翻譯是中央處理單元，可說是電腦的心臟，買電腦、討論電腦一定會用到，但鮮有人慢慢的講「中央處理單元」，都直接說英文的新字：CPU了，CPU雖然是個縮寫，但是也已經是英文字典裡的新字了。那中文呢？中央處理單元實在太難用了，中處元、中處單、中元（中元節？）、中單的縮寫太怪異而且跟別的事物重疊根本沒人用，用微處理機更不對，雖然字數較少，但微處理機是processor的翻譯，processor可能是用作CPU，也可能是GPU（Graphics Processing Unit圖像處理單元），也可能是用作APU(Audio Processing Unit)處理的。一字一碼的結果導致了中文失去表意效率，只好讓英文來大量取代，前述的CPU，如果能有「電心」這一個新字的話，不是正合乎時代的需要嗎？關電燈、開電燈，事實上我們開的燈現代大半早已不是油燈，使用電燈是不需點火的，以形聲組字法組「電登」不就很合理嗎？現代的火箭火箭，「上箭下灬」不就正好可表示尾部噴火作動力的箭嗎？將來搞不好，竹子作的箭是博物館裡面才會陳列的呢。也許會有人說，漢字已經夠多了，常用的字很少，何必再產生更多的字出來？這是大謬不然，組字恢復了漢字精簡表達新概念的能力，彈性越大越好。就好比說，英文字母也能組出無窮盡的「英文字」，正如前文所述，如果規定英文單字也用一字一碼來表達，雖然電腦處理的效率最高，但卻失去自由造新字的能力，英文就「死掉了」。因此，犧牲一點處理效率，換取最大的彈性，對中文來說是攸關生死的。

此外還有錯字問題，錯字為什麼是問題呢？一個字的對與錯，其實是很主觀的，還跟時代歷史發展有關，例如說「錯」字本身，本來就是錯字，如果拿錯字給唐朝的李白看，他一定會說我們寫的「錯」字根本就不對！那個年代只有「誤字」，沒有錯字！何謂「錯」？錯的字義是描述交差繁雜的意思，所謂錯誤，是拿錯形容誤，表示誤的複雜到難以更正；今天我們說白天天空那顆幟熱散發能量的行星，叫作太陽，這更是錯的離譜，太陽是五行八卦裡面從太陰、少陰.....到太陽的數種狀態裡面的一種，古代對那顆白天飄在空中又紅又熱的恆星，叫作「日」，太陽出現一次，就是「一日」，日只不過有著太陽的屬性（太者大也，最陽剛的屬性），但不等於太陽，但現代都將錯就錯用錯了，足見正字跟錯字的判斷標準隨時代變遷而異，像近幾年有所謂的顏文字，例如冏rz、orz等字表示一個人失意地趴在地上，雖然老師們深惡痛絕，指年輕學子亂來，但這不也是六書裡面象形造字法的畫成其物，隨體詰詘的最佳典範嗎？年輕人能領悟漢字以形表意的核心能力，不是很好的事嗎？也許這樣的字，30年後就變成正確的字了，海納百川，有容乃大嘛。文字符號只要扮演如實記載的作用，好壞是非當代人自行心證。

拉回組字的主軸，在後續發展上，不得不提到葉健欣先生，他早年從事電子佛典的研發過程中，發現到缺字問題的嚴重性，而分別向謝教授學習缺字的表達方法，及從朱邦復先生處習得字形產生器的技術，正好易符智慧科技想從CPU開始打造獨立的嵌入式中文電腦，正在找嵌入式系統用的字庫方案，故一拍即合。由易符出資投入研發。經過了兩年，於2003 年初開發出與Unicode相容的動態組字系統及組字編輯器，不但解決了缺字問題，乃至避諱字、新字、錯字（教學用）、乃至民間合文，像過年時的「招財進寶」（一個字），都可以即時產生出來。

這個看似神奇的動態組字系統，其實原理相當簡單，主要由三個部份構成，其一為字形結構資料庫，如「明」由「日」和「月」所構成，這部份主要是基於謝教授與莊德明先生的研究成果，其二為部件的筆劃繪製指令(畫直線、曲線)，如「日」字是由四個繪圖指令所構成，其三是組字程序，以字碼或IDS做為輸入，根據字形結構庫和部件筆劃庫，將字形即時地產生出來。資料加程式一共2MB，即包含了七萬個中文字的部件結構、筆順等資訊，因此這個系統，不但是一個能生出「無窮字形」的字型檔，更可以用來做為部件檢字（輸入任意部件，即可以列出含有該部件的所有字）和筆順教學的基礎。

後來易符科技本身經營不順利，解散後，原技術團隊另行成立了剎那搜尋工坊，專注於人文資料處理和搜尋系統的研製。筆者本身很在意組字技術，只是一直當個觀望份子，就是想著，反正一定會有人去作的嘛。直到去年，謠傳聯合國廢除正體字時，造成國內一時的恐慌，面對對岸簡體字好寫、學習曲線較不陡峭等顯而易見的客觀好處，筆者發現，當時台灣的社會大眾雖然普遍熱心，但是在抗辯時，提出正體字好處的的論述，除了正宗、傳統、美觀這些主觀理由以外，完全提不出客觀的優點佐證，在外人眼裡，正體字只不過更成為合理收藏到博物館供作膜拜的理由了。如果自己都不夠瞭解自己引以為傲的正體字的話，還談的上力挽狂瀾嗎？

去年中因緣際會，由中研院的朋友居中介紹，認識了剎那搜尋工坊的朋友，個人覺得這技術實在太重要，不能再作壁上觀了，所以就開始投入其中，筆者現在是自由工作者，也是開放原碼軟體社群的一份子，渴望能讓這重要的技術能藉由開放原碼的力量，弘揚起來。筆者就向葉先生學習了組字技術，重新作了一個開放原碼的示範實作（本文的諸多附圖是也），一般人可以把他當組字實驗室，任意的玩弄，而程式設計師取得其源碼後，只要遵守該開放源碼許可證規範，就可移植到作業系統底層、應用軟體等。

此後，漢字將從一字一碼的困境解放出來，恢復應有的生命力。

筆者的示範程式只是個開始，要健全到每個作業系統底層都有漢字組字能力的話，還需要移植、字形的美化、動態組字的演算法提升、筆序碼研究等等，這諸多的工作需要許多專注文字研究、美學專家、以及程式設計師等的共同參與，特別是改應用程式永遠是緩不濟急，組字最好還是要在系統底層來解決，尤其是在開放原碼的Linux作業系統上，只要在圖形GUI描繪的底層如pango/cairo、抑或是FTF字形層解決這個問題，系統上所有的應用程式就一勞永逸，再也不會有缺字問題了。歡迎大家共襄盛舉，https://zhongwen.tw/，將是這一系列計劃的總站，也歡迎參觀筆者的blog，https://magicdesign.blogspot.com/，漢字的未來就掌握在你我的手中。

參考資料

1.正體中文網：https://www.zhongwen.tw/
2.組字創世紀：https://magicdesign.blogspot.com/2006/12/blog-post_116738543990596798.html
3.開放古籍平台的意義與實作：https://www.gaya.org.tw/journal/m39/39-main5.pdf
4.中研院文獻處理研究室論文集 https://www.sinica.edu.tw/~cdp/paper/pcatalog.htm
5.unicode的IDC https://unicode.org/charts/PDF/U2FF0.pdf
6.韋柏字典：英文究竟有多少字：https://www.m-w.com/help/faq/total_words.htm
7.朱邦復自傳，聚珍系統的記述：https://www.cbflabs.com/book/wisdom/html/cmu91.htm
8.漢字基因字典：https://www.cbflabs.com/book/dic/dichtml/dnadic/dnadicm.htm
9.謝清俊先生之簡介與訪談簡要：https://www.iis.sinica.edu.tw/EVENT/Activity/iis20/i05.html
10.漢字的故事，貓頭鷹出版社出版
11.漢語大字典
12.中央研究院古籍全文資料庫解決缺字問題的方法https://www.sinica.edu.tw/~cdp/paper/1998/19990511_1.htm
13.維基百科的避諱條目：https://zh.wikipedia.org/wiki/%E9%81%BF%E8%AE%B3
14.維基百科漢字條目：https://zh.wikipedia.org/wiki/%E6%BC%A2%E5%AD%97

◎ 關於本文

本文由張正一維護，本著作係採用創用 CC 「姓名標示─非商業性 2.5 台灣版」授權條款釋出。初載於：資訊與電腦雜誌 2007 年三月號，若有疑問，請不吝指教：shoichi.chou {at} gmail.com

您也許有興趣閱讀以下文章:

你知道嗎？漢字是組出來的（上） - 2007-01-22

自由軟體鑄造場電子報 : 第 77 期人才資料庫活動得獎名單揭曉

分類: 自由專欄

↑ Top

行動版

自由軟體鑄造場製作最佳瀏覽狀態：IE7或Firefox2.0以上 (建議使用Firefox) ‧ 解析度1024*768
E-Mail：[email protected] Address：台北市南港區研究院路2段128號中央研究院資訊科學研究所 . 隱私權條款. 使用條款

你知道嗎？漢字是組出來的（下）

參考資料

您也許有興趣閱讀以下文章:

專欄總覽