登入  |  English
感謝您對「自由軟體鑄造場」的支持與愛護,十多年來「自由軟體鑄造場」受中央研究院支持,並在資訊科學研究所以及資訊科技創新研究中心執行,現已完成階段性的任務。 原網站預計持續維運至 2021年底,網站內容基本上不會再更動。本網站由 Denny Huang 備份封存。
也紀念我們永遠的朋友 李士傑先生(Shih-Chieh Ilya Li)。
自由專欄 你知道嗎?漢字是組出來的(下)

你知道嗎?漢字是組出來的(下)

為什麼會說有新字問題呢?化學元素表已經固定了嗎?其實非也,這幾年又發現了新元素,照例得造新字了。為什麼要造新字?漢字的本質,是一種形意文字,其最大的特色就是可以在單一方塊內呈獻精確、有條理、結構化的意涵,使可望形生意,在大腦一接收到視覺的信號就馬上聯結成意念達成理解,跟聲音無關(表音文字的話,看到字,先取得視覺信號,還要聯結到過去的聽覺信號記憶,才能聯結成意念,慢了一點),所以古代即使差異甚大的語族之間,仍可進行精確的書信溝通,書同文偉大的貢獻是也,比起拼音文字上有著很高的表意效率。然而文明科技是不斷往前走的,隨著時代發展,描述新事物的字各個朝代因應當代的文化、科技進展,不斷創新字,例如說,在商朝時,「文」初指花「文」、裝飾、線條、裝扮、色彩交錯等等,但是到了後來的朝代,文化開展,事物越來越複雜,所以新創了「紋」字表示實體肉眼可看到的規律,例如說花紋、獸紋、條紋等,「文」改用在描述抽像的規律,例如說文字、文章、人文(人類活動的規律)、水文等等;凹、凸是在唐朝時才被發明(可不是所有漢字都是遠古時代倉頡一個人完成,然後頒行萬世的);清朝時,內憂外患,痛恨洋人,所以有了「犬英」、「犬美」等字,近代的科技發展了,發明了像化學元素的鈽、銪、醇、氚等百餘字以及浬、吋、呎等字表新式度量衡。

然而在進入電腦時代後,卻由於一字一碼,造字困難,使得新字再也沒有創造的空間,這帶來的是什麼呢?在最近新科技產生的新事物,就無法以傳統的會意、形聲組字法組出有表意效率的字,只能組詞了。這導致很多表示新出現的事物詞語只得越來越長,越來越缺乏溝通效率,越來越失去漢字原來的長處。不常用的還沒有關係,現代生活常用的,如:「Central Processing Unit」,中文的翻譯是中央處理單元,可說是電腦的心臟,買電腦、討論電腦一定會用到,但鮮有人慢慢的講「中央處理單元」,都直接說英文的新字:CPU了,CPU雖然是個縮寫,但是也已經是英文字典裡的新字了。那中文呢?中央處理單元實在太難用了,中處元、中處單、中元(中元節?)、中單的縮寫太怪異而且跟別的事物重疊根本沒人用,用微處理機更不對,雖然字數較少,但微處理機是processor的翻譯,processor可能是用作CPU,也可能是GPUGraphics Processing Unit圖像處理單元),也可能是用作APU(Audio Processing Unit)處理的。一字一碼的結果導致了中文失去表意效率,只好讓英文來大量取代,前述的CPU,如果能有「電心」這一個新字的話,不是正合乎時代的需要嗎?關電燈、開電燈,事實上我們開的燈現代大半早已不是油燈,使用電燈是不需點火的,以形聲組字法組「電登」不就很合理嗎?現代的火箭火箭,「上箭下灬」不就正好可表示尾部噴火作動力的箭嗎?將來搞不好,竹子作的箭是博物館裡面才會陳列的呢。也許會有人說,漢字已經夠多了,常用的字很少,何必再產生更多的字出來?這是大謬不然,組字恢復了漢字精簡表達新概念的能力,彈性越大越好。就好比說,英文字母也能組出無窮盡的「英文字」,正如前文所述,如果規定英文單字也用一字一碼來表達,雖然電腦處理的效率最高,但卻失去自由造新字的能力,英文就「死掉了」。因此,犧牲一點處理效率,換取最大的彈性,對中文來說是攸關生死的

此外還有錯字問題,錯字為什麼是問題呢?一個字的對與錯,其實是很主觀的,還跟時代歷史發展有關,例如說「錯」字本身,本來就是錯字,如果拿錯字給唐朝的李白看,他一定會說我們寫的「錯」字根本就不對!那個年代只有「誤字」,沒有錯字!何謂「錯」?錯的字義是描述交差繁雜的意思,所謂錯誤,是拿錯形容誤,表示誤的複雜到難以更正;今天我們說白天天空那顆幟熱散發能量的行星,叫作太陽,這更是錯的離譜,太陽是五行八卦裡面從太陰、少陰.....到太陽的數種狀態裡面的一種,古代對那顆白天飄在空中又紅又熱的恆星,叫作「日」,太陽出現一次,就是「一日」,日只不過有著太陽的屬性(太者大也,最陽剛的屬性),但不等於太陽,但現代都將錯就錯用錯了,足見正字跟錯字的判斷標準隨時代變遷而異,像近幾年有所謂的顏文字,例如冏rzorz等字表示一個人失意地趴在地上,雖然老師們深惡痛絕,指年輕學子亂來,但這不也是六書裡面象形造字法的畫成其物,隨體詰詘的最佳典範嗎?年輕人能領悟漢字以形表意的核心能力,不是很好的事嗎?也許這樣的字,30年後就變成正確的字了,海納百川,有容乃大嘛。文字符號只要扮演如實記載的作用,好壞是非當代人自行心證。

拉回組字的主軸,在後續發展上,不得不提到葉健欣先生,他早年從事電子佛典的研發過程中,發現到缺字問題的嚴重性,而分別向謝教授學習缺字的表達方法,及從朱邦復先生處習得字形產生器的技術,正好易符智慧科技想從CPU開始打造獨立的嵌入式中文電腦,正在找嵌入式系統用的字庫方案,故一拍即合。由易符出資投入研發。經過了兩年,於2003 年初開發出與Unicode相容的動態組字系統及組字編輯器,不但解決了缺字問題,乃至避諱字、新字、錯字(教學用)、乃至民間合文,像過年時的「招財進寶」(一個字),都可以即時產生出來。

 

這個看似神奇的動態組字系統,其實原理相當簡單,主要由三個部份構成,其一為字形結構資料庫,如「明」由「日」和「月」所構成,這部份主要是基於謝教授與莊德明先生的研究成果,其二為部件的筆劃繪製指令(畫直線、曲線),如「日」字是由四個繪圖指令所構成,其三是組字程序,以字碼或IDS做為輸入,根據字形結構庫和部件筆劃庫,將字形即時地產生出來。資料加程式一共2MB,即包含了七萬個中文字的部件結構、筆順等資訊,因此這個系統,不但是一個能生出「無窮字形」的字型檔,更可以用來做為部件檢字(輸入任意部件,即可以列出含有該部件的所有字)和筆順教學的基礎。

 

後來易符科技本身經營不順利,解散後,原技術團隊另行成立了剎那搜尋工坊,專注於人文資料處理和搜尋系統的研製。筆者本身很在意組字技術,只是一直當個觀望份子,就是想著,反正一定會有人去作的嘛。直到去年,謠傳聯合國廢除正體字時,造成國內一時的恐慌,面對對岸簡體字好寫、學習曲線較不陡峭等顯而易見的客觀好處,筆者發現,當時台灣的社會大眾雖然普遍熱心,但是在抗辯時,提出正體字好處的的論述,除了正宗、傳統、美觀這些主觀理由以外,完全提不出客觀的優點佐證,在外人眼裡,正體字只不過更成為合理收藏到博物館供作膜拜的理由了。如果自己都不夠瞭解自己引以為傲的正體字的話,還談的上力挽狂瀾嗎?

去年中因緣際會,由中研院的朋友居中介紹,認識了剎那搜尋工坊的朋友,個人覺得這技術實在太重要,不能再作壁上觀了,所以就開始投入其中,筆者現在是自由工作者,也是開放原碼軟體社群的一份子,渴望能讓這重要的技術能藉由開放原碼的力量,弘揚起來。筆者就向葉先生學習了組字技術,重新作了一個開放原碼的示範實作(本文的諸多附圖是也),一般人可以把他當組字實驗室,任意的玩弄,而程式設計師取得其源碼後,只要遵守該開放源碼許可證規範,就可移植到作業系統底層、應用軟體等。

此後,漢字將從一字一碼的困境解放出來,恢復應有的生命力。

筆者的示範程式只是個開始,要健全到每個作業系統底層都有漢字組字能力的話,還需要移植、字形的美化、動態組字的演算法提升、筆序碼研究等等,這諸多的工作需要許多專注文字研究、美學專家、以及程式設計師等的共同參與,特別是改應用程式永遠是緩不濟急,組字最好還是要在系統底層來解決,尤其是在開放原碼的Linux作業系統上,只要在圖形GUI描繪的底層如pango/cairo、抑或是FTF字形層解決這個問題,系統上所有的應用程式就一勞永逸,再也不會有缺字問題了。歡迎大家共襄盛舉,https://zhongwen.tw/,將是這一系列計劃的總站,也歡迎參觀筆者的blog,https://magicdesign.blogspot.com/,漢字的未來就掌握在你我的手中。

參考資料


1.正體中文網:https://www.zhongwen.tw/
2.組字創世紀:https://magicdesign.blogspot.com/2006/12/blog-post_116738543990596798.html
3.開放古籍平台的意義與實作:https://www.gaya.org.tw/journal/m39/39-main5.pdf
4.中研院文獻處理研究室論文集 https://www.sinica.edu.tw/~cdp/paper/pcatalog.htm
5.unicodeIDC https://unicode.org/charts/PDF/U2FF0.pdf
6.韋柏字典:英文究竟有多少字:https://www.m-w.com/help/faq/total_words.htm
7.朱邦復自傳,聚珍系統的記述https://www.cbflabs.com/book/wisdom/html/cmu91.htm
8.漢字基因字典https://www.cbflabs.com/book/dic/dichtml/dnadic/dnadicm.htm
9.謝清俊先生之簡介與訪談簡要:https://www.iis.sinica.edu.tw/EVENT/Activity/iis20/i05.html
10.漢字的故事,貓頭鷹出版社出版
11.漢語大字典
12.中央研究院古籍全文資料庫解決缺字問題的方法https://www.sinica.edu.tw/~cdp/paper/1998/19990511_1.htm
13.維基百科的避諱條目:https://zh.wikipedia.org/wiki/%E9%81%BF%E8%AE%B3
14.維基百科漢字條目:https://zh.wikipedia.org/wiki/%E6%BC%A2%E5%AD%97
◎ 關於本文

本文由張正一維護,本著作係採用創用 CC 「姓名標示─非商業性 2.5 台灣版」授權條款釋出。初載於:資訊與電腦雜誌 2007 年三月號,若有疑問,請不吝指教:shoichi.chou {at} gmail.com



您也許有興趣閱讀以下文章:




自由軟體鑄造場電子報 : 第 77 期 人才資料庫活動得獎名單揭曉

分類: 自由專欄