然而在進入電腦時代後,卻由於一字一碼,造字困難,使得新字再也沒有創造的空間,這帶來的是什麼呢?在最近新科技產生的新事物,就無法以傳統的會意、形聲組字法組出有表意效率的字,只能組詞了。這導致很多表示新出現的事物詞語只得越來越長,越來越缺乏溝通效率,越來越失去漢字原來的長處。不常用的還沒有關係,現代生活常用的,如:「Central Processing Unit」,中文的翻譯是中央處理單元,可說是電腦的心臟,買電腦、討論電腦一定會用到,但鮮有人慢慢的講「中央處理單元」,都直接說英文的新字:CPU了,CPU雖然是個縮寫,但是也已經是英文字典裡的新字了。那中文呢?中央處理單元實在太難用了,中處元、中處單、中元(中元節?)、中單的縮寫太怪異而且跟別的事物重疊根本沒人用,用微處理機更不對,雖然字數較少,但微處理機是processor的翻譯,processor可能是用作CPU,也可能是GPU(Graphics Processing Unit圖像處理單元),也可能是用作APU(Audio Processing Unit)處理的。一字一碼的結果導致了中文失去表意效率,只好讓英文來大量取代,前述的CPU,如果能有「電心」這一個新字的話,不是正合乎時代的需要嗎?關電燈、開電燈,事實上我們開的燈現代大半早已不是油燈,使用電燈是不需點火的,以形聲組字法組「電登」不就很合理嗎?現代的火箭火箭,「上箭下灬」不就正好可表示尾部噴火作動力的箭嗎?將來搞不好,竹子作的箭是博物館裡面才會陳列的呢。也許會有人說,漢字已經夠多了,常用的字很少,何必再產生更多的字出來?這是大謬不然,組字恢復了漢字精簡表達新概念的能力,彈性越大越好。就好比說,英文字母也能組出無窮盡的「英文字」,正如前文所述,如果規定英文單字也用一字一碼來表達,雖然電腦處理的效率最高,但卻失去自由造新字的能力,英文就「死掉了」。因此,犧牲一點處理效率,換取最大的彈性,對中文來說是攸關生死的。
此外還有錯字問題,錯字為什麼是問題呢?一個字的對與錯,其實是很主觀的,還跟時代歷史發展有關,例如說「錯」字本身,本來就是錯字,如果拿錯字給唐朝的李白看,他一定會說我們寫的「錯」字根本就不對!那個年代只有「誤字」,沒有錯字!何謂「錯」?錯的字義是描述交差繁雜的意思,所謂錯誤,是拿錯形容誤,表示誤的複雜到難以更正;今天我們說白天天空那顆幟熱散發能量的行星,叫作太陽,這更是錯的離譜,太陽是五行八卦裡面從太陰、少陰.....到太陽的數種狀態裡面的一種,古代對那顆白天飄在空中又紅又熱的恆星,叫作「日」,太陽出現一次,就是「一日」,日只不過有著太陽的屬性(太者大也,最陽剛的屬性),但不等於太陽,但現代都將錯就錯用錯了,足見正字跟錯字的判斷標準隨時代變遷而異,像近幾年有所謂的顏文字,例如冏rz、orz等字表示一個人失意地趴在地上,雖然老師們深惡痛絕,指年輕學子亂來,但這不也是六書裡面象形造字法的畫成其物,隨體詰詘的最佳典範嗎?年輕人能領悟漢字以形表意的核心能力,不是很好的事嗎?也許這樣的字,30年後就變成正確的字了,海納百川,有容乃大嘛。文字符號只要扮演如實記載的作用,好壞是非當代人自行心證。
拉回組字的主軸,在後續發展上,不得不提到葉健欣先生,他早年從事電子佛典的研發過程中,發現到缺字問題的嚴重性,而分別向謝教授學習缺字的表達方法,及從朱邦復先生處習得字形產生器的技術,正好易符智慧科技想從CPU開始打造獨立的嵌入式中文電腦,正在找嵌入式系統用的字庫方案,故一拍即合。由易符出資投入研發。經過了兩年,於2003 年初開發出與Unicode相容的動態組字系統及組字編輯器,不但解決了缺字問題,乃至避諱字、新字、錯字(教學用)、乃至民間合文,像過年時的「招財進寶」(一個字),都可以即時產生出來。
這個看似神奇的動態組字系統,其實原理相當簡單,主要由三個部份構成,其一為字形結構資料庫,如「明」由「日」和「月」所構成,這部份主要是基於謝教授與莊德明先生的研究成果,其二為部件的筆劃繪製指令(畫直線、曲線),如「日」字是由四個繪圖指令所構成,其三是組字程序,以字碼或IDS做為輸入,根據字形結構庫和部件筆劃庫,將字形即時地產生出來。資料加程式一共2MB,即包含了七萬個中文字的部件結構、筆順等資訊,因此這個系統,不但是一個能生出「無窮字形」的字型檔,更可以用來做為部件檢字(輸入任意部件,即可以列出含有該部件的所有字)和筆順教學的基礎。
後來易符科技本身經營不順利,解散後,原技術團隊另行成立了剎那搜尋工坊,專注於人文資料處理和搜尋系統的研製。筆者本身很在意組字技術,只是一直當個觀望份子,就是想著,反正一定會有人去作的嘛。直到去年,謠傳聯合國廢除正體字時,造成國內一時的恐慌,面對對岸簡體字好寫、學習曲線較不陡峭等顯而易見的客觀好處,筆者發現,當時台灣的社會大眾雖然普遍熱心,但是在抗辯時,提出正體字好處的的論述,除了正宗、傳統、美觀這些主觀理由以外,完全提不出客觀的優點佐證,在外人眼裡,正體字只不過更成為合理收藏到博物館供作膜拜的理由了。如果自己都不夠瞭解自己引以為傲的正體字的話,還談的上力挽狂瀾嗎?
去年中因緣際會,由中研院的朋友居中介紹,認識了剎那搜尋工坊的朋友,個人覺得這技術實在太重要,不能再作壁上觀了,所以就開始投入其中,筆者現在是自由工作者,也是開放原碼軟體社群的一份子,渴望能讓這重要的技術能藉由開放原碼的力量,弘揚起來。筆者就向葉先生學習了組字技術,重新作了一個開放原碼的示範實作(本文的諸多附圖是也),一般人可以把他當組字實驗室,任意的玩弄,而程式設計師取得其源碼後,只要遵守該開放源碼許可證規範,就可移植到作業系統底層、應用軟體等。
此後,漢字將從一字一碼的困境解放出來,恢復應有的生命力。
筆者的示範程式只是個開始,要健全到每個作業系統底層都有漢字組字能力的話,還需要移植、字形的美化、動態組字的演算法提升、筆序碼研究等等,這諸多的工作需要許多專注文字研究、美學專家、以及程式設計師等的共同參與,特別是改應用程式永遠是緩不濟急,組字最好還是要在系統底層來解決,尤其是在開放原碼的Linux作業系統上,只要在圖形GUI描繪的底層如pango/cairo、抑或是FTF字形層解決這個問題,系統上所有的應用程式就一勞永逸,再也不會有缺字問題了。歡迎大家共襄盛舉,https://zhongwen.tw/,將是這一系列計劃的總站,也歡迎參觀筆者的blog,https://magicdesign.blogspot.com/,漢字的未來就掌握在你我的手中。
本文由張正一維護,本著作係採用創用 CC 「姓名標示─非商業性 2.5 台灣版」授權條款釋出。初載於:資訊與電腦雜誌 2007 年三月號,若有疑問,請不吝指教:shoichi.chou {at} gmail.com