中文使用者遇到電腦時,就一定會碰觸到中文資訊處理(CIP; Chinese Information Processing)的問題。舉凡瀏覽中文網頁、透過鍵盤輸 入中文字、在螢幕上顯示中文字、選用不同的中文字體來列印文件等 等日常生活的行為,都和中文資訊處理息息相關。
一、「中文資訊處理」的意義是什麼?這個詞涵蓋了哪些範圍?
那麼,中文資訊處理涵蓋了哪些範圍呢?簡單地說,可以從「外表看 得到的」和「裡面在運作的」兩個層次,由外到內來做個列舉 :
(一)中文的顯示(包含中文字型、中文列印等);
(二)中文的輸入(包含輸入法、文字辨識等);
(三)中文語言資料的處理(例如中文詞庫、中文斷字、翻譯);
(四)中文應用軟體(例如原生的中文軟體,及外國軟體的中文化);
(五)中文內碼(包含character code、codepage等);
(六)中文字的組構及表示方式。
舉例來說,在使用文書處理軟體時,使用者主要關心的是如何輸入中 文、如何顯示及印出中文文件;在文件建立過程中,使用者也希望能 搜尋或排序中文資訊;但是,比較少關心中文軟體裡面的工作原理, 也很少擔心中文儲存的問題,這些都是屬於「裡面在運作」的部份。
不過,上述的列舉並不等於中文資訊處理的全部。舉例來說,台灣目 前有將過去中文古籍數位化的計劃,亦即將過去的古書整理為可於電 腦資料庫中取用的資料,然而靠人工輸入古籍的文字相當費時費工, 因此有了借重 OCR(光學字母辨識)技術來輔助此一任務的想法。此 刻,「中文數位化」便不只是一個中文輸入的問題,而是涉及了中文 字的影像辨識,以及辨識資料如何透過語料庫或詞庫進行修訂的知識 與技術。
而 這些中文數位化、中文詞庫、中文語言處理、中文理解的問題,又 和中文的語言知識、中文的語言結構有所關聯,涵蓋的層面及所涉及 的知識,都相當地深廣。加上新的技術和需求,帶來新的中文資訊處 理問題(例如高解析度輸出設備需要高點數的中文字型配合,才能有 令人滿意的輸出結果),新的作業系統(例如 GNU Linux 的興起) 與新的思考方式(開放源碼的作業及思考模式),也帶來了新的挑戰 與新的可能性。這些內在與外在的因素,都使得中文資訊處理的領域, 仍然有許多待開發的空間,相關的工作持續需要投入資源來推展。
二、中研院資訊所對中文資訊處理的期許與成果
因 為長期投入「語言與知識處理」及「文獻整理」的研發工作,中研 院資訊所在中文資訊處理的領域,歷經二十餘年的研究發展,累積相 當豐碩的成果。在研究方法上,針對中文語言的特性及需要,進行問 題的探討與分析,一方面對漢字字形的結構做制式表達與辨識,另一 方面為中文資訊的擷取、應用、表達,打下自動化知識建構的基礎。 目前,不但能夠有效地自動分析網路上產生的大量中文資訊,也針對 中文系統缺字問題,提出根本的解決方法。
資訊所在中文資訊處理的成果,將透過自由軟體鑄造場的彙整,提供 資訊所對外界的一項服務。成果的彙整上,可概分為形、義、音,三 種面向,它們是源自於缺字問題的解決,以及建立完整的中文知識網 的需要。
因 為漢字是一個開放性質的字集,依古今的變異、專業與應用環境的 差異,漢字有了字數、字形、字音、以及字義上的變化,這成為中文 資訊處理的一項挑戰。單純就字數而言,中文字並不適合作固定數量 的限定,這點與數量固定的西方語文「字母集」相較,是不可以一概 而論的。然而,現行漢字交換碼的結構,卻仿照西方語文的字母集結 構來設計,自然容易產生許多困擾。
早 期,中研院進行古籍數位化工作,累積了近萬個中文缺字。為了解 決缺字問題,資訊所的謝清俊研究員帶領文獻處理實驗室同仁莊德明 研究助技師與助理,徹底分析了古籍、漢語字典、各國字集標準等資 料,以「構字式」為基礎,建構了「漢字構形資料庫」系統,不僅以 構字式完成漢字的表達與識別,還克服了兩項大問題: 一是將古今字 形與古今構字的銜接和對映,二是針對異體字形的表達和處理。
為了支援構字式的表達呈現,目前已整理出四萬餘字的兩套字型,公 開讓各界使用。隨系統附有楷體、明體、小篆、金文、甲骨文、楚系 文字等字型,使用者可由 OpenFoundry 網站「中文應用」的網址( 註一)下載楷體、明體兩套 True Type Font,或安裝整套漢字構形 資料庫系統以取得所有字型檔案。另外,也能利用系統裡的異體字資 料庫,來提高中文資料檢索的精確度。
除了可以下載漢字構形資料庫的字型之外,資訊所目前也正在推動構 字式的基礎項目納入標準,並針對主計處的全字庫字型,進行構字式 的分析,在搭配簡易操作的輸入法環境及造字系統之後,將可有效協 助構字式及全字庫的推廣使用。
另一方面,如何將網路上不斷成長的資料,轉化成有用的資訊與知識, 也是中文資訊處理的重要課題,這部份屬於中文字義的應用領域,包 括資訊的檢索、語意的查詢、知識的抽取等。由簡立峰研究員帶領的 網路知識擷取實驗室,所開發釋出的 PAT-tree 中文抽詞程式,就是 一套建立中文語詞庫的基礎工具程式。由陳克健研究員帶領的中文詞 知識庫小組,則長期維護中文詞彙庫及語料庫等的中文處理基礎建設。 透過上述成果的整合,可以協助中文語文專家及搜尋引擎系統開發者, 有效建立字辭庫的內容。
在中文辨識系統方面,由張復副研究員帶領的文件分析與辨識實驗室, 已完成一套架構在 GNU Linux 作業系統上的軟體,可以進行中文文 件的辨識及管理。王新民副研究員則完成了中文語音辨識及語音資訊 檢索系統,如何提昇語音辨識率及檢索效能,則是進一步研發的方向。
在 語言與知識處理的方面,成果也是相當豐富。在注音自動轉國字的 軟體方面,包括許聞廉研究員及其團隊開發的「自然輸入法」,以及 徐讚昇研究員指導龔律全、陳康本所設計的「酷音輸入法」。自然輸 入法軟體提供下載試用至今,總下載次數已接近八十三萬人次。「酷 音輸入法」則是成為 Open Source 社群開發智慧型輸入法的重要基礎。
三、開放源碼為中文資訊處理帶來新的開發模式
開放源碼軟體(OSS; Open Source Software)不只是源碼的公開, 更是一套思考問題的流程。當前世界很多的OSS成功案例,都說明了 開放源碼開發模式不只成就了某幾套軟體,更組織了來自世界各地、 不同背景及不同才能的社群。OSS 的專案強調協力合作、資源的共享 與公開、對問題的迅速回應與修正。
這樣思考問題的流程,對於中文資訊處理領域,也有所幫助。中文資 訊處理的問題,以往通常得仰賴少數集中的資訊廠商(例如特定的軟 體供應商、作業系統生產者等等)來解決,這些廠商如果只採用專屬 (proprietary) 開發模式,一旦環境改變、軟硬體版本更新、廠商 易手或失去市場動機,中文資訊處理的問題往往又回到了原點。開放 源碼在這一個面向上,提供了新的機會及加值模式。另一方面,許多 關於中文內碼(或者是國際標準碼中的中文碼段)、中文顯示及輸入、 軟體的中文化(本地化,localization)等議題,都是以在 GNU Linux 或其他開放源碼平台上做為討論的基礎。當然,GNU Linux並 不是開放源碼的全部,但不可否認的是,推行以Linux(或其他開放 源碼的作業系統平台)為基礎的中文應用環境,確實是當前解決中文 資訊處理問題的重要方向。
對於中文資訊處理這個領域,自由軟體鑄造場(OSSF) 也期許自己能 扮演積極的角色。鑄造場所奠基的 OpenFoundry 系統,是一套功能 完整的軟體開發平台,可以幫助開發者管理專案,包括專案的發佈、 檔案的倉儲、版本的管理、建立及文件內容的維護、mailing list、 臭蟲及軟體修訂回報系統等等。鑄造場同時也是一種開放空間,讓專 案跟專案之間可以在公共空間裡進駐,一群人可以知道另一群人在做 什麼,甚至專案與專案之間還可以進行交流討論,(在開放源碼的社 會法律框架下)引用彼此的成果、程式碼及資料。為了提供本土使用 者更友善的操作介面,OpenFoundry系統也是諸多軟體鑄造場中,中 文化最成功的。
中 文是全球華人的共同資產,為了迎接電腦網路所帶來的挑戰與機會, 中文資訊力的普及與提昇,此刻便顯得日益重要。台灣是全球正體中 文的發展中心,所擔負的使命與責任也特別大。中研院願意將既有的 研發成果與全民共享,並期待與其他單位共同合作,讓各項成果能創 造更大的價值及利益,發揮更大的影響力。
註一:https://www.openfoundry.org/rsrclink.pl?section=zh_Chinese