返回首頁

統一碼裏中日韓表意文字和相關字符淺說

引言

漢字源遠流長,在歷史上曾流通於東亞多個地區,成為很多民族的書面語言。可是不同民族的口語都各有差異,所以他們漸漸產生了他們特用的方塊字。那些字當中雖然部份和中文字形體相似,卻是中文裏沒有的;部份雖然存在於中文裏,卻形同而義異。統一碼聯盟最終決定把這些源於漢字,外觀又像漢字的方塊字和漢字整合在一起,形成一個方塊字的集合。因為漢字源於表意的象形文字,多數的字兼表音義,於是最終決定稱呼這組方塊字的集合為「表意文字」(Ideographs);又由於聯盟最初從中文、日文和韓文(吏讀)收集這些字,所以稱為「中日韓表意文字」或「中日朝表意文字」。不過現在逐漸收錄更多的喃字,於是越來越多人把它正名為「中日韓越」,可是聯盟給出的正式名稱仍舊沿用「中日韓」的稱呼,故此本人仍舊使用較不精確的舊名。

正如前面所說,漢字經歷多年的發展繁衍,不少字都出現了多種變體,當中很多純粹是筆畫走向和接合上的差異,有些則是少了一點或多了一勾的差別。例如「老」字的下部可以寫成帶勾和不帶勾兩種;「者」字有些人寫成九畫,有些人不寫一點成為八畫。另一方面有些完全沒有關係的字卻寫作相同的樣子,譬如「机」字在中文裏是「機」的簡化字,但在日文裏卻是桌子的的意思,它們的本源和意義都不同,可是字形卻完全相同。

按照一般人的想法,字形有點兒不同,便應該分別編碼,但是這樣便會消耗大量空間來存放形近義同的字,還增加搜尋和使用時的困難;況且統一碼聯盟的宗旨是替字符(graphemes)來編碼,而不是對字形(glyph)和字體來編碼。一個字的具體外觀,應該透過改變字型(宋體、楷體、圓體、歌特體等)和語言指示(中國大陸中文、臺灣中文、日文、韓文)來改變,或者使用字形變換選取器(暫時只指定日文漢字的可用變體)來明確選定要使用某一個字的某個變體。不過統一碼只會把字形相近的變體合併在一起,假如變體(一般稱為「異體字」)的外形分別較大,則不會把它們統合,因此「回」和「囘」、「囬」並沒有合併在一起。

同形不同源的字都會編到同一個編碼中,理由也是為了節省編碼空間,反正統一碼設立的原意並非用來作語意分析,字形既然沒有分別,便應該統合在一起,這在使用上也有好處:例如使用輸入法時,不會因為同時出現簡化字的「机」和日文字的「机」而感到困惑。

認同了的表意文字

由於漢字數量龐大、形相相似,加上要把從多個地域收集得來的表意文字認同、合併和編碼,所以統一碼聯盟成立了「表意文字小組」(Ideographic Rapporteur Group,簡稱 IRG)來做這些繁雜的整理工作。小組由來自多個地方的政府和電腦業界代表組成,當中包括中國大陸、香港、澳門、臺灣、新加坡、日本、韓國、朝鮮、越南和美國等地,他們各自把自己國家和地區的官方字集標準遞交出來,並且討論和審核應該接納和統合哪些字,以及這些字的歸類和編碼等問題。下表列出統一漢字最初使用的字集(最終放到中日韓統一表意文字區塊中,與統一碼1.1版於一九九三年一起發表)來源:

中日韓統一表意文字區塊參考的字集
字集類別字集代號字集名稱
註:統一碼技術委員會源(U源)並非由表意文字小組遞交的參考字集,而是由統一碼技術委員會(Unicode Technical Committee)額外遞交作參考的字集標準,也有些是由其他團體和個人遞交的收錄文字請求,以便在字集文件中標示出處。
國標源(G)G0GB 2312-80:6763字
G1GB 12345-90:2352字(含58個香港字和92個吏讀字,不包括和GB 2312重複的字)
G3GB 7589-87 繁體形式:7237字
G5GB 7590-87 繁體形式:7039字
G7現代漢語通用字表:642字(G0, 1, 3, 5, 8未包含的字)
G8GB 8565.2-89:290字(G0, 1, 3, 5未包含的字)
臺灣源(T)T1CNS 11643-1986 第一字面:5401+9字(含9個計量用漢字)
T2CNS 11643-1986 第二字面:7650字
TECNS 11643-1986 第十四字面:6319+239+10(含239個中文資訊交換碼特字和10個施樂字符集(XCCS)特字)
日本源(J)J0JIS X 0208-90:6,335+1字
J1JIS X 0212-90:5,801字
韓國源(K)K0KS C 5601-87:4,888字(含268個重見字)
K1KS C 5657-91:2,856字
委員會源(U)KS C 5601-1987(當中重複的漢字)
ANSI Z39.64-1989 (EACC)
大五碼;五大碼(Big-5,臺灣業界標準)
中文資訊交換碼(CCCII)第一字面
GB 12052-89(韓文部分)
JEF(富士通標準)
中國大陸電報碼
台灣電報碼(CCDC)
施樂中文編碼
人名用漢字准用字體表(人名用漢字許容字体表;日本)
IBM 選取的日本和韓國表意文字

小組經過慎重的討論,最終取得共識,認為應該把字形近似、意義相同的字統合(unify,又譯為「認同」)成同一個字,而同形不同起源的字也都應該統合成同一個字,兩種情況皆要把字編進相同的一個碼位中,以求節省有限的碼位資源。這種把多個具體字形抽象化後整合在一起的做法,稱為「統合」(unification)。

雖然上述方法有最高的效率,可是問題來了,有些地區字集卻早把字形近似的字編配了不同的內碼,譬如日本的JIS X 0208-1990字集,它把「劍」的多個寫法「剣」、「劍」、「剱」、「劔」、「劒」和「釼」都編進去,假如按照認同原則,「劔」和「劒」都應合併到一個碼位裏。這樣做的後果,是在已存在的文件中本來形貌不同的字,換成統一碼後卻變作長相相同的字,給使用者帶來不便和困惑。為了避免這種窘境,小組為認同原則加上了兩項例外原則,就是字源分離原則(Source Separation Rule)和起源不同原則(Noncognate Rule),可是字源分離原則只對一九九二年以前遞交的字有效,因為那些編碼很多已廣泛地應用,有必要照顧使用者的感受。

字源分離原則基本上就是如剛才所說的,若各地遞交的字集字源(請看上表,U源的字不適用於分離原則)裏,有任意一套字集同時收錄了某一字的兩種以上的字形,則在統一碼的中日韓統一表意文字中,也會同時收錄這些字形,不會合併。這樣一來,現行的各種原有字集與統一碼中的漢字便可以一一對應,因此這項原則又稱為「雙向對應原則」(Round-trip Rule)。

至於另一項起源不同原則的例外原則,對我們來說是有點多餘,可是對於以歐美人為主的「表意文字小組」,還是有指示作用。這項原則規定,假如兩個字形相似(注意,不是「相同」),但起源不同的字,不可以統合成一個字,例如「土」和「士」無論字形還是起源都不相同,所以不可以統合在一起。

說了很多規則,不妨看一看實際運作上如何決定某兩個字能否統合吧,下表譯自《統一碼標準5.0版》第十二章第一節第四百二十一頁。

不能統合的文字
字形原因
崖 ≠ 厓部件數量不同
峰 ≠ 峯部件數量相同,但空間位置不同
拡 ≠ 擴部件數量和空間位置相同,對應部件結構不同
区 ≠ 區兩字在源字集有不同意義
祕 ≠ 秘部首不相同
爲 ≠ 為抽象字形相同,但實際字形卻不同(留意「爲」屬爪部,「為」屬火部)
龻 ≠ 䜌抽象字形相同,但位置不同(留意「龻」字偏向上部)
龺 ≠ 𠦝抽象字形相同,但位置不同(留意「龺」字偏向左部)

下圖顯示可以統合的漢字
本圖顯示了部份在統一碼中統合成一個碼位的不同字形,它們實質的字形可以透過改變字型來決定

另外還有「兌」和「兑」、「丟」和「丢」、「冊」和「册」等,本來都可以統合成一個字,但是受「字源分離原則」所限,這些字最終都沒有合併。

決定了要如何統合文字之後,下一步是文字排列的次序。統一碼是以《康熙字典》的字序為基準的,因為統一碼接納了的漢字,多數它都有收錄,並且它是東亞區域內獲得最廣泛認同的字典。假如要排序的某字沒有收錄到《康熙字典》中,卻可以在《大漢和辭典》裏找到,便會先看看某字前面排的是甚麼字,然後把某字排在那個字之後;若果上述兩本字典都沒有收錄某字,便順序查看《漢語大字典》和《大字源》,最終以這樣的方式虛擬出某字在《康熙字典》中的位置,用作統一碼的字序。

排序用字典的出版資料
選用順序書名出版地點出版商版次
第一康熙字典北京中華書局第七版(1989)
第二大漢和辭典東京大修館書店修訂版(1986)
第三漢語大字典成都四川辭書出版社第一版(1986)
第四大字源漢城(首爾)三省出版社第一版(1988)

由於這四本字典辭書都是先按部首排序,後按除去部首畫數排列的,所以很自然統一碼也是按部首排序的;而且同一個字在不同的地區可能有不同的總畫數和讀音,所以按部首排列漢字是最折衷的方法。如果是古書沒有的簡化字(中國大陸和日本都有新造的簡化字),而它所屬的部首並沒有簡化或作類推簡化的,它會放在同畫數文字的最後;若是簡化了所屬部首的,則會放在那個部首最後一個正體字之後。例如「浃」(「浹」的簡化字)屬水部,但「氵」旁並沒有簡化,所以「浃」排在水部六畫最後一個正體字「浂」字之後;「讠」是「言」的簡化偏旁,所以它排在言部最後一個正體字「讟」字之後,隨後的便是一大堆類推簡化字「计」、「订」、「讣」、「认」等。由於只有中國大陸的簡化字才有部首類推簡化,所以這些字變相按照《漢語大字典》的順序來排列。

經過反覆查證和統合之後,第一個包含中日韓統一表意文字區塊的統一碼版本於一九九三年發表,合共20,902個字(還有十二個獨一的字放到了「中日韓相容表意文字」區塊裏去,所以總數應為20,914個字),暫時滿足現代中文和日文及文言文的普遍需求。可是從古到今和中外各地產生和累積下來的漢字數量龐大,二萬字左右的字庫實不足某些特殊需求,所以表意文字小組再接再厲,繼續審核從一九九二年至九八年間遞交的文字,以把其他較罕用的字納入標準中。下表列出這次統一漢字使用的字集(最終放到中日韓統一表意文字擴充A區塊中,與統一碼3.0版於一九九九年一起發表)來源:

中日韓統一表意文字擴充A區塊參考的字集
字集類別字集代號字集名稱
國標源(G)G_KX《康熙字典》:5357字(獨有1892字)
G_HZ《漢語大字典》:5888字(獨有339字)
G3GB 7589-87 繁體形式:2391字
G5GB 7590-87 繁體形式:1226字
G7現代漢語通用字表:120字
GS新加坡漢字:226字
臺灣源(T)T3CNS 11643-1992 第三字面(原本為CNS 11643-1986第十四字面)新加入字符
T4CNS 11643-1992 第四字面
T5CNS 11643-1992 第五字面
T6CNS 11643-1992 第六字面
T7CNS 11643-1992 第七字面
TFCNS 11643-1992 第十五字面
日本源(J)JA日本資訊科技零售商統一當代表意文字(1993)
韓國源(K)K2PKS C 5700-1:1994
K3PKS C 5700-2:1994
越南源(V)V0TCVN 5773:1993
V1TCVN 6056:1995

注意由這個區塊開始,字源分離原則不再適用。第一是分離原則會使大量形近義同的文字重複編碼,造成嚴重浪費,又會讓使用者感到困惑;第二是這個區塊和以後的區塊所收錄的表意文字,根本是未曾收錄於主流的字集之中,統合不會引致使用者的不便。(其實還是有考慮的,不過換過了方式來解決,就是使用「相容表意文字區」,請看下面說明)

這次把6582個字放進擴充區A,和之前的字合起來,統一碼共收錄了27,496個表意文字。完成了這兩個區塊之後,基本多文種平面中預定擺放表意文字的空間已差不多放滿了,而且上述兩個區塊幾乎已囊括了現代語文裏所用到的漢字(當然將來出現的新造字不可能包括在內)和文言文的常用字,剩下尚未納入標準的字多數是方言字和極罕用字,乃至歷史上殘留下來的死字(例如喃字和壯字),所以均放到第二輔助平面中,並將該平面命名為「補充表意文字平面」(Supplementary Ideographic Plane),表示它專門擺放表意文字的。

擴充區B包含42,711個新加入的漢字,幾乎全部都是罕用字和死字,現代人不大會使用,大概只有文字學家和歷史學家才會感興趣;可是有些卻是新造字,如第一百零五至一百零八號元素的名稱「𨧀、𨭎、𨨏、𨭆」,現代人較大機會使用。下表列出這次統一漢字使用的字集(最終放到中日韓統一表意文字擴充B區塊中,與統一碼3.1版於二零零一年一起發表)來源:

中日韓統一表意文字擴充B區塊參考的字集
字集類別字集代號字集名稱
國標源(G)G_KX《康熙字典》:18,486個未收錄漢字(包括一個在補遺篇中出現的漢字)
G_HZ《漢語大字典》:28,914個未收錄漢字
G_CY《辭源》:66個未收錄漢字
G_CH《辭海》:247個未收錄漢字
G_HC《漢語大詞典》:553個未收錄漢字
G_BK《中國大百科全書》:86個未收錄漢字
G_FZ北大方正排版系统:65個未收錄漢字
G_4K《四庫全書》:522個未收錄漢字
香港源(H)H香港增補字符集:1,081個未收錄漢字
臺灣源(T)
合共30,177個漢字
T4CNS 11643-1992 第四字面
T5CNS 11643-1992 第五字面
T6CNS 11643-1992 第六字面
T7CNS 11643-1992 第七字面
TFCNS 11643-1992 第十五字面
日本源(J)
合共302個漢字
J3JIS X 0213:2000, level 3
J3AJIS X 0213:2004, level 3
J4JIS X 0213:2000, level 4
韓國源(K)K4PKS 5700-3:1998:166個未收錄漢字
朝鮮源(KP)
合共5,642個漢字
KP0PKPS 9566-97
KP1KPS 10721-2000
越南源(V)
合共4,232個喃字
V2VHN 01:1998
V3VHN 02:1998

注意由這個區塊開始,新加進香港源作為字源參考準則(朝鮮源在之前已在參考之列,只不過未有選入它獨一的表意文字而已)。加入了這四萬多字以後,統一碼包含了70,207個表意文字。其後近十年再沒有新增表意文字的區塊,但是有一些字卻急需新增,於是在發表統一碼4.1版時,新增了14個香港增補字符集的用字和8個GB 18030用字到「中日韓統一表意文字」區塊內,其後再於發表統一碼5.1版時,新增了七個由日本Adobe公司遞交的日語漢字及由魏安(Andrew West)和井作恆(John H. Jenkins)申請追加的一個字,全部都放到「中日韓統一表意文字」區塊中。至此統一碼共包含了70,237個表意文字。

表意文字小組自二零零二年開始收集表意字,並打算收錄到中日韓統一表意文字擴充C區塊裏去,結果中國大陸、香港、澳門、臺灣、新加坡、日本、韓國、朝鮮、越南和美國等地共提交了超過二萬個表意字。可是由於字數異常地多,小組花了很多時間仍未能完成整理和查證。到了二零零五年,經過多輪審核和整理,刪除了大量可被統合的表意字之後,還剩下約一萬七千字,可是為了能趕及國際標準ISO 10646:2003第三補篇的進度,以便能夠盡快推出擴充C區塊,文字小組便決定把這個超大的字集分成第一(C1)和第二(C2)兩部份。第一部份含有當中約五千個表意字,按照原定計劃放進擴充C區塊,而其餘的則放到第二部份,預算改放進擴充D區塊之內。

二零零九年,擴充C區塊正式推出,包含了4,149個新的表意字。下表列出這次統一漢字使用的字集(最終放到中日韓統一表意文字擴充C區塊中,與統一碼5.2版於二零零九年一起發表)來源:

中日韓統一表意文字擴充C區塊參考的字集
字集類別字集代號字集名稱
國標源(G)G_BK《中國大百科全書》:74字
G_FZ北大方正排版系统:1個未收錄漢字
G_HZ《漢語大字典》:1個未收錄漢字
G_HC《漢語大詞典》:14個未收錄漢字
G_GH《古代漢語詞典》:50字
G_GJZ商務印書館用字:61字
G_XC《現代漢語詞典》:25字
G_CH《辭海》:264個未收錄漢字
G_KX《康熙字典》及補遺:6個未收錄漢字
G_CYY中國測繪科學研究院用字:55字
G_ZFY《漢語方言大辭典》:202字
G_ZJW殷周金文集成引得:366字
澳門源(M)MAC澳門資訊系統字集:16字
臺灣源(T)TCCNS 11643-1992 第12字面:634字
TDCNS 11643-1992 第13字面:767字
TECNS 11643-1992 第14字面:350字
日本源(J)JK日本國字集:367字
韓國源(K)K5韓國表意文字小組漢字集第五版(2001):404字(當中主要包含古代字例)
朝鮮源(KP)KP1KPS 10721:2003:8字
越南源(V)
合共784字
V4《喃字字典》[字典𫳘喃,Từ điển chữ Nôm](阮光紅/Nguyễn Quang Hồng, 2006)
V4《岱喃字字典》[Từ Điển Chữ Nôm Tày](Hoàng Triều Ân,2006)
V4《沔南喃字》[𫿰喃沔南,Bảng Tra Chữ Nôm Miển Nam](武文敬/Vũ Văn Kính,1994)
委員會源(U)
合共75字
ABC Chinese-English Dictionary(德范克、John DeFrancis等,第二版 (1998) ,火奴魯魯,夏威夷大學出版社)
耶穌基督後期聖徒教會香港分會用字
Mathews' Chinese-English Dictionary(Robert H. Mathews (1975),劍橋,哈佛大學出版社)
宋本《廣韻》
《中國鳥類系統檢索》(鄭作新等(2000),北京,科學出版社)
段玉裁《說文解字注》

注意,這次除了在擴充C區塊裏加入表意文字外,尚有8個表意文字新增到「中日韓統一表意文字」區塊中,它們分別是兩個日語用漢字(U+9FC4–U+9FC5)、一個新增漢字(U+9FC6)和在香港增補字符集二零零四(HKSCS-2004)推出後新增的五個香港字(U+9FC7–U+9FCB)。至此合共有74,394個認同了的中日韓表意漢字收錄到統一碼之中。

剛才已提過,為了趕及統一碼5.2.0版推出,所以把原擴充C區塊的字分成兩份,讓第一部份的幾千字先行公告,剩下的萬許字則繼續審核並準備收錄到擴充D區塊之內。這時小組成員又再提出一批急切要收錄的漢字(現稱「急用漢字」(Urgently Needed Character, UNC)),要求和那萬許字一起處理,一起放到中日韓統一表意文字擴充D區塊內。

這批「急用漢字」共二百二十三個,由中國大陸、臺灣、日本和委員會提出的。臺灣提出的全是閩南話和客家話用的方言用字,日本提出的則是人名和地名所用的字,中國大陸提出的亦主要是人名和地名所用的字,但加了一些魚類用字和科學用字。統一碼技術委員會提出的均是Adobe公司遞交的字,為Adobe-Japan1-5和Adobe-CNS1-5字型中含的異體字。這些字都聲稱是現行使用的字,所以急切要獲得統一碼的收錄,以便電腦處理這些字。

可是又是文字數量太過龐大的問題,如果要完成審核這合共一萬二千多字的話,便不能趕及在統一碼6.0.0版本中發表。而且臺灣方面突然撤回第二部份字集內6,545個漢字,原因是「那些人名用字的擁有人或已去世或已移居外地,再沒有用途」,隨後大陸也以「人手不足,難以找到每個遞交的漢字的書證、音、義等必要證據」,遂把3,215個漢字撤回,這樣不禁使人質疑第二部份字集的萬許字的存在理據。由於種種阻礙,最後協議先把數量較少,又最急切要收錄的漢字提交出來,也就是「急用漢字」,以便和統一碼6.0.0版一起發表。最終提出的急用漢字只有二百二十二字(日本撤回其中一個字,使總數減少了一個),而第二部份字集延後到擴充E區塊裏去。

擴充區D包含的都是所謂的「急用漢字」,合共222個新的漢字。下表列出這次統一漢字使用的字集(最終放到中日韓統一表意文字擴充D區塊中,與統一碼6.0版於二零一零年一起發表)來源:

中日韓統一表意文字擴充D區塊參考的字集
字集類別字集代號字集名稱
國標源(G)G_IDC公安部身份證系統人名和地名用字:31字
G_CH《辭海》:1字
G_XC《現代漢語詞典》:4字
G_ZH《中華字海》:39字
臺灣源(T)TBCNS 11643-2007 第11字面24字(閩客方言用字):24字
日本源(J)JH通用電子情報交換環境整備計劃(日本經濟產業省提出的人名和地名用字):108字
委員會源(U)Adobe-Japan1-5和Adobe-CNS1-5字體裏的異體字:15字

統一碼6.1.0版於二零一二年一月尾推出,裏面新增了一個認同了的字(U+9FCC)到中日韓統一表意文字區塊中,使統一碼合共收錄了74,617個認同了的中日韓表意漢字。

前面已說過,表意文字小組自二零零二年開始收集了超過二萬個表意字,經過整理統合之後,還有約一萬七千字,其中約五千字已先行收編到中日韓統一表意文字擴充C區塊裏了,但第二部份(C2)的萬許字,卻還在審核,甚至趕不及放到中日韓統一表意文字擴充D區塊裏。終於,經過多番爭辯、審理、整理和增刪之後,萬許字中有不少被撤回和統合,最終剩下五千多字獲接納為認同了的表意字,並隨統一碼8.0.0版新增到中日韓統一表意文字擴充E區塊內。終於,前後花了十許年的時間,擴充C區塊遺留下來的漢字,總算全部處理完畢。

由於是延續審核未收錄到擴充C區塊的字,所以這次新增的字也就是以罕用字、方言字、科學用字、人名用字、日製漢字、吏讀字、喃字和古字的楷化字形為主,並包含了一些字的異體字,大部分是現時不再使用的死字。

二零一五年,擴充E區塊正式推出,包含了5,762個新的漢字。下表列出這次統一漢字使用的字集(最終放到中日韓統一表意文字擴充E區塊中,與統一碼8.0版於二零一五年六月十七日一起發表)來源:

中日韓統一表意文字擴充E區塊參考的字集
字集類別字集代號字集名稱
國標源(G)G_BK《中國大百科全書》:15字
G_CH《辭海》:112個未收錄漢字
G_CY《辭源》:3個未收錄漢字
G_CYY中國測繪科學研究院用字:98字
G_DZ地質出版社用字:1字
G_GH《古代漢語詞典》:176字
G_HC《漢語大詞典》:7個未收錄漢字
G_IDC公安部身分證系統人名和地名用字:36字
G_GJZ商務印書館用字:147字
G_KX《康熙字典》及補遺:22個未收錄漢字
G_RM《人民日報》用字:3字
G_WZ漢語大詞典出版社用字:12字
G_XC《現代漢語詞典》:57字
G_XH 《新華字典》:4字
G_ZFY《漢語方言大辭典》:712字
G_ZJW《殷周金文集成引得》:1410字
澳門源(M)MAC澳門資訊系統字集:48字
臺灣源(T)TCCNS 11643-1992 第12字面:323字
TDCNS 11643-1992 第13字面:595字
TECNS 11643-1992 第14字面:339字
日本源(J)JK日本國字集:415字
越南源(V)
合共1,028字
V4《喃字字典》[字典𫳘喃,Từ điển chữ Nôm](阮光紅/Nguyễn Quang Hồng, 2006)
V4《岱喃字字典》[Từ Điển Chữ Nôm Tày](Hoàng Triều Ân,2006)
V4《沔南喃字》[𫿰喃沔南,Bảng Tra Chữ Nôm Miển Nam](武文敬/Vũ Văn Kính,1994)
委員會源(U)
合共227字
從各處收集所得,未曾收錄的漢字
註:有些字不止出現在一套參考字集內,所以在上列各字集字數總和,比實質收錄到擴充E區塊的字數為多。

注意,這次除了在擴充E區塊裏加入表意文字外,尚有9個認同了的表意字新增到「中日韓統一表意文字」區塊中,它們分別是:三個(9FCD–9FCF)出現在《通用規範漢字表》中,而未包含在統一碼規格中的漢字;一個(U+9FD0)原本和簡化字「䲤」(U+4CA4)統合在一起,現在分離出來的的繁體形式漢字;五個(U+9FD1–U+9FD5)由魏安提出的漢字。由於文字小組認為這九個字皆屬於急切收錄的現代通用漢字,所以把它們編到基本多文種平面。至此,統一碼一共收錄了80,388個認同了的中日韓表意漢字。

魏安原本提出的字集草案含226個漢字,皆屬於二簡字、類推簡化字、錯訛字、梵語音譯字和現代科學用字等,當時他本人建議把全部的字都加到中日韓統一表意文字擴充F區塊裏去,現把當中五個急用的現代用字改為加進中日韓統一表意文字區塊中。其中「鿑」為「珏」的異體字,其他四個為化學元素及生物用字和它的類推繁體字。

二零一七年,擴充F區塊正式推出,包含了7,473個新的漢字。除了包含了數千個佛經、中日韓古籍中的用字以及中日戶籍用字以外,還包含了一套壯族使用的文字——方塊壯字。下表列出這次統一漢字使用的字集(最終放到中日韓統一表意文字擴充F區塊中,與統一碼10.0版於二零一七年六月十七日一起發表)來源:

中日韓統一表意文字擴充F區塊參考的字集
字集類別字集代號字集名稱
國標源(G)G_CY《辭源》:122字
G_FC《現代漢語規範詞典》:27字
G_IDC公安部身分證用字:1字
G_LGYJ《壯族嘹歌研究》(廣西民族出版社,2008):1字
G_OCD《牛津英漢漢英詞典》:2字
G_PGLG《壯族民歌文化叢書•平果嘹歌》(廣西民族出版社,2004–2006):70字
G_XHZ《新華大字典》:51字
G_Z《古壯字字典》:995字
G_ZJW《殷周金文集成引得》:33字
G_ZYS〈壯族人民的文化遺產——方塊壯字〉(張元生著,刊於《中國民族古文字研究》,中國社會科學出版社,1984):2字
日本源(J)JMJ日本文字資訊基礎工程[文字情報基盤整備事業]:1645字
韓國源(K)KC韓國歷史資訊綜合系統[韓國歷史情報統合시스템,한국 역사 정보 통합 시스템]:1793字
澳門源(M)MAC澳門資訊系統字集:22字
臺灣源(T)T3CNS 11643-1992 第三字面:1字
TCCNS 11643-1992 第十二字面:1字
越南源(V)VU越南水平擴充:1字
委員會源(U)USATSAT大正新脩大藏經文字資料庫[SAT大正新脩大藏經テキストデータベース]委員會《大正新脩大藏經》:2884字
UTC從各處收集所得,未曾收錄的漢字:1字
註:有些字不止出現在一套參考字集內,所以在上列各字集字數總和,比實質收錄到擴充F區塊的字數為多。

注意,這次除了在擴充F區塊裏加入表意文字外,尚有21個認同了的表意字新增到「中日韓統一表意文字」區塊中,它們分別是:二十個(U+9FD6–U+9FE9)由加州大學柏克萊分校語言學系文字編碼提案計劃(Script Encoding Initiative, Berkeley Linguistics – UC Berkeley, SEI)提議新增,為翻譯俄羅斯東正教聖經的漢字——用作轉寫教會斯拉夫語的漢字;一個(U+9FEA)從「㸂」(U+3E02)字分離出來「燧」的異體字。轉寫教會斯拉夫語的漢字是利用反切法來造字,右取聲母左取韻母,合成一個可以表達一個斯拉夫語音節的字(例如「耶穌•基督」寫作「伊伊穌斯•合鿠斯托斯」或簡寫作「鿗鿖」)。原本該計劃提議把這二十個字放到中日韓統一表意文字擴充F區塊中,但最後文字小組認為這二十個字皆屬於急切收錄的現代通用漢字,所以把它們和鿪(「燧」的異體字)一起編到基本多文種平面。此時,統一碼一共收錄了87,882個認同了的中日韓表意漢字。

統一碼11.0版在二零一八年六月推出,裏面新增了五個認同了的字:三個(U+9FEB–U+9FED)屬於新化學元素的中文名稱,兩個(U+9FEE–U+9FEF)由日本提出的急用漢字(來歷不明),使統一碼合共收錄了87,887個認同了的中日韓表意漢字。

下面列出認同了的表意文字存放的區塊:

相容表意文字

前面已提過,統一碼最初要遷就原有的字集而採用「字源分離原則」,把形近義同的字分開編碼。可是有些字根本就是重複編碼的,那麼便不可能讓它們在上述的「正常」字區中重複出現,但是為了要和舊有字集作雙向對應,又不得不把它們收編到統一碼中,於是便出現了「相容表意文字」。

「相容表意文字」顧名思義,是為了和舊標準相容而收錄的文字,原則上這些文字都是本來不應收錄的。例如韓國的KS C 5601-1987(又稱KS X 1001:1998)字集是按讀音把漢字編碼的,但由於有些字有多個讀音(破音字),所以這個字集中的一些漢字會重複出現在不同的位置上,它們的字形是完全相同的;另外日本的JIS X 0213:2000字集和韓國的PKS 5700字集第一、二、三部份都包含了一些本已統合到另一個漢字碼位的漢字,這些字和原有的字字形相近而不應獨立佔用一個碼位,但是為了雙向對應,便不得不放到相容區塊中。

值得注意的是U+FA0E、U+FA0F、U+FA11、U+FA13、U+FA14、U+FA1F、U+FA21、U+FA23、U+FA24、U+FA27、U+FA28和U+FA29這十二個字是屬於認同了的表意文字,和認同的表意文字區塊裏的字並不重複,不應視作相容字,而是原有區塊的小擴充。因此在文字處理和輸入法中,都應該包含這些文字進去。

臺灣的中文標準交換碼(CNS 11643)字集標準中,收錄了很多字形十分相近的文字,按照統合原則須統一放到一個碼位裏。於是為了雙向對應,U+2F800至U+2FA1D這區塊中便放下542個CNS 11643-1992第3、4、5、6、7和15字面的異體字。

按照統一碼聯盟的說法,相容區的文字(除了那十二個非重複的認同了的表意文字外)都不應用作訊息交流和文字處理之用,以免令使用者感到迷惑。這個區塊的字只是為著和舊有的字集相容,當使用舊有字集的文件逐漸淡出消失,本區塊的字便不會再在文件中出現。

下面列出相容表意文字存放的區塊:

部首

部首最先由東漢的許慎所創。

東漢時期,隸書已成為人們常用的字體,可是隸書為了方便書寫,筆畫已變得平直,和古代的寫法相去甚遠,基本上已失去象形的特性。但是人們很多時卻按照隸書的寫法,加上個人的臆測和穿鑿附會,試圖硬把某字的外觀和當時那字流通的意義關聯起來。這樣做的結果,當然是曲解的多,正解的少。許慎有鑒於此,認為要編修一本字書,用來正解字源,以正視聽,最終寫成了《說文解字》一書。他認為流行的隸書形體簡化得太厲害,已和字的雛形有太大的差別,根本不能符合釋字的功能,所以他選用了形體較古老,較為接近原字形的小篆作為釋字的依據,並在可能時加註「古文」作佐證。古文有些是比小篆更古老的「籀文」和「金文」等,也有些是同一個字的異體寫法。

許慎把義和形相近相關的字放在一起,稱為「部」,而每部的第一個字便稱為「部首」了。例如「男、甥、舅」這三個字義形相關,便給編在同一部裏,而「男」則為這一部的「部首」。

許慎把九千三百五十三個漢字(不計算重文),按照這種他首創的分類法,分放到五百四十部裏,每部的字形義相關,因此也出現了五百四十個部首。而五百四十部歸併為十四大類,是為十四篇。

《說文》是通過漢字形體構造的分析來闡述本義。每個字下,都是先說造字時的意義,然後分析造字方法為證。象形字指明「象形」,例如:「魚,水蟲也,象形。」;指事字常說「某某之形」,例如:「刃,刀堅也,象刀有刃之形。」;會意字不會直接說成「會意」,而會說成「從某」、「從某、從某」、「從某某」,例如:「杲,明也,从日在木上」,「相,省視也,从目、从木」,「夫,丈夫也,从大一」;形聲字也不明言「形聲」,而說「從某、某聲」,例如:「忠,敬也,从心,中聲」;至於「省形」、「省聲」的字,則加註「省」字,例如,「考,老也,从老省、丂聲」,屬於省形,「恬,安也,从心、甜省聲」,屬於省聲。

《說文》把字的形旁(意符)作為部首,所以它的部首通常能夠說明所屬諸字的字義。每一部的開首,許慎都是先從形和義兩方面解釋部首字,然後說「凡某之屬皆從某」。這就是告訴讀者:凡是以這個部首字為形旁的字,字義都和這個部首字的意義相關。例如米部,開首先解釋「米」字:「米,粟實也,象禾實之形,凡米之屬皆从米。」;又如人部,開首先解釋人字:「人,天地之性最貴者也。此籀文,象臂脛之形,凡人之屬皆从人。」

部首的制定對於人們分析字形、理解字義有很大幫助,特別是編纂字典、使用字典,有了部首,人們就能在繁雜紛紜的漢字中抓住一條提綱挈領的歸類線索,免除了雜亂無章,大海撈針的苦惱。

當然,像其他事物一樣,部首也有一段不斷改進的過程。《說文》的五百四十部首有兩個明顯的弱點:一是太多太細。例如,一個「口」(口)、兩個「口」(吅)、三個「口」(品)和四個「口」(㗊),分別列為四個部首,而後三個部首所屬的字又很少,這樣設部就顯得太瑣碎了。二是排列方式不好掌握。許慎當時是用篆體為收字的主要準則,篆體不像楷體那樣有明顯的筆畫可數,不能按筆畫來排列。許慎是用「據形系聯,引而申之」的辦法來處理。如《說文》第十三卷共廿三個部首,它們的順序是:糸、素、絲、率、虫、䖵、蟲、風、它、龜、黽、卵、二、土、垚、堇、里、田、畕、黃、男、力、劦。這樣的次序和「無次序」沒分別,用起來極其不便,部內的字也沒有多少次序可言,通常是先吉後凶,並且把意義近似的放在一起。

東漢以後隸書日漸式微,與小篆一樣變成了書法字體,代之而起的是草書和楷書。不過字書卻沒有隨著改變,使用部首分類的著名字書仍舊以許慎的五百多部首為依歸,頂多是增刪幾個部首而已。譬如南朝梁顧野王的《玉篇》對《說文》的部首作了一些小調整,刪除了后、弦、眉、哭、教等十一部首,增加了父、云、兆、磬、索、弋、丈等十三個部首,總共立五百四十二部首,比《說文》還要多。在部首排列上,顧野王也試圖作一些改進。他用的是按字義歸類排列的方法,如第三卷共有人、儿、父、臣、男、民、夫、予、我、身、兄、弟、女等十三部,都是與人有關的部首字;第四、第五卷是與頭部有關的部首字,如頁、面、鼻、目、耳、口、舌、齒、須等;第六卷是與手有關的部首字;第七卷是足、骨、血、肉、筋、力等。這種根據字義分類排列的方法雖然也不理想,但是和《說文》相比,使用時還是方便一些。其後宋朝編纂的《類篇》,共立五百四十部首(「艸」、「食」、「木」、「水」各分上下,所以實際有五百四十四部,而部首和《說文》的相同),這些字書雖然都是以釋義為主,但是仍沿用《說文》的部首系統,以至部首次序,檢字甚至比按韻部排列的字書還要困難。

接著的《改併五音類聚四聲篇海》(通稱《四聲篇海》或《篇海》)立四百四十四部首,部首按三十六字母排列,同母的部首再按平上去入排列,同部首內的字順楷書的筆畫數排列,使檢字時比較便利。

明朝萬曆四十三年(1615年),梅膺祚所編的《字彙》首創現行的二百一十四部首,合理地把可以合併的部首合併起來,如「口」、「吅」、「品」、「㗊」全歸到口部之下。它也是第一本部首按照筆畫數順序排列的字書,同部首內的字除去部首後按照剩餘筆畫數順序排列,便利用家檢索。梅膺祚把《字彙》依照地支子丑寅卯等次序,分成十二集,共收三萬三千一百七十九字,以《洪武正韻》為收字的主要參考,並參照《說文》、《古今韻會》等,收錄了經史常見的字,不收怪僻字。另外每字都先註讀音,後註字義,常用字義先列,其他的列後,還列舉古書的例證。卷首列出運筆次序,指出筆順;卷末又有「辨似」一項,教人分辨一些形似但音義俱不同的字。

《字彙》的體例成為後來字書的楷模,《正字通》和《康熙字典》,以至民國時的《辭海》都是參考它的體例編纂的。可是為什麼統一碼把二百一十四部首稱為「《康熙》部首」呢?主要是因為《康熙字典》是御制的,成書後流通全國,更流傳到東亞各地用漢字的地方,諸如日本、朝鮮、越南等地,成為字形標準,影響深遠,而且它收字更多,更大可能查找到某個字。

《康熙字典》是康熙帝玄燁令張玉書、陳廷敬編製的字書,成書於康熙五十五年(1716年),參照梅膺祚的《字彙》和張自烈的《正字通》編纂而成,共分十二集二百一十四部,收有四萬六千九百八十一字,並設有〈檢字〉,以檢查疑難字。以後,朝廷即規定科舉考生用字必須以該字典字形為準。《康熙字典》更流傳到海外,成為近代最具影響力的字書,可惜引書時有錯誤,為後人所詬病。

「康熙部首」區塊位於U+2F00–U+2FDF範圍內,裡邊包含了《康熙字典》全部二百一十四個部首。本範圍所收的二百一十四個字元全都能夠在中日韓統一表意文字(U+4E00–U+9FFF)區塊中找到,所以如果你的瀏覽器或文字編輯器未能顯示這些字元,還是可以使用「中日韓統一表意文字區塊」中的字元暫代。

既然部首的字元全都在另一處編了碼,那麼為何要再次編碼呢?據統一碼的文件指出,本區塊的字元只作部首之用,不應該當作一般文字用途,文件更進一步提出,必要時甚至可以用不同的字體格式,表明是屬於本區塊的字元。換句話說,例如編輯一本字典,部首頁、部首標題和「參見某部若干畫」等文字,都應使用本區塊內的字元;而內文和字頭、詞條等文字部分,則應使用「中日韓統一表意文字區塊」中的字元。這樣做的原意,是希望讓機器知道該字元現時所充當的角色:是「一般文字」,還是「部首文字」。當然,這些分別對人類來說可能沒有作用,但對機器的語意分析還是有作用的。

近年出版商為了方便讀者檢字,出版的字典很多時會在二百一十四部首的基礎上作出調整,例如把「夂」和「夊」合併為「夊」部,因為這兩個部首的外觀極為相似,而且「夂」部的字極罕見,有些字典甚至不收「夂」部的字;有些字典則在部首索引中加註部首變形,好像「火」部加括號註明「灬」也屬於火部,「攵同攴」,「邑部(右⻏)」,又或者「右⻏,見邑部」。有些字典則調整了某些字所歸屬的部首,例如把「相」字從「目」部移到「木」部,以便讀者查詢。

港臺等地仍舊使用傳統的繁體字,和《康熙字典》裏的字相同,對字的部首的歸屬只需作微調便可以了,頂多是如前述般加些字形變體便足夠了,可是內地和日本的簡化字形卻未必能夠直接對應到原來的「康熙部首」內了,於是這兩地的字典便出現了一些新部首和棄用一些原有的部首,使字的外形仍能和部首對應。譬如內地把「門」部的字全都簡化成「门」,於是字典的部首也跟著變成「门」了。為此,統一碼還加入了「中日韓部首補充」區塊,以便輸入部首變形、內地簡化字部首(根據《漢語大字典》)和日文部首。

下面列出和部首相關的區塊:

表意文字中的異體字

漢字結構描述字符

漢字結構描述字符 和字母文字不同,漢字是由多個筆畫和部件,擺放在方格內的指定位置結合而成。筆畫和部件的種類雖然有限,但它們能在方格的不同空間放置,便能產生無限量的方塊字。儘管統一碼聯盟不斷納入古文獻和古手稿中發現的漢字,可是一些太過於古舊罕見的漢字可能仍無法在當時的統一碼中找到,新造的文字(自然科學界現在還不時造新字)就更加不用說了。另外有些人為了某些目的,譬如教導學生錯字時,便可能需要輸入一些根本不存在文字,這類特殊目的的漢字,更不可能在統一碼中找到得到。這時便可以使用「漢字結構描述字符」,以描述部件的結合方法來合成這些未編碼的文字。

漢字結構描述字符共十二個,電腦遇到這些字符時可以把合成後的文字顯示出來,也可以把所有描述的符號顯現出來,讓使用者自己在腦中想像原來的文字的長相。

標點符號

上面所述的區塊均是表意文字部份,可是我們平常寫文章都要使用標點符號和各式各樣遠東特有的符號,難道統一碼竟然完全不收錄這些符號嗎?當然不是,統一碼收錄了各地所有原來字集的特用符號,甚至還新增了不少各地原來都沒有收錄的符號,首先從標點符號說起。

中國古籍雖然沒有類似今天使用的標點符號,可是從一些上古的文字紀錄,例如戰國時代的竹簡中,可以看到裏面有時會用「└」形符號表示一篇文章的結束等,可以看到上古時代已有標點的雛形。

漢朝人稱標點為「句」,是用來標示句子的結束和句中的停頓。漢代的《禮記‧學記》上記載「比年入學,中年考校。一年視離經辨志 。」東漢經學家鄭玄註:「離經,斷句絕也。」當時表示斷句的符號是「丶」和「𠄌」。文字學家許慎在《說文解字》中說:「丶,有所絕止,丶而識之也。」又說:「𠄌,鉤識也。」就是說「丶」用來表示較小的停頓,「𠄌」表示較大的停頓。這在東漢史學家司馬遷的 《史記‧滑稽列傳》 上也得到證明:「朔初入長安,至公車上書,凡用三千奏牘。……人主從上方讀之,止,輒乙其處,讀之二月乃盡。」文字訓詁學家段玉裁在《說文解字注》中加以解釋:「乙其處」就是「𠄌其處」,說明「𠄌」表示較明顯的停頓。

這兩種符號到了宋代才逐漸推廣使用,但形態有些改變。一種是句號用「。」,讀號用「丶」;另一種是句號讀號都用同樣的點,句號的點用在字旁,讀號的點用在兩字之間。可是宋元時代出版的書籍,特別是經書,一般都不加句讀。句讀符號通常多用在教學或校勘方面。元黃公紹編輯,熊忠舉要的《古今韻會舉要》中說:「凡經書成文語絕處,謂之句;語未絕而點分之,以便誦咏,謂之讀。今秘書省校書式,凡句絕則點于字之旁,讀分則點于字之中間。」由此可見,句讀是在誦詠時或校勘時使用的符號。宋刻本雖然也有仿照校書式印上圈點的,但不多見。

元明的刻本小說多在句子的末了加圈,也有一律用「丶」或用「。」的,有些戲曲和啟蒙讀物也採取這種方法,以便利讀者閱讀。明刻本小說還增添了人名號和地名號,前者是在人名右邊加一條直線,後者是在地名右邊加兩條直線,後來發展成為現在的專名號。

至於「標點」這兩個字,始見於宋代。《宋史‧何基傳》:「凡所讀,無不加標點,義顯意明,有不待論說而自見者。」這裡的標點指的是閱讀古書時添加的句讀符號。

雖然中國古代已有句讀號,可是都只停留在輔助的性質,正式公文不用;而且這些符號主要都是用來表達語句的停頓處,而沒有表達感情色彩的成份,精確度不足,必須倚靠語氣助詞(矣、豈、焉等)和語法結構等來表示感情。直至現代受西方文化影響,引入了很多較為細緻的標點符號後,標點符號才成為句子的組成成份,使句子的語意能更為清晰地表達出來。

清末的翻譯家嚴復編著的《英文漢詁》(清光緒三十年,1904年),是最早應用外國標點於漢語的著述。至民國八年(1919年)前幾年,不少作家已經開始使用新式標點,可是由於中文文章都以豎式排版,照搬西式標點並不可行,於是不少作家都替這些標點作了不同程度的修改,使標點符號的使用呈現不規範和少許混亂。

民國八年(1919年),馬裕藻、朱希祖、錢玄同、劉復、周作人和胡適等人聯名提出《請頒行新式標點符號議案》,並在國語統一籌備會第一次大會上議決,民國九年(1920年)由當時的教育部正式頒行。這個議案先說明了使用標點符號的必要性,再列出各種符號,包括句號(。)、點號(,或、)、分號(;)、冒號(:)、問號(?)、驚嘆號(!)、引號(「和」)、破折號(——)、刪節號(……)、夾註號(()和—— ——)、私名號(_)和書名號(﹏)共十二種。

「五四運動」以後,公佈的標點符號逐漸普遍推廣應用。與西方使用的標點比較,有幾處明顯的不同:

一九五一年,國家出版總署重新公布《標點符號使用法》,包括十四種符號:句號(。)、逗號(,)、頓號(、)、分號(;)、冒號(:)、問號(?)、感嘆號(!)、引號(「」和『』)、括號(())、破折號(——)、省略號(……)、着重號(.)、專名號(_)和書名號(﹏)。

另外由於政府要求出版物由豎排改為橫排等原因,在使用中對上述規定作了如下的修正和補充:橫排時引號改用“”和‘’。書名號用《》和〈〉。增加間隔號(·)表示人名中的音界,也用在書名和篇名中間。此外,還有一些符號擴大了使用範圍。例如破折號也用來表示時間、地點、數目的起止,或用來表示人或事物之間的關聯。這樣用的時候,有人稱之為連接號。表示聲音的延長,有人也用——。表示聲音的斷續,有人用……。也有人把感嘆號和問號用在一起,如!?或?!,表示反詰語氣(多見於文藝作品),而統一碼也有一個疑問嘆號「‽」(U+203D),用來表示這種反詰語氣。

剛剛說過漢字文化圈有自己獨特的標點,加上文字和標點都是等寬(全形字元)的,以及能作豎排和橫排的,所以統一碼特別把一些我們獨有的標點符號綜合起來,放在幾個專用的區塊,再明確註明要用全形方式來顯示它們,這些區塊如下:

我們使用的標點符號,不少和歐美使用的相同,但卻是全形的,可以在「半形及全形字符」中找到;有些卻是我們特有的,多半會放在「中日韓符號和標點」區塊裏。剩下的三個區塊屬於相容區塊,它們是為了和原有的標準相容的,其中「豎式標點」和「中日韓相容標點」主要包含豎寫時的標點變形(就是把橫寫的標點逆時針轉九十度),「小型符號變體」是字形只有半格的全形字符。聯盟建議不要使用這些相容符號,但是有些字型不能因應豎排書寫而把標點符號正確地旋轉,這時可能需要使用這些區塊中的標點。另外必須注意,圈點號「﹅」(U+FE45)和空心圈點號「﹆」(U+FE46)雖然放在「中日韓相容標點」區塊中,可是它們並不是相容字元,而是認同了的字元,是可以用在文字編輯上的。

上面提及的區塊已包含了大部分常用和不常用的標點符號了,但是卻沒有省略號和點式引號,原來這三個標點符號都不在ASCII字集中,所以沒有放進「半形及全形字符」裏,於是它們便分別與歐美的省略號「…」(U+2026)、破折號「—」(U+2014)、點式單引號「‘」和「’」(U+2018和U+2019)及點式雙引號「“」和「”」(U+201C和U+201D)統合在一起,放到同一個碼位處。當使用這四個標點時,程式會按照文字的語言以決定使用全形還是半形方式來顯示,譬如這篇文字是以中文寫成,上述那些標點便應使用全形顯示,若是一篇英文或者法文文章,上述的標點便應該使用半形顯示。

中日韓符號

我們除了使用漢字和標點符號外,有時還會夾用其他符號,例如花碼、注音符號、假名和《易經》卦象等,統一碼聯盟當然考慮到這方面的需要,所以統一碼也包含了中日韓專用符號的區塊,甚至連我國「國粹」的麻將牌和中國象棋亦加了進去。

下列的區塊中包含了中日韓符號:

展望

統一碼聯盟有計劃把中國先秦時代的古漢字即甲骨文、金文和戰國時期文字(簡牘、帛書、陶文、玉石文字、漆器、璽印、錢幣和鳥蟲書)及秦朝的小篆收到第三輔助平面中,擬定的區塊範圍和名稱如下:

官方字表

參考資料