|
《新闻出版用汉字大字符集》工作组工作情况
20世纪80年代以来,电子排版印刷系统及数字存储传输系统诞生并快速延伸,引发了新闻出版业生产力的突破性发展。出版物可以做到海量存储与超时空复制,甚至脱离纸介质而形成电子出版物、数字图书馆。新闻出版业的核心产品是形形色色的文字出版物,新闻出版业使用的汉字反映了社会上汉字应用的基本面貌。
目前中文字符集的主要标准有:
1.《信息交换用汉字编码字符集》基本集和辅助集(GB·2312-1980;GB/T12345-1990),收汉字6763个(辅助集又增补103个)。它是基础的规范汉字集和相对应的繁体字集,多年来在计算机文字处理系统与排版系统中广泛应用,但收字太少,甚至连《现代汉语通用字表》的字都没有收全。
2.《信息交换用汉字编码字符集》的2-5四个辅助集。2、4集和3、5集各为对应的简繁体字集,收汉字分别为7237和7039个。编写仓促,又有类推简化等问题,未推广应用,3集和5集没有正式出版。
3.《信息技术通用多八位编码字符集》是国际标准化组织制订的适用于全世界范围的各种文字之间信息交换的字符集。其中CJK-0集,即基础字集,收有汉字20902个,另有986个字符,后列为中国国家标准GB13001-1993。该部分汉字已应用于计算机文字处理系统中,并已开始应用于通用的书刊排版系统。2万多个汉字中有近四分之一为日韩汉字或台湾地区的异体字,在国内出版物中极少用到,而国内出版物中不少通行字却未能收入该标准。CJK-EX-A,即扩充A集,收录汉字及汉字的部首、构件6千余个,与上述CJK-0被整合为中国国家标准GB18030-2000。CJK -EX-B,收录汉字4万余个,还收有日本、韩国、朝鲜、越南的汉字。全部国际标准汉字字符集收汉字约7.1万个(另有EX-C在继续扩充中),成为了中国国家标准GB13000.2-2002。CJK的这两个扩充标准从新闻出版业的角度来看,很不适用。如收字庞杂,字形混乱,新旧字形无统一标准,相当一部分是历代字书陈陈相因无用例的字,甚至有不少是抄刻中的讹字。出于一种妥协性的规定,字的排序也非常不便于检索应用。这两部分所收的5万字中,绝大部分除了排印全面罗列汉字的大型字书外,一般出版物中难以涉及。该标准却又遗漏了若干现代字词典收为字头的通行字。
由于历史原因,上述各字符集在研制过程中,新闻出版业很少参与意见,这就造成了小的字符集本行业不够用,而大的字符集本行业又用不上的局面。尤为突出的是,从win95开始,计算机操作系统中预装了CJK字符集,而winXP更是将CJK-EX-A,CJK-EX-B附载其上。但相应的书刊排版系统的推广却十分缓慢。以致于在word中加工好的书稿,又要退回到GB系统的排印软件上去自行造字。这种不相衔接的情况,很大程度上与没有一个收字恰当、大小适中能被广为接受的字符集有关。随着时间推移,这一问题日渐突出。作为一项基本的应对措施,新闻出版业需要有一个满足现代出版要求的大字符集及其应用系统,才能够保证各类出版物的准确存储与复制,才能够保证它们在计算机网络上的传输集散。
这样的一个字符集,要真正满足现代新闻出版需求,就要涵盖出版物各类内容所涉及到的所有汉字,且字形准确,排列有序,同时它也是一个支持处理它的符合行业各项要求的中文系统平台建立的基础。字符集要为我国(包括台、港、澳地区)提供一个合适的汉字排录制做平台,使现代各种新闻出版物在一般情况下,排录时不需要另行造字,而制做电子出版物时也不用另外附加专用字库。显然,这样一个字符集,其收字要涵盖现代各类汉语出版物,包括近年来编纂的若干有相当权威性的大型辞书,也包括整理排印的各类古代典籍。要达到这样一个目标,就需要采集现代社会生活中有用例的或可能出现的汉字以及古籍整理中必须要保留的汉字形体。
《新闻出版用汉字大字符集》暂定分为两集四表。两集为基本集和扩充集。四表分别为:
基本集1表。等同于国家标准的《汉字规范字表》,12000个汉字,约相当于一般中小型字词典的收字量,具有规范性,可以基本满足现代一般报刊图书的需求。
基本集2表。1表之外的古今典籍有用例的汉字,大多为规范的繁体字,也包括古籍中使用的常见异体字及日本、韩国常用字表中中国所无的汉字(主要是特有的人名、地名用字),收字量在16000左右。
扩充集1表。收录1999年版《辞海》及其他图书中的类推简化字,全部字数应在4000字以内,以满足各类出版物对类推简化字的需求。
扩充集2表。主要收无文献用例的古辞书音义俱全的字,古辞书中音未详或义未详和音义未详字,也收录出现在其他特殊的出版物中的罕见字形。是一个纯工具性的表,可以满足录排古代辞书及现代大型字典的需要。暂定在收字35000左右,但有一定的开放性,必要时还可进行扩充。
《新闻出版用汉字大字符集》工作组
2005.11.10
|