|
《出版元数据标准研究》课题工作会议召开
2007年7月6日,《出版元数据标准研究》课题组在新闻出版总署条码中心召开了课题组工作会议。《出版元数据标准研究》课题组组长、中国ISBN中心主任齐相潼,《出版元数据标准研究》课题组副组长、中国出版科学研究所标准化研究室主任朱诠,《出版元数据标准研究》课题组副组长、北科金安公司董事长许传祥,中国ISBN中心邢瑞华,中国出版科学研究所李中,大百科全书出版社王渝丽,中国ISBN中心樊国宾,北科金安公司王红艳,中国出版科学研究所张书卿、王曦共10位同志与会,会议由课题组副组长朱诠同志主持。
首先,朱诠同志介绍了此次会议的主要目的,即通过这次会议,课题组成员将就课题研究的基本框架结构及元数据的采集规范和范围达成共识,并结合《出版元数据标准研究》(意见汇总处理表)进一步展开讨论。
课题组成员李中同志首先就《出版元数据标准研究》(意见汇总处理表)的具体情况进行了分析和汇报,主要包括以下几点:
一、对“意见和建议”的分析
(一)“意见和建议”采集和处理的一般过程
首先,课题组对“意见和建议”的采集非常重视,设专人负责采集工作,并按规范的处理方法,对采集的“意见和建议”进行逐条登记、归类汇总,并形成记录,然后转交专人进行分析研究和处理。
其次,专业人员对“意见和建议”进行分析后,形成“初步处理意见”;该“初步意见”经课题组长进行再研究,形成最后修改处理意见,填写该稿的《意见汇总处理表》,并将分析与处理情况向课题组全体成员汇报。
每一稿的征求意见都按此程序,最后累积形成整个项目的《意见汇总处理表》,并作为“报批稿”的附件之一上报。
(二)对“意见和建议”的归纳和分析
本稿意见采集的时间从2007-1-14日起,到2007-6-20日截止。按“目次”归类汇总,共收到96条意见。
上述意见基本分为:总体性意见和具体性意见两大类。
在总体性意见和具体意见中都反映出了两种修改思路,体现了不同的修改意见和建议,为形成一致的修改方向,需要进行以下说明。
总体方面提出的问题主要有两类:
一类问题是:关于标准是“出版元数据还是出版物元数据”、关于标准的“宗旨、目的和对象”、“ 标准的定位、标准要解决的问题、标准的应用对象”、以及“国内外元数据标准的比较研究” 等问题。
另一类问题:是关于元数据的类型“是属性描述还是资源描述” 、“数据模型的分析”、“不同标准之间内容交叉问题的处理”、 “与相关标准的协调性”等问题。
具体方面提出的问题主要有:
关于题目问题、关于框架中层次的称谓问题,关于元数据元素、数据元、元素组合间的关联关系问题,属性描述问题,通用、专用与核心层、基本层、子元素层的对应关系问题,元素分类与产品分类的关系问题,层次划分的逻辑关系问题,以及条目的调整、应用语言的统一与调整问题,格式问题等。
归纳以上意见和建议,需要重审元数据标准的“宗旨、目的、和对象”的具体内涵、标准的定位、以及本标准在相关标准中的协调作用,从而明确修改的方向和重点,为填写《意见汇总处理表》提供依据。
二、关于项目及修改思路的说明
需要说明:对项目的修改一是针对研究报告的修改,二是针对报告中标准的修改。由于这个事情是一个前后过程,前期主要对报告的修改,后期主要是对标准的修改,因此出现意见不一致的情况也很正常。
(一)关于标准的宗旨、目的、对象和定位
标准的目的决定标准的对象,标准的对象决定标准的定位。本标准立项的宗旨和目的是为了解决出版业内“数据不一致”现象所提出的标准化解决方案,虽然造成“数据不一致”问题的原因很多,但从技术角度看:业内标准化文件之间的不协调,各企业间交换数据的语义不一致是重要原因。因此,本标准的对象是行业所应用的元数据,通过规范元数据以提高全行业的标准化程度。
1.从行业标准化现状看,目前已经存在着多种使用了元数据的标准或规则(如“CIP数据”、“ 图书流通信息交换规则”等),本研究发现,这些应用大都在本标准所定义的“元素组合”层面。一方面其内容结构(选用的数据及其组织)、语义定义(在应用范围内的自定义)、语法结构(与某种语言的梱绑程度)相对独立,其应用的针对性较强;另一方面,由于语义自定义、与某种语言的梱绑形式、以及内容结构和应用范围的局限性等问题,已经有意或无意的形成了自成体系,互不连接的局面,其结果走向了提高行业的标准化程度的反面。
2.从行业标准化的发展来看,新的应用元数据的标准将不断涌现(如“书号元数据”、 “中文图书标识” 、“ 二维码数据引擎描述元数据”等)。另外,在出版物发行过程中,对跨地区的出版物交易过程、交易角色、物流流程等信息交换方面,也将使用元数据并制定相应的规范。对新标准中所应用的元数据进行规范,是提高行业元数据标准化程度的重要途径之一。
(二)关于实现标准目的的途径
目前已经发布的和在制定的标准,都有了较大的投入,为保护这些已经投入的资源,本标准必须能够兼容,但为了促进出版业的发展,本标准也需要对数据进行规范,为解决兼容与规范的矛盾,本标准确定了以下基本原则和技术路线。
基本原则:兼容和规范并举,借鉴与创新结合。根据行业特点和发展趋势,以利于企业的应用和推广。标准的应用者是出版产业链及供应链上的数据用户,包括出版企业、发行企业、读者及监管部门等。
具体路线:从出版产业需求出发"把握“数据不一致”问题"提出信息模型"研究信息组织过程"研究信息组织技术"分析描述元素及属性"分析分析描述标准化对象"(资源描述/事件描述)"采用标准化方法(适应多体系/实现互操作/结合行业应用)"设计标准框架"形成《标准草案》。
(三)关于国外出版元数据研究述评
针对有关意见和建议,对国外出版元数据标准作一述评。
国外元数据标准化研究起步早,并一直处于领先地位,一方面与其科技发展的水平和文化特点有关。另一方面也与发达国家的标准化战略有关。以下将从几个方面分别评述国外元数据标准的研究:
1.国外元数据标准关于方法论的研究:元数据标准的方法论研究可归纳为设计原则的研究和互操作性的研究。
⑴设计原则的研究。设计原则的研究主要包括对元数据的相关含义、设计原则、功能与作用、元数据标准的设计步骤、元素组成、及相关规则规范等。
国外对元数据标准在设计原则方面提出了以下要求:
①从对象特点出发的个性化制作。元数据标准的出发点要以具体的应用为背景,针对某一特定类型的资源或实体的特点,不求标准可以包罗万象,满足具体需要即可。这样可以保证元数据标准是简单易用,而且具有足够的描述能力。
②个性化与通用性的均衡。简单易用是元数据标准获得接受的关键,也是数据加工成本的关键所在。但元数据标准比较简单的话,就存在由于描述深度不够,不能进行专指度较高的检索的问题。而通用性元数据标准,为适用于多种类型的资料,虽有较高的描述深度,但比较庞大复杂。这需要在现实需求和发展前瞻之间进行平衡和选择。
③元数据标准的功能设计。大部分元数据标准都具有对资源的描述、管理、定位,资源评估、对象管理、检索途径等功能,并提供了相应的通用元素。但还应根据领域特点,设计必要的特色元素。
④元数据标准的结构设计,强调多层次与多功能的结合。元素集包括核心元素集和个别元素集;元素层次可以有一级元素和子元素;元素内容则同时包括对物理形态的对象及其数字化信息两方面的描述;元数据也可以和内容数据结合使用。
⑵元数据标准的互操作性
一般认为可扩展标记语言(XML)是独立于系统和计算机平台的,使用基于XML 的编码规则是实现互操作的第一步。元数据标准的互操作性涉及内容结构、语法结构、语义结构等方面,与标准涵盖的的功能范围有关。
综上所述,元数据标准的方法论强调个性化与多样化结合,强调针对用户的功能需求。
①关于标准功能涵盖范围的研究
各个标准之间对各功能层的规定强度不同。标准规定到什么程度合适,关系到以后数据记录交换的难易程度。也关系到标准实施推广的难易程度,这一问题不仅是国外,也是国内元数据标准研制目前所面临的问题。
②关于元数据标准一致检索的支持问题
实现统一检索可以遵循统一的检索协议,也可以用检索属性集来达到一致的检索的目的。元数据标准是否将检索属性集纳入标准的范围,目前尚无定论。
③关于元数据的分类标准研究
数字资源的类型很多,不可能用一种元数据来描述所有的资源,以什么样的标准来划分元数据的类型,使各类元数据构成一个系统,以避免彼此的交叉重复,仍是需要研究的问题。
④关于元数据标准的检验与修订
基于某种类型对象设计的元数据标准需要实践的检验,需要在不同项目和系统的应用中发展与成熟,Dublin Core 标准是这方面的典型代表,它强调个性化、简单化,易于应用,因此世界上已有多个系统应用的元数据是基于DC标准开发的,但是同时很多系统也根据自己的应用需要对DC进行了修改或扩充,使其既保持了原有的特点,也具有一定的描述深度和广度。
2.关于对出版业采用国际标准或国外先进标准的策略研究
⑴产业背景
受《北美行业分类系统》演化的影响,2002年以来,发达国家的大型信息企业,纷纷转向信息内容产业。
如:Google等国外信息企业,不但将美国国会图书馆的藏书数字化,也开始介入我国出版业的数字化。在其数字化的过程中,修订和制定了一系列相关国际标准,并通过“技术专利化、专利标准化、标准国际化”手段,使专利技术与标准捆绑,形成了单边主义的标准秩序。同时制定了相应的标准化战略,封杀后发国家,不断打击标准秩序中的竞争者,维护有利于自己的标准秩序。
如:美国的DOI系统通过权限元数据等配套的系列标准,并利用Handles系统进行管理,以维护其对数字资源的控制。使用者的资源须经该系统采集、验证、注册后才能获得标识符(DOI),由该系统存储并提供检索和解析服务,尽管其技术非常成熟,但应用该系统会对我国的信息安全造成威胁,同时申请会员资格还需要交纳高额会员年费。要打破技术与标准对数字资源的垄断,必须加大我国对自主创新研发能力的投入,瞄准国际创新前沿,重点突破,逐步掌握数字出版产业发展的主动权。
又如:ONIX (Online Information exchange-在线信息交换)标准,是针对图书出版发行和销售的供应链制定的元数据标准,该标准在美国的ONIX、英国的BIC Basic以及EDItERU的EPICS等标准的基础上发展起来的。ONIX由出版商、发行商、零售商、图书馆以及在这条供应链上其它环节的经营者团体共同制定,由设在英国的BIC Basic以及EDItERU维护。欧洲电子数据交换组织EDItERU开发了EPICS数据字典,主要用于保存图书贸易、产品流通方面的信息。2005年2月推出了ONIX 2.1版。
⑵关于是否等同采用该标准的研究
本项目在的前期研究的基础上认为:
一是由于ONIX元数据标准的元素主要是为描述出版物整体及在线交易所设置的,较少涉及出版物内容生产、监管等方面的描述,其EPICS数据字典收入的数据,与我国出版流程和数字内容描述要求的适用性方面,以及对内容的监管要求方面存在一定距离,因此需要进一步研究。
二是由于其运行支撑系统存在专利,其收费政策是否按平等无歧视原则协商,以及应用该系统对我国商务信息安全等问题,也会影响我国的等同采用。
但其标准的设计思想和应用经验,对于本项目的自主创新研究,具有较高的参考和借鉴价值。
(四)修改思路及方案
1.关于“意见和建议”的处理方法
由于本项目既是一个研究性项目,也是一个行业标准,因此,需要明确如下:
作为研究性项目,既要呈报“研究报告”,也要呈报“标准文本”及标准的“编写说明”。
作为行业标准,需呈报“标准文本”和“编写说明”,并且在两个呈报中,“标准文本”和“编写说明”保持一致。
因此,对于针对“研究报告”的意见和针对“标准文本”的意见将分别用于不同对象的修改。
2.关于标准对象的层次与定位
本标准通过对属性的规范化描述,以实现对元素的规范化描述;通过规范化描述的元素,以实现对出版资源的描述和对出版过程的描述。
本标准反映了标准化对象的两个层次:一是针对元素语义的规范,通过属性描述来实现;二是对资源及过程的规范,通过资源描述及过程描述来实现。
通过对元素语义的规范,统一各标准化文本中的元素或数据的语义;解决交流过程中同名异义等问题。
在对资源及过程的规范过程中,采用了“元素组合”格式的概念,即:每一个具体的应用,都是由一组语义统一的元素,以具体的“元素组合”格式来实现的。
通过这种方式,使已发布或将要发布的元素及格式,与新的元数据应用,能在一个体系中实现兼容。
综上所述:本标准的应用包含了两个层次:一是元素层次,二是元素组合格式层次。第一层统一语义,第二层在语义统一的基础上,兼容并规范具体的标准文本及格式,从而提高行业数据一致性程度。
此外,就关于“出版元数据标准”的定位上,本标准重点是对元数据及其使用进行的规范,以制定元数据标准化的框架、采集和注册的基本原则和方法为主,涉及元数据元素比较少。但要满足实际应用,则需要依据本标准对大量的业内元数据进行标准化的采集和注册,这部分工作需要通过制定其他标准(如:“出版元数据元素标准”)来完成的。
3.下一步修改思路及工作安排
⑴提高数据模型的分析与描述清晰度;
⑵明确“关系与属性模型”的关系,明确属性携带关系(携带与不携带),并清晰表示;
⑶明晰资源描述及属性描述间的关系;
⑷对被描述资源单位的构成进行分析、分类和定义;
⑸明确表示如何增加命名域前缀;
⑹根据大家提出的具体“意见和建议”修改标准文本;
⑺增补《编写说明》。
上述为李中同志综合《出版元数据标准研究》(意见汇总处理表)的基本情况后进行的分析和汇报。
在此基础上,课题组组长、条码中心主任齐相潼同志在发言中着重强调以下四点:1.首先必须明确该标准制定的宗旨和目的,界定标准的服务对象;2.必须在报告中首先将术语的基本概念阐述清楚,以使后续的分析和论述更为清晰;3.标准的制定必须具有可操作性;4.课题研究应密切关注国外最新研究动向,做到与国际接轨,形成真正具有前瞻性的研究成果。
课题组副组长许传祥同志在发言中强调,该标准中不能规定应由行政发文规定的内容,例如元数据中心应该建立在什么地方等。同时,按照标准的管理办法的相关规定,该标准确实应该属于推荐性标准,但可以通过行政发文来确定业内必须遵循。
他还反复强调报告中必须严格区分“数据元”和“元数据”的含义。该标准属于元数据的上位标准,重点不应该在于基础数据元的规定,而应该参考ISO11179元数据注册标准进行编制。
此外,他认为,该标准的重点应该在于规定新闻出版行业各个具体的元数据标准需要遵循的规范,包括体系结构、分类、命名、注册等规范。
课题组成员王渝丽同志认为,该标准研究的基本框架主体问题不大,但由于该标准属于上位标准,因而其中的一些细节问题仍需进一步进行精简和归并。此外,应注意在报告的前言或引言部分详细阐明该标准制定的目的和意义。
课题组成员张书卿同志在发言中指出,建议报告经过加工整理后更为简单化、系统化和条理化,此外应在前言或引言部分将“针对谁?如何用?”的问题阐述清楚。
最后,会议确定,在充分汲取此次会议意见和建议基础上,课题组将进一步完成《出版元数据标准研究》标准文本草案的修改工作,并结合《出版元数据标准研究》(意见汇总处理表)再次征求各方的广泛意见,以通过进行反复修改使研究逐步完善,形成最终定稿。(王曦)
|