“中文新闻信息技术标准”是科技部2003年11月立项的国家“十五”重大科技攻关专项,包括“中文新闻信息置标语言”(简称CNML)和“中文新闻信息分类与代码”(简称《分类标准》)两个标准。CNML是基于XML技术制定的,既要参照国际上相关的通行标准,又要体现我国国情和中文特点,并兼有跨媒体、简洁灵活、扩展性好的优点。《分类标准》是在深入研究和博采众长的基础上制定的,既借鉴国际新闻同行的经验,又汇集国内各新闻单位的成果,具有涵盖面广、新闻特点明显、扩展性好、易于推广的特点。《分类标准》还是制定CNML中的元数据和受控词表所依据的基础资源,因此,这两个分标准既独立成标,又相互依存。两个标准分别在2005年9月2日和9月29日通过了审查,形成了标准报批稿。2005年11月7日,国家标准化管理委员会组织了对该课题的验收会,课题成果获得了与会专家的高度评价。目前,这两个标准已被国家标准委颁布(CNML:GB/T20092-2006,分类标准:GB/T20093-2006),2006年5月1日开始实施。
一、“中文新闻信息置标语言”标准简介
随着我国新闻事业和信息网络技术、特别是互联网的飞速发展,新闻信息的数量以爆炸般的速度不断增长,新闻信息的表现形式和发布渠道日趋多样化,多媒体已经成为新闻传媒发展的新趋势,如何有效地组织和管理日益庞大的结构化、非结构化数据,充分地整合、挖掘并利用丰富的新闻信息资源,拓展新闻信息服务的新领域、新境界,就成为新闻传媒业界面临的严峻挑战:中文新闻标识语言标准是用于新闻信息创建、采集、加工、发布、评估反馈各个生命周期中使用的与国际接轨、又有中国特色的多媒体新闻信息元数据规范。该技术标准采用了XML和RDF技术,支持文字、图片、图形、音频、视频等多种媒体类型以及多媒体混合的新闻信息的描述,支持对新闻信息间关系和语义的描述,为新闻信息的自动解释、交换和处理等新业务的发展留有余地。该标准具有良好的扩展性和实用性,可用于多媒体新闻信息在通讯社、报社、广播、电视台、网站以及新闻信息用户之间进行交换和共享。中文新闻标识语言标准有以下技术特点:
1.总体技术路线特点
“中文新闻信息置标语言”CNML总体技术路线涵盖了四方面内容。第一,标准突出体现了CNML的两个重要主体,一为用于交换的数据,二为数据之间的语义关系;第二,通过建模方法构建了统一的标准概念模型,在此概念模型的基础上,采用XML和RDF两种技术方法设计两套标准Schema;第三,CNML中的通用新闻对象采用了一种抽象的表示形式,真正的新闻对象只在实例化时才进行替代,以实现标准良好的扩展性;第四,在标准中充分定义了标准中可能出现的信息结构和语义逻辑关系。
2.标准概念模型
课题组通过对国际、国内各种已有新闻交换标准和其概念模型的研究分析,发现了已有标准及概念模型存在的不足,按照新的技术路线,设计出了新的新闻交换的概念模型,解决了国际IPTC组织NewsML1.2概念模型存在的不足。
3.元数据模型的建立
在基于XMLSchema的元数据项设计中,课题组特别注重了标准设计概念的整体统一,以利于使用者可以清晰地理解标准的设计思想。
4.面向对象的设计
在CNML标准设计中,采用了数据建模思想和面向对象的设计方法,有效地确立了标准的基础研究方法。首先,对标准中涉及到新闻对象进行建模,然后,通过面向对象的设计方法定义标准中新闻对象的基本类和扩展类,通过类的继承方法逐步从基本类扩展出新的子类。
5.易用性强的新闻元数据组设计
元数据在CNML标准中至关重要。在研制过程中,课题组对收集到的大量的元数据进行了多次讨论,去重补遗,对标准基础元数据的分类规则进行了研究,保证了元数据的完备性。
6.关系模型的设计
标准概念模型中引入了新的关系逻辑,以对新闻对象之间的关系进行表达。在Schema设计中关系元素可以表达新闻稿件之间、新闻稿件包含的多个不同内容实体之间的结构和组合关系,也能表达受控词表中受控词之间的各种类型的关系,丰富了稿件、内容项、受控词表的关系表达。
7.标准扩展机制
CNML在满足现有新闻数据交换的基础上,为满足未来可能出现的数据交换的新需求提供了良好的扩展机制。
8.引入新闻信息的数字签名功能、智能内联标记等扩展机制 新闻信息的安全性非常重要,考虑到新闻的具体情况,CNML标准中引入了数字签名机制。CNML除了可以在稿件或者内容项的元数据描述部分提供对稿件中的各类主题信息的描述以外,还提供了一组可以内嵌在稿件正文内容中标识主题词的标记,我们称这组标记为内联智能标记。
在以上创新性设计的基础上,CNML同国际上IPTC组织目前正式发布的最新的NewsML1.2版本的标准相比,主要有如下特点:
(1)CNML的三层概念模型避免了概念和结构的二义性,也不会像NewsML的二层模型那样容易陷入嵌套,可避免文件结构因而变得繁复、可读性和易用性也相应减低的缺陷。
(2)CNML的“稿件关系集合”结构,透过一组独立元素来描述稿件间的关系,表达清晰,简单易用。简化了联系相关新闻内容所需步骤,大大弥补了NewsML在这方面欠缺的灵活性。
(3)CNML在结构上通过必选元素实现了“标准必选集”;通过可选元素实现了“标准扩展集”,通过规范的扩展机制实现了“自定义扩展集”,这样可以满足不同用户在不同层次采用统一标准进行新闻信息的交换。通过部分面向对象的设计技术引入“抽象类”,解决了标准元数据设计上的共性和特性对立与统一的问题。
二、“中文新闻信息分类与代码”标准简介
中文新闻信息作为社会信息的重要组成部分,迫切需要通过标准化进行规范,以便实现新闻行业之间、新闻行业和广大用户之间的新闻信息交换、存储、处理和共享。实现新闻信息分类体系的统一和规范,是中文新闻信息标准化的重要组成部分。《中文新闻信息分类代码》国家标准有利于进一步开发和整合全社会的中文新闻信息资源;不仅为新闻信息分类工作人员提供分类标引的依据,也为实现中文新闻信息分类自动化打下一个可靠的基础。《中文新闻信息分类代码标准》(以下简称《分类标准》)有以下技术特色:
1.立类原则,坚持主题立类为主,学科立类为辅 新闻信息综合性强,容易形成专题的特点,决定了新闻分类法适宜按“主题内容”聚类。按主题立类的方法,不但符合新闻信息的特点,而且还能打破体系分类法严格的隶属关系,不受学科系统性约束,将一些新闻信息量大,在学科分类中处于较低地位的类目,提升为基本大类或二级类目。《分类标准》的一、二级类较明显地体现了主题立类的原则。《分类标准》在坚持突出新闻信息个性的同时,也遵循分类法从总到分、从一般到具体揭示客体对象的逻辑性、系统性的共性。《分类标准》中较低层的类目,往往涉及更为细致、深入的专业问题,采用专业和学科辅助立类,有助于提高类目间的层次性和系统性。
2.类目设置,兼顾科学性、实用性、稳定性和可扩展性
《分类标准》类目的设置兼顾了科学性和系统性、实用性和服务性、稳定性和兼容性、前瞻性和可扩展性的原则。
《分类标准》将政治、经济、文化确立为三大部类,作为划分一级类目的基础。采用新闻主题与学科相结合的立类方法,使分类体系具有主题的直接性和学科的科学性。在类目划分上,《分类标准》采取从总到分、从一般到具体的层级分类方法,并根据新闻信息的本质属性或特征予以系统化,形成了包括主表、复分表以及编制原则等在内的科学、完整、系统的分类法体系。《分类标准》在保证分类体系科学性、逻辑性的同时,从实用性、服务性角度出发,把一些新闻信息量大、社会广泛关注的内容跨越逻辑层次,作为一级类列出。《分类标准》利用类目说明,对某些不易理解的类目进行内容说明,以便使用者理解;通过设立“参见”类目,为用户查询相关主题信息提供向导。
《分类标准》在一、二级类目的设置上,充分考虑到与国计民生、社会发展息息相关的各个重要领域,总结我国主要新闻媒体数十年分类工作的经验,借鉴国外的相关标准,力求使其具有相对的稳定性;三级及其以下类目的设置,难以完全满足各类媒体的所有需求,特别是某些专业性强的小类。因此《分类标准》采用分类与主题词标引来解决。另外,鉴于各新闻媒体都有自己的特点和新闻信息收集重点,对《分类标准》的使用要求不尽一致,《分类标准》规定,“(各媒体机构)可在统一的分类结构下,根据实际需要,制定自己适用的分类细则或合适的使用本。”基于新闻信息动态性强的特点,《分类标准》采用了开放性分类体系结构,为随着社会发展不断涌现的新事物预留类目扩展空间。《分类标准》采用与国际接轨的纯阿拉伯数字编码制度,各级类目均采用2位数编码,从“00”到“99”,为今后类目的进一步扩充留有充分余地。
3.类名确定,注意用词的规范性和灵活性相结合 事物因类而聚,类目名称需要科学规范,尤其是在一级基本大类层面上要尽量使用比较稳定、明确,且通用性强的受控语言,以准确体现该类事物的共同特征,使大多数综合性新闻信息在一级类目层次上都有处可归。但是,由于新闻信息是客观世界的反映,不断有新概念、新主题出现。为了体现时代特色,提高新闻信息的查准率和查全率,《分类标准》在确定类目名称时采取了相对灵活的办法:一级类目名称基本上采用规范的受控语言,二级及二级以下类目名称,有些采用了通用、内涵外延清晰的自然语言,有些采用了新闻报道习惯用语,及已经约定俗成的词汇作为类名。类名中性化也是《分类标准》的一个重要特点。考虑到《分类标准》的推广不仅面对国内,还包括全球华文媒体,因此,《分类标准》在类目命名上,尽可能减少使用政治色彩浓的词汇。
制定中文新闻信息技术标准,是促进中文信息交换、实现全球中文新闻信息资源共享和进一步开发利用的需要,是中国影响世界舆论的需要,也是我国应对经济全球化新挑战的需要。制定这个标准,是我国几代新闻工作者的期盼,也是我国新闻行业乃至全球华文传媒的一件大事,必将促进中国及华文地区新闻传播和信息咨询服务业的发展。但是,制定标准的目的在于应用,标准的制定只是万里长征的第一步,我们要在国家标准委的领导下,继续做好标准的培训、应用、推广、维护、完善工作,为全国和全世界的华文媒体用户服好务,力求发挥更好的作用。
|