解读美国数字档案馆的核心技术

2011/10/8   点击数:440

[作者] 沙漠绿洲

[单位] 沙漠绿洲

[摘要] DTD技术无疑是当今美国数字档案馆的核心技术,本文准确、清晰地剖析了美国的编码档案著录文献类型定义(EAD DTD)技术的形成、记录结构、构成元素、相关属性及其著录方法,这对于建立和发展我国自己的EAD DTD具有非常重要的参考价值。

[关键词]  美国 数字档案馆 核心技术



【内容提要】EAD DTD技术无疑是当今美国数字档案馆的核心技术,本文准确、清晰地剖析了美国的编码档案著录文献类型定义(EAD DTD)技术的形成、记录结构、构成元素、相关属性及其著录方法,这对于建立和发展我国自己的EAD DTD具有非常重要的参考价值。

【摘 要 题】海外纵览

【 正 文】

序言:数字档案馆的建设已经成为当今全球档案界最热门的话题之一,我国也不例外。本文就是在此背景下开始尝试探索美国数字档案馆的核心技术——EAD DTD技术。下面笔者将分两部分对EAD产生的历史背景和核心概念(全宗概念)、EAD技术内幕(记录结构、构成元素、相关属性、及其著录方法)进行论述,本文仅作抛砖引玉,如有不妥,还望大家批评指正。

第一部分 EAD DTD产生的历史背景和核心概念

1 EAD DTD产生的历史背景

EAD是基于《通用档案著录国际标准》(ISAD(G))之上的一部档案著录交流标准。它是以标准通用标记语言(SGML)和扩展标记语言(XML)文献类型定义(DTD)的形式存在的。SGML是一个硬件和软件独立的标准,这个用来建立文本资料编码方案的标准是由国际标准组织维护的。SGML首次于1986年推出,在政府、工业、学术界获得巨大的成功。由于SGML很复杂,程序员发现很难用来编制软件。因此,1998年2月由世界广域网联盟(W3C)推出了SGML的可兼容子集,即XML。XML和其他一些相应的标准(如,扩展式样语言(XSL)、扩展链接语言(XLink)提供了SGML和相关标准(如,DSSSL and HyTime)的大部分功能,因此,软件编程人员感到XML容易使用。由于DTD与SGML和XML兼容,所以,EAD DTD就充分地利用了现存的SGML软件和XML软件的优点。1998年8月底,也就在美国档案工作者协会(以下简称为SAA)年会召开之际(8月31日—9月6日在佛罗里达州的奥兰多市召开),SAA下属的档案信息交换委员会(CAIE)下设的编码档案著录(简称EAD)工作组和美国国会图书馆下属的网络发展和马克(MARC)标准办公室联合发布了《编码档案著录文献类型定义1.0版》(英文称作“EAD DTD Version 1.0”,为了不与其他行业制定的DTD相混淆,美国人将此标准简称为“EAD DTD”,但是他们常常为了简便称之为“EAD”。)。与此同时,SAA的季刊《美国档案工作者》出版了刊名上分别标上1997年第3、第4期的两期专刊,专门介绍有关EAD的研制背景和案例应用研究。之后SAA将两本期刊合二为一出版,题名为《编码档案著录:背景、理论和案例研究》。1999年初,SAA下设的EAD工作组出版了一本题名为《编码档案著录应用指南1.0版》。这三本著作是研究EAD技术的重要依据。

EAD DTD在反映ISAD(G)的同时,强调档案著录的等级性质和著录的继承性。EAD DTD中的一套变比较多的著录元素集就是用来著录整个汇集或者全宗的。客观地来说,EAD在利用先进技术转换档案著录方面还处于非常早期的阶段,目前大多数EAD的实施应用注重显示,不注重标引,标引相对简单。然而,由于网络检索和全文标引极大地增强了对著录记录以及对应的资料的检索,因此需要研究传统档案著录在新的联机环境下是否有效、哪些地方需要改、哪些地方需要增加、以什么方式并且怎样完全地开发利用档案著录信息。因此,EAD也正在进一步朝着全面揭示档案著录信息的方向发展。与此同时,目前国际上有组织机构正编制一份基于国际档案理事会的《团体机构、个人和家族档案规范记录国际标准《(ISAAR(CPF))的DTD,这将与EAD兼容,也将便利于建立一个传记和历史数据库,这个数据库对于充当档案著录和资源网关的团体机构、个人、和家族的文献进行处理,这个数据库本身是一个重要的资源,并且将有利于分散的和复杂的全宗的著录。

EAD的国际使用带来了与语言相关的问题,那些母语不是英语的档案人员无法理解和应用这个原来针对英语国家的标准。因此,必须编制其他语种的EAD DTD版本和使用手册。目前HyTime公司已经研制出了EAD DTD的特殊语种版本,它能够作为一个规范形式与英语版本进行交流和交换,这将有利于EAD的进一步国际化,我们国内档案界应该抓住机遇,制定相应的中国EAD DTD标准。自从1996年2月EAD的第一初版发布以来,在许多美国、加拿大、英国(尤其是公共档案局)档案库房,和一些欧洲、拉丁美洲、澳大利亚档案库房都在执行EAD计划。就像任何标准需要发展一样,EAD也正在发展之中并将继续发展。EAD目前正由美国国会图书馆(LC)和SAA联合维护。国会图书馆负责实体上的维护,SAA负责行政上和智能上的维护。在SAA内部,EAD工作组(简称EADWG)直接负责继续的发展。工作组的代表分别来自SAA,LC,研究图书馆组公司(RLG),联机计算机图书馆中心(OCLC)和国际档案理事会(ICA),还有两个国际成员,一个来自加拿大,另一个来自英国。

世界各国的实践经验告诉我们,只有当一个标准实现了它所服务的团体的原则和目标的话,标准才会成功。而当那些负责标准管理维护的组织机构真正代表整个用户团体的话,标准才能反映团体的原则和目标。可以预见的是,随着EAD在国际上的使用,EAD工作组的成员也将扩大,最终将成为一个国际组织。我们国内档案界应该积极与EAD工作组联系,获取信息、增进交流,以便于加快研制我国自己的EAD DTD标准的步伐。

2 对于蕴含在EAD技术中的全宗概念的正确理解

美国EAD DTD标准的核心概念之一就是全宗,因此,正确理解全宗概念对于我们把握编码著录技术来说是至关重要的。《通用档案著录国际标准》公布的一份全宗的整理的各个层次的模型示意图(见下图)是一张等级模型图(这张图只是显示了一种典型的情况,并没有包括所有可能的层次组合,全宗层次以下的各个层次的数量是由实际档案决定的。)。这张图有助于我们清晰地理解全宗这一概念。

附图

事实上,许多了解美国档案档案工作的人都知道,美国人不喜欢使用全宗(fonds)这个词,而更喜欢使用汇集(collection)这个词。对于世界上大多数其他国家来说,汇集是指基于一个或者几个标准之上的资料的“有意图的聚集”,是与资料的“有机产生”相对而言的。在美国的用法中,有意图地聚集资料是“人造的汇集”(artificial collection)的意思。在英国,尽管有时候使用单数形式的“档案”(archive)来代表“全宗”(fonds),但是最近还是使用“汇集”这个词。然而,我们知道,档案著录是用来描述既是“有机产生”的全宗又是“人造的汇集”。所以,这两个词必将共存一个相当长的时期。

第二部分 EAD技术内幕解读

1 高层次元素

EAD规定任何编码检索工具都由两部分组成,而这两部分所在的层次也称为最基本层次。即,(1)第1个最基本层次,第1部分提供关于检索工具本身的信息(包括它的题名、编撰者、编撰日期等等)。(2)第2个最基本层次,第二部分提供关于档案资料主体的信息(包括一个汇集,一个记录组,一份全宗或者由许多份系列构成的一份档案资料)。EAD将第1部分分成2个高层次元素,分别称作EAD头标元素(用<eadheader>表示)、首要事情元素(用<frontmatter>表示)。第2部分被放在第3个高层次元素中,此元素称为档案著录元素(用<archdesc>表示)。这两部分或者说这3个高层次元素被放在最外层的元素中,此最外层的元素称为编码档案著录元素(用<ead>表示)。也就是说,<ead>包含丁上述3个高层次元素。EAD规定,为了在名称上有别于上述2个最基本层次及其包含的3个高层次元素,<ead>也被称为最外层元素。如下表所示。

附图

目前,EAD共收录了145个元素及其对应的标识符,除了上述的<ead>、<eadheader>、<frontmatter>、<archdesc>4个元素,剩下的141个元素将或多或少地根据元素设置规定和实际需要出现在<eadheader>、<frontmatter>、<archdesc>3个高层次元素中,有些元素会根据档案资料的内容著录需要反复出现多次,或者在整个结构的多个地方出现。例如,在文后将提到的链接元素,由于实际的著录内容需要指向一个或几个电子检索工具,所以,在EAD记录结构的任何需要指出链接的地方将使用链接元素,这样,用户在浏览器屏幕上将会看到一个个超链接,这些超链接指向一个个电子检索工具,这难道不是我们想要得到的最佳效果吗?答案显然是肯定的。当然,所有的144个元素都会被最外层的<ead>元素包围起来,形成一个整体,便于计算机识别和信息处理。

2 EAD头标元素和首要事情元素

2.1 EAD头标元素

EAD使用EAD头标元素来获取有关具体检索工具的创建、修改、出版和发行的信息,它由4个子元素组成,有些子元素可以被进一步细分,即,(1)第1个子元素是EAD标识符元素,它为检索工具提供惟一的识别号或者代码,能够指出出处、来源、和标识符类型。(2)第二个子元素是文件著录元素,包含了许多有关检索工具的书目信息,其中包括作者姓名、题名、副题名、主办者(上述三者都被包含在题名说明元素中),也包括版本、出版者、系列相关附注。(3)第5个子元素是外形著录元素,是用来记录检索工具的语种、记录谁和什么时候对此文献进行编码著录的。(4)第4个元素是修订著录元素,概述了对这份经编码档案著录过的文献所作的任何修订。这4个子元素以及下一级元素的次序是由EAD规定好的,为了便于机器处理信息,这些元素次序的前后次序不能颠倒(在文后的元素介绍中,如果没有特别说明,元素中的子元素的著录先后次序是任意排列的,例如,段落元素中的33个子元素的著录次序是根据实际著录内容来决定的。)。EAD头标元素中著录的内容往往不是手工著录的内容,但是对于编制机读检索工具业说是非常重要的,因为这是机读检索工具的基本信息。另外EAD头标元素中的内容可以用来产生电子版和印刷版检索工具的题名页。

2.2 首要事情元素

EAD也包括一个可选择的元素,叫做首要事情元素,它能用来产生一个可以按地方档案机构自己拟订的信息优先顺序进行排列的题名页。因此,在此元素中的题名页子元素与上述文件著录子元素中的题名页子元素的使用方法一样。首要事情元素也可以用来对结构进行编码,例如,序言、题献页、或者其他有关编制、出版情况、检索工具的使用情况的文本。这是EAD能够为用户提供个性化服务的一个突出表现。在越来越强调因特网信息的个性化服务的今天,EAD的这种元素设置无疑是顺应了当今用户检索需求的发展潮流。是值得我们借鉴的一个重要方面。

3 档案著录元素

第3个高层次元素是档案著录元素。在此元素中信息是以等级制形式被完好地组织起来。检索工具通常以几个不同的、但在细节上相关的层次描述一个由许多记录或者文件组成的单元。在这里,首先利用档案著录元素从总体上对档案进行描述,之后,对从属部分进行著录(用<dsc>表示)。另外,对于档案著录元素可以设定它的层次属性,以便于明确整个单元的性质,属性值主要有汇集、记录组、全宗、系列等。

经过上述介绍,我们知道,具体的著录方法是:档案人员通过撰写EAD元素就开始了编码档案著录,之后,编写必须的EAD头标元素及其子元素和具体内容。接着也许会编写首要事情元素及其子元素和具体内容。之后,就要编写档案著录元素,并对此元素设定其属性值。然后,是对于整个单元进行数据描述。其中,描述性识别元素(用<did>表示)对于确保档案单元或组成部分的高质量的基本著录来说是最重要的元素之一,它能便利于信息的检索和输出。

3.1 描述性识别元素

描述性识别元素可以包含13个描述信息的子元素,它们是档案著录的重要元素。即,标目、摘要、容器、数字化档案物件、数字化档案物件组、附注、来源、载体描述、载体出处、库房、单元日期、单元识别、单元题名元素。另外,描述性识别元素可以用一些属性值加以限制,以便于使得这个元素具有更加专指的内容识别作用,例如,标签、类型、编码类似物等属性值。对于可供选择的编码类似物这个属性值来说,设定此值后,可以在此元素内著录一些相应的马克字段或子字段以及规范数据。而使用此值,档案人员可以通过计算机程序从EAD检索工具中自动地产生框架层次的马克记录;使用此值,也可以帮助检索和标引系统识别在联机目录中的书目记录和档案检索工具之间的可匹配的数据元素。

3.2 叙述性信息

当使用上述的描述性识别子元素著录的档案资料的基本信息后,可以进行单元的组成部分的著录。然而,检索工具编制者很可能会提供有关整个单元的内容、背景或者范围方面的叙述性信息。这些著录通常出现在以下一些子元素中,例如,行政管理信息、自传或历史、范围和内容、组织机构、整理元素。对于这些信息类目,编码者也许会使用标目元素来提供一个基于地方档案馆选择之上的标目。例如,只要内容是被标识为自传历史元素,EAD允许编码者在标目元素中著录任一标目来识别一个自传附注或者机构历史。此例的具体标目可以选定为:自传摘要,自传,简·多的关键日期(Jane Doe’s Key Dates)。从结构上来说,这些元素通常还包含段落元素或者各种类型的清单元素。而清单元素包括年表清单元素,年表清单元素又包含年表清单项自、日期、事件元素,由于实际著录需要这些元素中可以包含一些显示文件链接和图表显示的元素。

3.3 段落元素

段落元素特别有用,它包含了33个子元素,可以进一步限定段落的格式、链接和词汇控制等。例如,规范检索标目元素(在第六部分有详细说明。),链接组元素等(在第七部分有详细说明。),表格元素(在第八部分有详细说明)。

3.4 嵌套著录和标识深度之间的关系

因为有各种智能和经济的因素(例如,档案编码人员的素质和能力各不相同,档案机构的经费有多有少。)将影响一个机构的标识的深度,EAD允许档案机构和编码人员根据自身能力、机构财力和用户需求来决定元素的嵌套次数,以便于为用户提供尽可能详细的和特殊的信息。例如,前面提到的行政管理信息元素,包含了有关一个机构的档案资料的采购、处理、管理。此元素标识了有关档案的来源、采购、检索和复制限制条件、缩微和数字化替代品的可获得性情况、首选的引用形式、和其他著录细节,这些著录细节是用来帮助用户了解如何接近档案资料和如何充分利用用户已经找到的信息。在行政管理信息元素中可以单独著录的子元素主要有保管人历史、增加物、采购信息、鉴定信息、检索限制条件、用户限制条件、可获得的选择形式、首选的引用、处理信息、段落、附注元素。

3.5 第3个高层次元素中的其他一些元素及其著录先后次序

现在来简单回顾一下,对于第3个高层次元素来说,以上已经介绍了它的6个子元素,即,(1)描述性识别元素;(2)行政管理信息元素;(3)整理元素;(4)自传或历史元素;(5)组织机构元素;(6)范围和内容元素。此外,还有其他7个在著录中经常用到的子元素,即,(7)辅助描述性数据元素,将在第五部分详细说明;(8)规范检索标目元素,将在第六部分详细说明;(9)数字化档案物件元素,已经被包含在3.1部分中,限于篇幅不作说明;(10)数字化档案物件组元素,已经被包含在3.1部分中,限于篇幅不作说明;(11)附注元素,内容较繁杂,限于篇幅不作说明;(12)其他描述性数据元素,将在第五部分详细说明;(13)从属组件著录元素,将在第四部分详细说明。而这13个子元素的著录先后顺序为:1,7,2,3,4,8,9,10,11,12,5,6,13。下面就对第3个高层次元素中没有介绍过的一些重要元素及其著录方法分别予以说明。

4 从属组件著录元素

当档案编码人员完成了一个记录或者一份文件的第3个高层次元素(即,档案著录元素)的著录后,接着,就要利用从属组件著录元素(用<dsc>表示,主语义上可以译为从属组成部分著录元素)对此记录或者文件的从属部分进行著录了。(在这里,需要特别说明的是,组件(component)是一个计算机专业术语。组件就是组成部分的意思,而本文前面提到的物件(object),也是一个计算机专业术语,是一个物体、一个对象、一个单元的意思。逻辑上来说,物件包含了许多个组件,或者说,物件是由许多个组件构成的。目前,我国计算机专业的许多教材都采用“对象”这一译法,但是在我国许多计算机专业网站上有许多教材采用“物件”这一译法。笔者认为,译为“物件”更加合理,因为物件包含了许多组件,理解起来比较合理、顺畅。)在这个元素中,著录传统检索工具的每个部分,例如,系列、容器清单、日历。这个元素的内容通常是以几种不同的表格形式来体现等级制结构,当然就必须对这个元素赋加一个类型属性值。类型属性值主要有4种。即,(1)类型属性值:分析性概览型;作用:用来识别含有许多系列或者子系列的著录。(2)类型属性值:深入详细型;作用:用来识别一个含有许多容器或文件夹的清单,日历,或者是一个含有许多项目的清单。(3)类型属性值:组合型;作用:用来识别每个系列的著录后面紧随着一个含有许多容器或文件夹的清单的情况。(4)类型属性值:其他类型;作用:用来识别与上述不同的情况。

下面让我们来看一个具体著录过程。第一步,著录大致的提要清单。在撰写好第1个从属组件著录元素(用<dec>表示)后,就要设置此元素的类型属性值和层次属性值。例如,如果档案编码人员想要提供在一个汇集中的所有系列的提要清单,那么,他或她将属性值设置为分析性概览型,并且撰写组件层次元素(用<c01>至<c12>表示)。还要设置层次属性值为系列,再利用以前在第三个高层元素中提到的各项子元素并且依照相同的元素顺序来著录。值得一提的是,一般来说,著录从属组件著录元素时,将不再重复著录在档案著录元素中的描述性识别元素(用<did>表示)中的子元素。例如,在第3高层次元素中的<did>元素中的库房元素和来源元素等表示的信息会被组件层次元素(用<c01>表示)继承。其他<did>元素中的子元素在组件层次元素中将会被经常用到以便于在低一级层次上著录更加新或者更加详细的内容,具体有:标目,摘要,容器,数字化档案物件,数字化档案物件组,附注,载体著录,载体出处,单元日期,单元识别,单元题名元素。第二步,著录全宗等级结构。完成第一步后,只是对于一份全宗著录了一个大概的提要清单,要想全部地反映整个全宗的层层等级结构,还必须完成第二步著录工作。具体是:将第2个从属组件著录元素的类型属性值设置为深入详细型,这样就可以反映出容器的清单。容器清单中的每个系列、子系列、文件、项目的等级制结构都通过组件元素的永无穷尽的层层嵌套反映出来。在这里,每低一层次的元素在网页上显示的时候都能够继承上一层次的著录信息,这样就避免了重复著录。EAD就是依据XML(扩展性标识语言)标准设计的标记语言,当浏览器依据XML标准设计后,浏览器就能正确地反映出这样复杂的档案文件的等级结构,而这正是我们梦寐以求的东西。

5 辅助描述性数据元素和其他描述性数据元素

在档案著录元素和从属组件著录元素中还有两个重要的元素分别是辅助描述性数据元素和其他描述性数据元素。

5.1 辅助描述性数据元素

辅助描述性数据元素是用来提供辅助的描述性信息,以便于用户利用在检索工具中有特征的资料。这包括附加的资料检索工具(例如,索引,文件规划和其他检索工具),也包括与检索工具著录中有些资料相关的或者相分离的资料的清单或著录。此元素主要包含以下一些子元素:书目、文件规划、索引、附注、其他检索工具、段落、相关资料、相分离的资料元素。而书目元素之下又包含3个子元素:档案参照、书目参照、扩展的参照元素。

5.2 其他描述性数据元素

其他描述性数据元素是一个特殊的元素,它是用来标识无法著录在其他EAD类目中的任何信息,主要是用在将旧的纸质检索工具转换为新的电子检索工具的时候(即,在回溯转换时候)。此外,令人感到高兴的是,1999年初,由美国全国人文科学捐赠组织部分资助的(美国传统虚拟档案馆计划)和加州大学校长办公室部分资助的《加州大学EAD计划》都采用于同一份由4所美国大学(杜克大学、斯坦福大学、哈佛大学、加州大学)联合起草的《EAD回溯转换准则》,此《准则》共57页,是EAD的一个重要补充,也具有极大的研究价值。

6 规范检索标目元素

以上是对检索工具的主要部分进行编码著录,这些编码著录工作无疑都是为了便于用户检索。但是,用户往往也可能检索一些存在于检索工具中的字符串,例如,名称,个人名称,团体名称,家族名称,地理名称,职业,功能,形式和类型术语,主题,题名。EAD针对上述这些字符串规定了相应的元素,它们分别是:名称、个人名称、团体名称、家族名称、地理名称、职业、功能、形式和类型术语、主题、题名元素。所有这些元素都允许使用属性值来限定这些元素的内容,例如,个人名称到底是作者、编者、还是摄影师,必须用属性值加以说明;使用的规范专业词汇是否符合国会图书馆主题词表、国会图书馆名称规范档、艺术和建筑叙词表、职业题名词典等等,也必须用属性值加以说明。EAD规定必须将上述这些元素都放在规范检索标目元素之下,而规范检索标目元素可以根据具体档案文件内容的著录需要放在档案著录元素或者从属组件著录元素之下,也可以放在段落元素或者单元题名元素之下,这样放置是为了便于用户对这些元素进行自由地检索。实际上,这些元素是与联机目录中的马克记录的主要款目标目字段(1XX)、主题附加款目标目字段(6XX)、附加款目标目字段(7XX)相对应的。这种对应有利于计算机根据EAD记录按照转换程序自动生成马克记录。总之,这些元素中的内容经过规范化后将更加有利于用户检索信息,也将提高用户的查准率和查全率。

7 指针、参照和链接等元素

在编码著录时,当只需要指出单向的链接时,可以使用以下这些元素:档案参照、书目参照、数字化档案物件、扩展的指针、扩展的参照、指针、参照元素。当需要著录多个方向的链接时,可以使用以下这些元素;数字化物件出处、扩展的指针出处、扩展的参照出处、指针出处、参照出处元素。这些出处信息都被放置在数字化档案物件组元素、或者是指针组元素、或者是链接组元素中。所有以上这些链接元素都可以放置在段落元素中或者是EAD记录结构中的任何地方,目的是为了便于EAD记录可以随处地在记录的任何地方显示超文本和超媒体。这样就为检索工具在联机环境下动态的显示记录及其超链接(准确地说是链接到其他电子检索工具)铺平了道路。

8 表格元素

在EAD记录中,表示表格除了在从属组件著录元素中针对此元素附加一个类型属性值后可以通过几种不同的表格形式来体现等级制结构以外,在许多情况下,可以通过字体的变换来显示表格内容。但是,检索工具常常包含了大量以表格形式出现的文本或者信息,例如,在自传中的多栏目的年代表、高度结构化的文件规划、其他辅助描述性数据元素。因此,为了达到再现真实的档案表格的效果,通常在某一些复杂文件的EAD标记语言中嵌入一个表格结构。通过对列、行、单元格的限定就可以描述一个表格。

美国EAD编码著录技术自正式发布至今已经4年多了,国内仅仅发表了几篇关于EAD的介绍性文章,至今没有一篇详细论述EAD技术内幕的论文。究其原因,主要是由于研究人员受到英语语言知识、计算机技术知识、档案编目知识、物力、财力等诸多客观条件限制,无法开展对这项新技术的理论研究和应用研究。虽然在研究EAD的道路上困难重重,然而只要我们一起努力、齐心协力,就一定能够将研究进行到底。本文行将结束,但是笔者深信大家对EAD的研究不会终止。

原文连接:http://blog.163.com/jlugang@126/blog/static/167135320201198949566/