数字复合出版技术中写作模板的设计

2013/8/4   点击数:2633

[作者] 耄耋少年

[单位] 耄耋少年的BLOG

[摘要] 当今社会是数字出版物与非数字出版物并存的时代,在相当长时间内会延续这种状况。因而出版业只能采取复合出版战略,兼顾多种出版形态。研究的着重点是如何应用数字技术提高出版业的信息组织与发布能力,扩大出版业的社会影响,增加经济效益,尤其是改善传统出版的生存能力。虽说数字出版代表着出版行业的未来,但现在占主导地位的还是印刷出版。

[关键词]  复合出版 写作模板 标记语言



数字复合出版技术中写作模板的设计

当今社会是数字出版物与非数字出版物并存的时代,在相当长时间内会延续这种状况。因而出版业只能采取复合出版战略,兼顾多种出版形态。研究的着重点是如何应用数字技术提高出版业的信息组织与发布能力,扩大出版业的社会影响,增加经济效益,尤其是改善传统出版的生存能力。虽说数字出版代表着出版行业的未来,但现在占主导地位的还是印刷出版。

在出版业推广数字技术应用的过程中需要尽量减少业务人员的技术负担。编辑与作者的工作就是创造内容,而不是用XML来做标记。

一、数字复合出版技术的特征是多种标记语言的综合应用

国际出版界从单一的纸质出版到纸质出版和数字出版并行的转变过程中大都经历了两个不同阶段:

在第一阶段,数字出版被视为传统出版的附属品,通常要在书刊出版后才进行。内容制作出版的程序仍然一如其旧,但在印刷要求满足以后,这些“纸质”文件就会以PDF形式或XML形式进行数字化,然后进入数字阅读的分销流通环节。

在第二阶段,向数字出版转型更成熟的阶段,纸质版本与数字版本不再被严格区分开来。数字出版是出版物整体的一部分,这一整体包含纸质出版物,但它不再是出版过程的中心了。这一变化对出版过程进行了根本性的流程再造。数字生产方式被引入生产流程中以确保内容从生产到分销都以数字化的方式处理。于是内容的组织变得尤为重要:它必须在满足传统出版要求(如校对等)的同时满足发行该内容的纸质和数字版本的要求。先是双轨出版,而后是数字复合出版。

我国出版业的数字技术应用目前仍然在第一阶段,即在纸质书刊出版以后再以PDF或XML进行数字化处理,进入数字阅读分销流通环节。虽然有些单位进行第二阶段的探索,但迄今尚未见成功范例的报道。

20世纪末产生了双轨出版软件。利用XML标记语言来管理文件,使之既能用于排版印刷,又能产生计算机可读的数字化版本。利用不同的处理软件,一个用不同结构标记描述的电子文件便能按不同的方式表现:它既可在屏幕上显示,也可用于印成纸质文本。布局和图形设计可以不同,但使用的是同一文件,并且表达同样的内容。

文档内容和结构

数字化软件排版软件

用于显示 用于印刷

的式样表 的式样表

数字化文件印刷文档

这里说明了两个技术问题。

一是线性文件的结构化处理 自从计算机应用于文字处理,就有两方面的功能:一是一般文字处理,包含公文写作、录入排版等,所产生的是线性文件;一是数据库处理,所产生的是结构化文件。开始两者是不能互相转换的。后来一些工具书性质的书刊,因其条目的结构化特点,利用数据库技术进行制作,同时产生印刷版文件和数据库文件。但文本型的线性文件,在相当一段时间内不能做结构化处理。在超文本技术产生后,才有了全文数据库。从SGML到XML语言,可以将文本中的结构化部分与非结构化部分分离,进行各种属性标记,使同一文件可以产生两种处理结果,一个用于排版印刷,一个用于计算机阅读。

二是多种标记语言的综合应用 标记语言(markup language),也有人称为标识语言。这里“识”读音为“记”,现在通常都称为标记语言。这是采用各种编码形式对计算机电子文本进行标记,以确定其显示式样。不同的编码形式,产生不同的显示式样。如印刷型的页面,机读型的结构格式,声音型的表达方式,知识型的链接路径,等等。开始,每种标记语言是分别独立操作的,数字版是在印刷版产生后处理的。随着计算机技术的发展,不同的标记语言可以在一个文本中同时操作,并且可以在文本产生过程中进行处理。从而,一个电子文本既可以用于排版印刷,产生纸印刷读物;又可以数字形式发布,成为电子读物;还可以以声音传播,制作有声读物。

这就是数字复合出版技术的基础,综合处理多种标记语言,使一个电子文本具有多种发布功能。

最普遍的是使用两种标记语言,一是用于印制纸质文献的排版语言,一是用于产生机器阅读的结构化文件,还可以加注属性数据的元数据标记语言。现以方正书版软件与《中文图书标识规则》两种标识工具为例说明如下。

《中文图书ECIP与自动编目手册》一书的版本记录印刷形式:

出版北京图书馆出版社(100034 北京市西城区文津街7号)

发行 (010)66126153传真(010)66174391

E-mail Btsfxb@publicf.nlc.gov.cn

Website www.nlcpress.com

经销新华书店

印刷中特印刷服务部

版次2003年3月第一版 2003年3月第一次印刷

———————————————————————————————

开本787×1092毫米 〓〓 1/16

印张28 印张

字数665(千字)

印数1-5000

———————————————————————————————

书号ISBN 7-5013-2095-0/G·534

定价60.00元

该书目记录在方正书版的小样文件,对各个事项做了排版标识:

〖KH22〗

〖KG3〗〖HT5H〗出版〓〖HT5F〗北京图书馆出版社

〖HT5F〗100034〓北京市西城区文津街7号)

〖KG5〗〖HT5H〗发行〓〖HT5F〗(010)66126153〖KG2〗传真〓(010)66174391

〖KG5〗〖HT5H〗E-mail〓Btsfxb@publicf.nlc.gov.cn

〖KG5〗〖HT5H〗Website〓www.nlcpress.com

〖KG5〗〖HT5H〗经销〓〖HT5F〗新华书店

〖KG5〗〖HT5H〗印刷〓〖HT5F〗中特印刷服务部

〖KG5〗〖HT5H〗版次〓〖HT5F〗2003年3月第一版〓2003年3月第一次印刷

〖KG4〗———————————————————————————————

〖KG5〗〖HT5H〗开本〓〖HT5F〗787×1092毫米 〓〓 1/16

〖KG5〗〖HT5H〗印张〓〖HT5F〗28 印张

〖KG5〗〖HT5H〗字数〓〖HT5F〗665(千字)

〖KG5〗〖HT5H〗印数〓〖HT5F〗1-5000

〖KG4〗———————————————————————————————

〖KG5〗〖HT5H〗书号〓〖HT5F〗ISBN〓〖HT5F〗7-5013-2095-0/G·534

〖KG5〗〖HT5H〗定价〓〖HT5F〗60.00元〖LM〗

在上列小样文件中,又加入了《中文图书标识规则》的元数据标识,成为复合文件:

〖KH22〗〖BP(〗

北京

〖BP)〗

〖KG3〗〖HT5H〗出版〓〖HT5F〗〖BP(〗

〖BP)〗北京图书馆出版社〖BP(〗

〖BP)〗

〖HT5F〗(100034〓〖BP(〗〖BP)〗北京市西城区文津街7号〖BP(〗〖BP)〗)

〖KG5〗〖HT5H〗发行〓〖HT5F〗(010)66126153〖KG2〗传真〓(010)66174391

〖KG5〗〖HT5H〗E-mail〓Btsfxb@publicf.nlc.gov.cn

〖KG5〗〖HT5H〗Website〓www.nlcpress.com

〖KG5〗〖HT5H〗经销〓〖HT5F〗〖BP(〗

〖BP)〗新华书店〖BP(〗

〖BP)〗

〖KG5〗〖HT5H〗印刷〓〖HT5F〗〖BP(〗

〖BP)〗中特印刷服务部

〖BP(〗

〖BP)〗

〖KG5〗〖HT5H〗版次〓〖HT5F〗〖BP(〗〖BP)〗2003年3月〖BP(〗〖BP)〗

〖BP(〗〖BP)〗第一版〓〖BP(〗〖BP)〗

〖BP(〗〖BP)〗2003年3月〖BP(〗〖BP)〗 〖BP(〗〖BP)〗第一次印刷〖BP(〗〖BP)〗

〖KG4〗———————————————————————————————

〖BP(〗5页〖BP)〗

〖KG5〗〖HT5H〗开本〓〖HT5F〗〖BP(〗〖BP)〗787×1092毫米 〓〓 1/16 〖BP(〗〖BP)〗

〖KG5〗〖HT5H〗印张〓〖HT5F〗〖BP(〗〖BP)〗28 印张 〖BP(〗〖BP)〗

〖KG5〗〖HT5H〗字数〓〖HT5F〗〖BP(〗〖BP)〗665(千字) 〖BP(〗〖BP)〗

〖KG5〗〖HT5H〗印数〓〖HT5F〗〖BP(〗〖BP)〗1-5000〖BP(〗〖BP)〗

〖KG4〗———————————————————————————————

〖KG5〗〖HT5H〗书号〓〖HT5F〗ISBN〓〖HT5F〗〖BP(〗〖BP)〗7-5013-2095-0

〖BP(〗〖BP)〗 〖BP(〗〖BP)〗

〖BP(〗〖BP)〗

〖KG5〗〖HT5H〗定价〓〖BP(〗CNY〖BP)〗〖HT5F〗

〖BP(〗〖BP)〗60.00元〖BP(〗〖BP)〗

〖BP(〗宋安莉〖BP)〗

〖BP(〗责任编辑〖BP)〗

〖LM〗

XML不但具有用不同的方式显示一份文件的能力,其最大的优点是能高效地将一个文件转换成其他许多文件,拥有不同的结构、标记、元素,甚至是不同的内容。上列版本记录文件增加元数据标识后,在出版纸质图书的同时,电子文件中可产生如下的检索点:

出版地

出版者

出版日期

印刷者

印刷日期

书号

定价

责任编辑

这就是双轨出版技术的基础,综合处理多种标记语言,使一个电子文本具有多种显示功能,可以采用多种发布方式。随着数字出版技术的发展,电子文本不仅可以有多种发布方式,还可以将内容进行碎片化处理:一是为了提高对内容进行深度检索;二是已有的内容资源可根据用户需求,进行重组,以印刷形式或数字形式制作新的产品。这就发展成为数字复合出版技术。

二、编辑环节标识操作量大且复杂是数字化进程的最大困扰

数字复合出版技术在出版行业的应用,关键在如何能同时生产线性的排版文件和结构化的计算机阅读文件。这一操作的着力点在编辑环节,对作品内容同时进行两种标记语言的标识。在人工操作的条件下,编辑是不堪重负的。加之目前的业务考核机制,编审稿件有定量指标;操作过程的进度安排,又有严格的时间要求。故而不仅编辑对应用数字技术有所顾虑,出版社领导也不敢轻易决断。这是许多出版社目前设置一个专门数字出版机构,在不影响正常业务的情况下,进行探索的本意。这里的关键就是如何实现作品内容复合文件的计算机自动处理,使编辑不仅不增加负担,还会提高其工作效率,当然就会受到他(她)们的欢迎了。

目前国际出版界已经有成熟的复合出版处理应用软件。国内应用的困难在于这些国外软件现在还不能完美地处理中文文献,因而国外软件有个“汉化”的过程。虽然有些国外软件也可以印制一些中文文献,但是,一般的式样表标记规则难以满足精美印刷品的要求,在处理大字符集和各种图形上也存在诸多困难。能够普遍实现中文文献复合出版功能,是国外软件要解决的一个具有相当难度的课题。

国内的排版软件有处理中文文献的优势,但结构化处理能力较差。实现双轨出版,勉强可以;实现复合出版,若不进行根本改造,就不可能了。且数字复合出版软件需要有从作者、编者、排版者到读者都能读的电子文本格式,这是国内排版软件目前做不到的。

现有国内出版软件,一般人用不好,其显示格式,一般人也不能读。因而,通常是作者用WORD写,编辑有的可直接以电子文本审阅。但到排版阶段就要转换到专业排版软件处理,这时,编辑看不了电子文本,需要打印出来审校,作者也是要以打印件阅读,到网上发布又是另一个格式了。这是国内排版软件需要解决的技术难题之一。

双轨出版只解决了同时出版两种版本的问题,数字复合出版则不仅内容要进行碎片化处理,还要将数字化操作方式引入管理流程,确保内容从生产到分销的全过程都以数字化的方式管理,需要解决的问题更多。国外软件“汉化”,国内软件改造,两方面都在做努力,就看那一方面能进展得快一点了。

排版语言解决纸质文献的印刷问题;元数据标识语言解决数字版的结构化问题。在进行数字复合出版技术研究时,对这两种标记语言都要有所了解。

排版语言这里从略,元数据标记语言,有多种情况。有管理型、描述型、保存型、技术型和使用型。

在双轨出版中,所有元数据是在电子文本完成后,统一在送厂付印前加工。在数字复合出版中,则分散在各个操作环节,由不同的人处理不同的元数据。即ONIX所强调的动态性产生元数据,并与ERP系统结合,形成为数字化操作流程控制。因而需要确定采用的流程,规定哪些元数据在哪一个环节产生,并在ERP系统中得到反映。

元数据标识的工作量很大,下面是《方正书版2008双轨出版插件》所附“元数据标签集”,以Apabi元数据标准规范(V4.0)为基础,并参考CNMARC进行了扩充,共 91项:

标识 ISBN 书名 其它题名 主要责任者 责任关系词 次要责任者 次要责任关系词 版次 出版地 出版社 出版日期 纸书价格 中图法分类号主题/关键词内容提要 类型 语种 字数 印次 责任编辑 电子书价格 电子版权拥有者 页面大小 历史信息 创建者 创建工具 创建日期文件最后修改日期版本说明 图表及其它细节 相关文献 相关文献与本文献的联系 外汇价格类型 外汇价格 POD价格类型 POD价格 POD页计价单位网站分类号 附注 审核人 审核日期 编目人 编目日期 存储信息 文件描述信息 文件的URL地址 数字对象ID 父级数字对象ID ADOI 是否加密 彩页的总页数 内容格式 设备信息 阅读器信息 显示分辨率 数字对象类型 数字对象用途 图像宽度图像高度 原始分辨率 ISBN限定 ISBN定价 统一书号 UBN限定 UBN定价 错误的ISBN 出版日期类型 出版年日期1 出版年日期2 读者对象政府出版物代码 编目语种 字符集 补充字符集 原著语种 提要或文摘语种 目次页语种 题名页语种 正题名语种出版国代码 出版地区代码并列正书名 并列正书名语种 正书名汉语拼音 出版者地址 印刷地 印刷者地址 印刷者名称印刷日期 (这些元数据未将《中文图书标识规则》的119个元数据完全涵盖)

按双轨出版要求进行的元数据标识,还是比较简单的。若要就文献的内容进行深度知识标识,则要复杂得多。通常要有专业的主题词表。一般使用图书馆界编制的词表,出版界自行编制,工作量太大。美国医学图书馆的PubMed就是使用MeSH(医学主题词表)进行深度知识标识。

一方面要有标准化的元数据词表,另一方面还要有规范化的标识手册。才能保证标识处理的准确性。

这些元数据都要由操作人员在电子文本上进行标识,工作量很大,还有相当的知识性要求。因而如何使其能尽量由计算机自动处理,就是技术研发中要充分考虑的事情。不然,如此复杂的标识操作,不仅是编辑人员力所不逮,也是出版商在财力上难以承受的。

三、设计多种适用的写作模板是推进数字技术在出版业应用的关键

按照印刷本文献形式与数字版显示形态的不同要求,如何以模板形式录入数据,以提高系统的自动处理能力。而且也能将两种标记语言抽象为同一标识工具,更是所要达到的目标。这需要大量操作实践的积累,以获得概率模型。

Arms在《数字图书馆概论》中论及双轨出版时,提出样式表( Style sheet)的概念,表示文件显示格式的一组规则。不仅用于印刷版文献,也用于计算机显示。

一个文件,既要产生印刷版的排版格式,又要形成数字版的显示格式,当然就要有不同的处理软件,采用不同的样式表规则。如果数字版里有声音与图像数据,样式表规则就要更为复杂一些。

此外,现在对文献的知识挖掘越来越深入,这方面的结构化处理,也涉及到样式表的设计。

国内目前这些事情都是在纸质文献出版以后做,数字复合出版技术要在出版过程中处理,当然是要分阶段进行。由此带来的技术需求,是很有挑战性的。

在《中文图书标识规则》试用过程中,处理了100多种图书,每一书目记录需要标注的元数据约40个左右,虽有元素表可辅助标识,操作量仍然很多。若采取模板方式录入,则可大大简化操作。

在《在图书排版过程中实现自动编目》一文中,以《中文图书ECIP与自动编目手册》一书的书目记录为例做了说明,这是在图书出版后,以该书的电子文本进行标识的。共标识了116个数据元素,其中章节内容有75个元素,目前的书目记录中尚未有这方面的著录,除去这一部分,需要标识的数据元素为41个。这41个数据元素的分布为:扉页4个,版本记录页13个,内容简介1个,机读数据23个。其中版本记录、内容简介与机读数据的格式都是固定的,可以设计录入模板,由排版人员按书稿上的数据录入即可。只有扉页的数据,需由出版社负责在版编目(CIP)的人员在书稿上标注,排版人员在电子文本上进行标识操作。

现以该书目数据的版本记录页为例,其录入模板设计说明如下。

〖KH22〗〖BP(〗

北京

〖BP)〗

〖KG3〗〖HT5H〗出版〓〖HT5F〗〖BP(〗

〖BP)〗北京图书馆出版社〖BP(〗

〖BP)〗

〖HT5F〗(100034〓〖BP(〗〖BP)〗北京市西城区文津街7号〖BP(〗〖BP)〗)

〖KG5〗〖HT5H〗发行〓〖HT5F〗(010)66126153〖KG2〗传真〓(010)66174391

〖KG5〗〖HT5H〗E-mail〓Btsfxb@publicf.nlc.gov.cn

〖KG5〗〖HT5H〗Website〓www.nlcpress.com

〖KG5〗〖HT5H〗经销〓〖HT5F〗〖BP(〗

〖BP)〗新华书店〖BP(〗

〖BP)〗

〖KG5〗〖HT5H〗印刷〓〖HT5F〗〖BP(〗

〖BP)〗中特印刷服务部

〖BP(〗

〖BP)〗

〖KG5〗〖HT5H〗版次〓〖HT5F〗〖BP(〗〖BP)〗2003年3月〖BP(〗〖BP)〗

〖BP(〗〖BP)〗第一版〓〖BP(〗〖BP)〗

〖BP(〗〖BP)〗2003年3月〖BP(〗〖BP)〗〖BP(〗〖BP)〗第一次印刷〖BP(〗〖BP)〗

〖KG4〗———————————————————————————————

〖BP(〗5页〖BP)〗

〖KG5〗〖HT5H〗开本〓〖HT5F〗〖BP(〗〖BP)〗787×1092毫米 〓〓 1/16 〖BP(〗〖BP)〗

〖KG5〗〖HT5H〗印张〓〖HT5F〗〖BP(〗〖BP)〗28 印张 〖BP(〗〖BP)〗

〖KG5〗〖HT5H〗字数〓〖HT5F〗〖BP(〗〖BP)〗665(千字) 〖BP(〗〖BP)〗

〖KG5〗〖HT5H〗印数〓〖HT5F〗〖BP(〗〖BP)〗1-5000〖BP(〗〖BP)〗

〖KG4〗———————————————————————————————

〖KG5〗〖HT5H〗书号〓〖HT5F〗ISBN〓〖HT5F〗〖BP(〗〖BP)〗7-5013-2095-0

〖BP(〗〖BP)〗 〖BP(〗〖BP)〗

〖BP(〗〖BP)〗

〖KG5〗〖HT5H〗定价〓〖BP(〗CNY〖BP)〗〖HT5F〗

〖BP(〗〖BP)〗60.00元〖BP(〗〖BP)〗

〖BP(〗宋安莉〖BP)〗

〖BP(〗责任编辑〖BP)〗

〖LM〗

由于每个出版社所出版图书的版本记录页都有固定的格式设计,可以按照出版社已定的格式,将有关数据元素预先做好标识安排,排版人员只需在规定的地方录入相应内容即可。这样,排版人员和原先的操作完全相同,没有增加任何工作量。

从上例可以看出,需要录入的内容为楷体加黑的部分,共14项(其中装订形式平装省略;开本为16开,已事先设定,不作为录入内容;出版地北京,印刷版无,数字版需要,预作设定),即:发行者、印刷者、出版日期、版次、印刷日期、印次、页数、标准书号(个别号)、装订形式、定价、印张、字数、印数、责编名称。

我们在一些出版社试用《中文图书标识规则》时,就为各社提供了版本记录页和机读数据两个小样模板,效果很好,排版员很容易就掌握了。但在书版小样文件上操作,只有专业的排版人员方能胜任,一般人是做不了的。因而需要设计一个一般人都能操作的工作单(模板),才能在各个环节普遍应用。这个工作单,机内处理是一个用XML语言按照相关DTD文件编写的Schema,操作界面则是一个用普通文字描述的工作单。工作单所填写的内容与Schema一致,所填写的内容可直接读入到排版软件中(那是最好),也可读入XML文件,再转入小样文件。在“工具书排版与造库系统”中,就是把数据库产生的小样文件转入华光排版系统的。

依据上述做法,其他半结构化数据也可以这样设计,非结构化数据可先加工为半结构化,当然不会像我描述的这样简单,有许多细致且复杂的工作。我曾为标准出版物做过类似的小样文件式样,标准的版式很固定,是半结构化出版物中比较容易处理的。基于上述诸多实验,我以为这一设计思路是可行的。

北京图书馆出版社16开版版本记录页工作单

发行者

印刷者

出版日期

版次

印刷日期

印次

页数

标准书号(个别号)

装订形式

定价

印张

字数

印数

责编名称

以上是在探索自动编目过程中,对复合出版功能的经验认识,从书版小样文件构想写作模板的设计。卡斯多夫在《哥伦比亚数字出版导论》一书中从版式与内容分离的高度,对模板设计做了深入阐述。他认为:将内容与结构和格式分离开来的主要好处是:

文本本身不会发生改变,即使结构和格式随着表达媒介而发生了变化。

显示媒介可以随时间改变以适应技术的发展。

当重新运用该文件时,可以重组内容以适应不同的用途(引用或结集文章,为不同的模式或应用要求重新组织技术文献并进行升级)。

如果编辑关注结构和格式,作者可以关注文本内容。

机构可以拥有所有材料,而作者可以控制单个文本。

甚至是不大可能升级的小说文本,也可以重新加工成不同形式的表达媒介(精装书、平装本或电子书等)。而文本本身保持不变。

这是从资源(内容)组织或重组出发的,模板是将页面设计的格式表现为很容易书写的格式,是内容与格式分离的最好操作方式,也是将多种标记语言抽象为同一标识工具的理想方法。

实现复合文件计算机自动处理的方法,就是设计适用的写作软件(或模板)。也就是应用数据库处理技术,把需要处理的数据对象(各种内容文件),分解成若干数据元素,录入至设定的表单或模板中,经过数据库处理,可按输出需求,产生目标文件(可生成所需要的印刷版式,也可生成各种数字显示形式)。而结构化的内容与格式是分离的,可按照出版需求进行重新组合,选择新的模板进行新作品的创作。

通过对印刷版文献与数字版文献的对比,可以看到,出版物的内容文件虽说是线性的,但包含有许多结构化因素。从出版物的特性来说,有三种情况:

第一种是出版物本身是结构化的,如工具书。其数据对象本来是由若干数据元素组成的,只是由于印刷形式使其线性化了。

第二种是出版物本身是半结构化的,如报纸、期刊,学位论文,科技报告,标准、专利,教辅读物,地方志等等。虽然整体是线性的,但其内容与形式都具有相当的结构化特征。

第三种是出版物本身是非结构化的,即一般图书。即使这样的出版物,其内容也有一些结构化的数据元素,如书名页、版本记录页、目次页、引文、索引等内容。

按照出版物的不同类型,设计多种适用的写作模板,使不同的作者群都有可用的写作模板,是推动出版数字技术应用进程的关键性课题。

四、开发模板设计工具是数字复合出版技术的攻关课题

设计写作模板就需要提供一个模板设计工具,这个工具能让非技术人员按照出版物的不同情况,进行模板设计。这是当前数字复合出版技术研发中的基础建设项目。

只有写作模板设计形成相当规模时,作者、编辑可从已有模板中任意选择使用,出版业才能普遍地应用数字复合出版技术。

将设计好的写作模板提供给作者,作者只需按规定格式写作,而无须考虑任何技术性操作。作者才可以接受这样的安排。

编辑在模板上操作,同样也只是进行内容的修改,校对,无须考虑技术性操作。从而不仅不影响他(她)的工作效率,而且有所帮助。

所有技术性的问题,都在模板设计工具中得到充分的考虑。

写作模板设计工具需要一个操作平台,关系数据库对结构化数据的处理是能支持的,但对半结构化数据和非结构化数据的支持就有问题。所以从上世纪60年代起,虽然各种数据库产品已形成相当大的市场,但非结构化的数据一直未能获得有效处理。直到XML语言出现以后,才解决了这一难题。因而对出版物制作模板的设计,大都采用XML做开发工具。使用有效的DTD文件,设计了各种各样的写作模板

PTC与DITA有这样的功能,但与国内排版软件没有很好结合,主要由于国内排版软件不是开放性的结构。

而研发写作模板设计工具是数字复合出版工程中的基础项目,非做不可。若用PTC或DITA,国内排版软件有一个开放性的问题,这不是一件容易做到的事。这就需要自行研发一个开发平台,从方正智睿XML数据库的功能看,具有PCT与DITA的相似特点,可以作为研发写作模板设计工具的平台,但也有一个与排版软件的接口问题。

1989年我参与设计的“工具书排版与造库系统”处理的是结构化数据,2003年研发的“自动编目软件”处理的是半结构化数据。对于非结构化数据,原理是相同的。何况利用XML语言可以将非结构化数据改造成半结构化数据,实现复合功能是可以做到的。难在要做到计算机自动处理,减少人工操作,这就需要有好的模板设计工具。

模板设计是多种标记语言综合应用的具体形式,目前的一些“采编协同软件”,只是进行内容结构化的处理,而不能同时实现印刷排版文件的自动生成。当结构化的内容文件处理好以后,还要再次进行排版处理,因而不具备复合处理功能。只有进行多种标记语言的综合应用,才能实现对出版物内容的复合处理。方正智睿XML数据库为国内排版软件的改进提供了条件。

对于排版软件的选择与连接,以控制命令形式产生排版效果的方式比交互式的要好一点。但排版软件自身也要有改造,以适应模板设计与多种数字显示形式的需求。

须要从认识上走出一个误区,数字出版技术不是代替传统出版技术,只是对其加强与补充,复合出版是长期的发展战略。只有从源头上实施复合出版功能,我国的数字出版才能健康地发展。在数字复合出版技术的所有环节中,都要体现复合的功能,可同时制作印刷形式与数字形式的出版物,并产生元数据数据库与资源管理数据库,否则只有失败。若是所研发的技术,只能处理单一的标记语言,产生单一产品,就不具备复合功能,也就没有国家工程的攻关意义。而复合处理的各种标识如果都要由人工操作,再好的技术也难以推广应用。

2012-12-10初稿

2012-12-11修改

2012-12-31再改

2013-01-06又改

原文连接:http://blog.sina.com.cn/s/blog_4bd4c87b0101l7x7.html