关于制作大藏经电子文库的工程技术方案
概述
将古代典籍录入电子计算机,采用光盘、磁盘等介质加以储存,是现代科技提供的一个优越的技术手段,可以大大提高典籍文献的查询检索速度,提高资料使用效率,简化资料的收藏保管工作。对于像中文大藏经这样篇幅繁浩、流传久远、版本众多、思想文化价值极高的大型典籍,尤其需要借助电子计算机这一现代化的技术手段来整理和存储。
制作中文大藏经电子文库,是工作量很浩大的一项系统工程,大致要经过版本搜集、文字整理、软件开發、人员培训、器材采购、数据图形录入、后期制作测试和出版發行等工作环节。不仅要解决技术问题,还要进行大量的编辑、录入、校对等工作,需要将文献专家、文字编辑人员、系统管理专家、计算机工程技术人员、录入校对人员等,组织在一起,通力合作,要有较长期工作的心理准备。
总之,此项工作首先是一项功在历史、利在大众的文化事业。同时,从纯投资的角度来考察,又是一项工程周期长,投入强度大,不好计较短近收益,但类似于水库电站工程那样的可以长久受益的项目。
一、文库集成
藏经是佛教典籍的总称,成书的时间跨度大,撰写、抄录、翻译的人员多,经历长期的历史变迁,形成众多的版本。载体有木板、碑刻本、手抄本、木刻板等。制作大藏经电子文库应该不拘泥于某一个既成版本,侭可能将各种版本搜集齐全,进行必要的勘校整理,同时还收进晚近佛学新的思想成果,成为一个超越历史版本的新集合,成为一个可以不断扩充的开放系统。
在工程目标上,要订一个阶段工作目标和工程方案,分期分批录入计算机。并建立统一的目录索引,以便今后查找和使用。我们这裡先考虑按一个两年期的首期工作目标来设计。
二、文字整理
文字整理要结合电子出版物的特点,把那些意义完全相同的异体字、错笔字等进行归一处理,以减少编码和录入方面的麻烦(在必要时,还可以配合图形存储方式来完整反映原文原貌)。这项工作学术性很强,需要慎重对待,但又不能在枝节问题上纠缠不清,以免影响后续工作的开展。
三、软件开發
制作大藏经电子文库,没有完整现成的软件可供使用,需要组织力量进行开發。涉及的主要技术问题包括字符认定编码、录入方法载入、字形制作、文本管理、排版、图形制作、多种查询检索、显示打印等,下面重点就技术方案进行讨论。
1.中文平台
作为一个电子出版物,应该具备在多种软、硬件平台上使用的性能,才可能获得广泛的应用。由于电子版大藏经的使用对象主要是国内外研究人员、佛教僧俗学者、出版机构、图书馆等,所以首先要考虑在各种流行的PC机和网络上使用,如DOS,WINDOWS,MAC OS,UNIX等。中文环境要能支持较大的汉字字符集,并具备相应的中文输入方法和打印字库。佛经典籍主要是用繁体字写成的,其中也包括个別现在使用的简体字,冷僻字比较多,平台上应该有较大的补字空间。同时,还要考虑国际文化交流的需要,因此,应采用ISO-10646编码标准。ISO-10646是一个多语种的计算机国际标准编码体系,其正则方式的编码容量超过一千六百万字符,在基本平面上已定义20902个汉字(被称为CJK字符集),并正在酝酿再增九千字左右。在基本平面上若不考虑其它语种,还可以有三万字以上的补字空间。这是一个得到各国承认,有广泛發展前途的编码体系。世界各主要计算机公司正陆续宣布其产品支持ISO-10646或Unicode(二者在基本平面上对齐)。例如,微软公司的Windows95的中文版已于3月中旬發表,这是一个32位中文操作系统,可以支持Unicode中的CJK中文字符集,并有相应的输入法和字形。但是,Windows95要求机档高,设备投资及消耗件将成倍增加,且录入显示速度慢,输入方法(郑码)的重码率也较高。基于以上原因,在录入工作阶段,宜自行开發一个专门为录入工作设计的DOS版本的中文平台和字处理器。中文编码应支持ISO-10646,采用全双字节方式,能完成基本的录入编辑工作,同时,又能产生与中文版Windows95和其它产品平台上的CJK编码一致的文本、文件。
2.输入方法
首先要求能支持CJK大字符集,且易学、速度快,目前可选的祇有郑码和仓颉两种。由于使用仓颉基本不用付费(作者放弃版权),重码率也很低,易学易用,故在制作期间可以不考虑费用。将来在最终出版物产品上使用仓颉码和拼音,以减少销售成本。
3.字形制作
在DOS版专用平台上,显示用字采取点阵字,因为繁体字笔画较多,故以采用24×24点阵表达较为清楚。打印字库则要采用三次曲线字。
补字是一个工作量较大的工作,在录入正文时,会不断發现原有字符集未收录的冷僻字。对这些字,要按照相同的编码方式,在专门平台和产品平台上增补字库。既要补点阵字,也要补Truetype字,还要补三次曲线字。
4.文本管理
文本管理有两方面的需要。一是在录入制作期间,要有一、二个适用的文本管理软件对录入的数据进行管理和处理。二是在制成品(光盘)上,有一个阅读器,能方便地阅读光盘的任何部分,可以打印输出。在同一界面下,还能进行查询、检索等处理。
5.查询、检索
用于中文全文检索的软件已有五、六种之多,但还未有针对CJK字符的专用产品,对于海量文本的处理也未尽如人意。检索查询及统计功能对于电子版的书籍是必不可少的功能,对此我们已有相当的技术准备,可以开發出与整个产品紧密结合的专用检索软件。
6.排版
大藏经的版式,可搞成横排和竖排两种版本。数据录入校对完毕之后,除去制作光盘产品,还可以交出版社印制分册成书,供寺院作法物流通之用。
7.多媒体功能
由于每张光盘有近600M的存储容量,除了文本内容外,还可以加入图片、声音等信息,如读音、照片等。采用多媒体技术,可以丰富电子版图书表达的内容,充分發挥电子计算机的优越性。
四、人员培训
參与录入阶段工作的编辑、打字、校对人员需要百余人。所有人员必须具备相当的文字知识,特別是对异体字有相当瞭解,打字人员还要学会仓颉输入法。这样的人员祇能通过招募培训的方式解决。新进人员首先要有不少于一个月的培训期,待其在打字录入方面能盲打并达到30字/分的速度以上才能上岗。至于文字知识,则需定期培训。考虑到人员合理的流动,培训工作必须是连续不断的,并有专职人员负责。
五、数据整理、后期加工制作、测试
文字、图形、声音等各种资料录入之后,要进行必要的处理,压缩存储,搭配必要的软件,刻入光盘,然后还要进行比较全面的测试、修改,以保证电子文库大藏经的质量和可靠性。
六、时间安排
初步安排为两年时间,列表如下:
七、费用概算
其中设备清单:
其中软件清单:
八、目前已完成的工作
中国综合开發研究院古借电子化课题组自1992年起,一直致力于古籍电子化的开發研究工作,目前已经积累了一批成果。在软件方面主要有:
1.平台开發,在PC机上开發了支持全双字节编码方式的中文环境,显示方式为SVGA,1024×768分辨率,使用24点阵显示字,支持CJK字符集,可增补字。
2.输入法,根据仓颉码的编码原理扩充了仓颉输入法,支持CJK字符集的全部字符。
3.字处理器,开發了在中文平台上全双字节编码方式的字处理器,可以完成大藏经文本录入的全部工作,支持海量文本,在其上便于發展功能较强的检索工具。
4.字形,已形成了CJK字符集的显示字库、打印字库的字形制作。
5.全文检索,已开發全文检索软件一套,经移植可用于ISO-10646体系。
更为重要的是,经过多年来坚持不懈的工作,集合了一批在古籍电子化方面学有专长的专家,可以在制作电子版大藏经的工作中發挥骨干作用。
【经文资讯】《藏外佛教文献》第 W02 册 No. ZW02na010 大藏经编纂及电脑化研讨会论文特集
【版本记录】發行日期:2022-01,最后更新:2021-07-14
【编辑说明】本资料库由中华电子佛典协会(CBETA)依《藏外佛教文献》所编辑
【原始资料】方广锠大德提供
【其他事项】详细说明请參阅【中华电子佛典协会资料库版权宣告】
内容源自:漢文大藏經,繁转简后提供