关于制作大藏经电子文库的工程技术方案

概述

将古代典籍录入电子计算机采用光盘磁盘等介质加以储存是现代科技提供的一个优越的技术手段可以大大提高典籍文献的查询检索速度提高资料使用效率简化资料的收藏保管工作对于像中文大藏经这样篇幅繁浩流传久远版本众多思想文化价值极高的大型典籍尤其需要借助电子计算机这一现代化的技术手段来整理和存储

制作中文大藏经电子文库是工作量很浩大的一项系统工程大致要经过版本搜集文字整理软件开發人员培训器材采购数据图形录入后期制作测试和出版發行等工作环节不仅要解决技术问题还要进行大量的编辑录入校对等工作需要将文献专家文字编辑人员系统管理专家计算机工程技术人员录入校对人员等组织在一起通力合作要有较长期工作的心理准备

总之此项工作首先是一项功在历史利在大众的文化事业同时从纯投资的角度来考察又是一项工程周期长投入强度大不好计较短近收益但类似于水库电站工程那样的可以长久受益的项目

文库集成

藏经是佛教典籍的总称成书的时间跨度大撰写抄录翻译的人员多经历长期的历史变迁形成众多的版本载体有木板碑刻本手抄本木刻板等制作大藏经电子文库应该不拘泥于某一个既成版本侭可能将各种版本搜集齐全进行必要的勘校整理同时还收进晚近佛学新的思想成果成为一个超越历史版本的新集合成为一个可以不断扩充的开放系统

在工程目标上要订一个阶段工作目标和工程方案分期分批录入计算机并建立统一的目录索引以便今后查找和使用我们这裡先考虑按一个两年期的首期工作目标来设计

文字整理

文字整理要结合电子出版物的特点把那些意义完全相同的异体字错笔字等进行归一处理以减少编码和录入方面的麻烦(在必要时还可以配合图形存储方式来完整反映原文原貌)这项工作学术性很强需要慎重对待但又不能在枝节问题上纠缠不清以免影响后续工作的开展

软件开發

制作大藏经电子文库没有完整现成的软件可供使用需要组织力量进行开發涉及的主要技术问题包括字符认定编码录入方法载入字形制作文本管理排版图形制作多种查询检索显示打印等下面重点就技术方案进行讨论

1.中文平台

作为一个电子出版物应该具备在多种软硬件平台上使用的性能才可能获得广泛的应用由于电子版大藏经的使用对象主要是国内外研究人员佛教僧俗学者出版机构图书馆等所以首先要考虑在各种流行的PC机和网络上使用如DOSWINDOWSMAC OSUNIX等中文环境要能支持较大的汉字字符集并具备相应的中文输入方法和打印字库佛经典籍主要是用繁体字写成的其中也包括个別现在使用的简体字冷僻字比较多平台上应该有较大的补字空间同时还要考虑国际文化交流的需要因此应采用ISO-10646编码标准ISO-10646是一个多语种的计算机国际标准编码体系其正则方式的编码容量超过一千六百万字符在基本平面上已定义20902个汉字(被称为CJK字符集)并正在酝酿再增九千字左右在基本平面上若不考虑其它语种还可以有三万字以上的补字空间这是一个得到各国承认有广泛發展前途的编码体系世界各主要计算机公司正陆续宣布其产品支持ISO-10646或Unicode(二者在基本平面上对齐)例如微软公司的Windows95的中文版已于3月中旬發表这是一个32位中文操作系统可以支持Unicode中的CJK中文字符集并有相应的输入法和字形但是Windows95要求机档高设备投资及消耗件将成倍增加且录入显示速度慢输入方法(郑码)的重码率也较高基于以上原因在录入工作阶段宜自行开發一个专门为录入工作设计的DOS版本的中文平台和字处理器中文编码应支持ISO-10646采用全双字节方式能完成基本的录入编辑工作同时又能产生与中文版Windows95和其它产品平台上的CJK编码一致的文本文件

2.输入方法

首先要求能支持CJK大字符集且易学速度快目前可选的祇有郑码和仓颉两种由于使用仓颉基本不用付费(作者放弃版权)重码率也很低易学易用故在制作期间可以不考虑费用将来在最终出版物产品上使用仓颉码和拼音以减少销售成本

3.字形制作

在DOS版专用平台上显示用字采取点阵字因为繁体字笔画较多故以采用24×24点阵表达较为清楚打印字库则要采用三次曲线字

补字是一个工作量较大的工作在录入正文时会不断發现原有字符集未收录的冷僻字对这些字要按照相同的编码方式在专门平台和产品平台上增补字库既要补点阵字也要补Truetype字还要补三次曲线字

4.文本管理

文本管理有两方面的需要一是在录入制作期间要有一二个适用的文本管理软件对录入的数据进行管理和处理二是在制成品(光盘)上有一个阅读器能方便地阅读光盘的任何部分可以打印输出在同一界面下还能进行查询检索等处理

5.查询检索

用于中文全文检索的软件已有五六种之多但还未有针对CJK字符的专用产品对于海量文本的处理也未尽如人意检索查询及统计功能对于电子版的书籍是必不可少的功能对此我们已有相当的技术准备可以开發出与整个产品紧密结合的专用检索软件

6.排版

大藏经的版式可搞成横排和竖排两种版本数据录入校对完毕之后除去制作光盘产品还可以交出版社印制分册成书供寺院作法物流通之用

7.多媒体功能

由于每张光盘有近600M的存储容量除了文本内容外还可以加入图片声音等信息如读音照片等采用多媒体技术可以丰富电子版图书表达的内容充分發挥电子计算机的优越性

人员培训

參与录入阶段工作的编辑打字校对人员需要百余人所有人员必须具备相当的文字知识特別是对异体字有相当瞭解打字人员还要学会仓颉输入法这样的人员祇能通过招募培训的方式解决新进人员首先要有不少于一个月的培训期待其在打字录入方面能盲打并达到30字/分的速度以上才能上岗至于文字知识则需定期培训考虑到人员合理的流动培训工作必须是连续不断的并有专职人员负责

数据整理后期加工制作测试

文字图形声音等各种资料录入之后要进行必要的处理压缩存储搭配必要的软件刻入光盘然后还要进行比较全面的测试修改以保证电子文库大藏经的质量和可靠性

时间安排

初步安排为两年时间列表如下

阶段
时间
内容
1.筹备阶段
3个月
人员招聘培训专用平台软件的完善器材采购版本搜集整理
2.初步运作
6个月
文字整理录入校对全面展开
3.密集运作
12个月
同上人员增加到120人
4.后期制作
3个月
上文所述第五项工作

费用概算

单位万元
1.设备费
199.08万
2.耗材
10万
3.软件费
55万
4.专家费
10万
5.人工费(录入+8校)
250万
6.场地费
60万
7.培训费
4万
8.管理费(按人工费15%计算)
37.5万
9.技术支持费用(每年)
10万
10.后期制作费
10万
11.机房费用水电费用
20万
合计
686.58万

其中设备清单

录入用微机
60台
单价0.8万
48万
开發数据处理用微机
10台
单价1.1万
11万
针式打印机
10台
单价0.4万
4万
激光打印机
5台
单价1.1万
5.5万
复印机
4台
单价2.2万
8.8万
UPS
80台
单价0.1万
8万
服务器
2台
单价7.6万
15.2万
RRAID
2台
单价8万
16万
刻盘机
1台
单价10万
10万
网络设备
11万
扫瞄仪
2台
单价0.85万
1.7万
录音设备
1套
单价3.3万
3.3万
合计
142.2万元
每年20%的维修费合计
56.88万元
共计
199.08万元

其中软件清单

系统软件
10万元
中文平台及字处理
5万
字库
20万
全文检索
5万
排版
5万
工具软件
5万
其它
5万
合计
55万

目前已完成的工作

中国综合开發研究院古借电子化课题组自1992年起一直致力于古籍电子化的开發研究工作目前已经积累了一批成果在软件方面主要有

1.平台开發在PC机上开發了支持全双字节编码方式的中文环境显示方式为SVGA1024×768分辨率使用24点阵显示字支持CJK字符集可增补字

2.输入法根据仓颉码的编码原理扩充了仓颉输入法支持CJK字符集的全部字符

3.字处理器开發了在中文平台上全双字节编码方式的字处理器可以完成大藏经文本录入的全部工作支持海量文本在其上便于發展功能较强的检索工具

4.字形已形成了CJK字符集的显示字库打印字库的字形制作

5.全文检索已开發全文检索软件一套经移植可用于ISO-10646体系

更为重要的是经过多年来坚持不懈的工作集合了一批在古籍电子化方面学有专长的专家可以在制作电子版大藏经的工作中發挥骨干作用


校注

[A1] 像【CB】象【藏外】
[A2] 开【CB】关【藏外】

内容源自:漢文大藏經,繁转简后提供

大藏经编纂及电脑化研讨会论文特集(卷5)
关闭
大藏经编纂及电脑化研讨会论文特集(卷5)
关闭
返回首页
章节列表
分卷列表
更多