首页 理论教育数字出版中的语言服务:古籍信息化与积累

数字出版中的语言服务:古籍信息化与积累

【摘要】:信息化技术正在使这些只能保存在图书馆里的资源得以与普通读者见面,为中国和世界各国关注中国历史文化及文明的人们带来惊喜。同时,古籍数字化过程中可以实现语言服务资源的积累。为了宣传中国传统文化,可以建立公益性的中国古籍基本读物网。

我国是一个有着悠久历史渊源的国家,现有古籍总量3000余万册,这些不可再生的古籍,乃中华民族文明成果的载体,是中华文明绵延数千年的历史见证。信息化技术正在使这些只能保存在图书馆里的资源得以与普通读者见面,为中国和世界各国关注中国历史文化及文明的人们带来惊喜。

古籍是指产生于1911年以前,记载中国古代传统文化、具有中国古典装帧形式的典籍。古籍是不可再生的文物,在长期的流通使用中,一些古籍纸张已经变质、变脆,不能再继续流传阅读,特别是一些孤本、珍本,更需要珍藏。因此,古籍收藏单位采取各种措施加以保护,其中古籍数字化是最理想的使用方式,可减少对古籍原本的直接使用,便于长期保存,还可使古籍资源得以有效的开发和利用。同时,古籍数字化过程中可以实现语言服务资源的积累。

1.古籍数字化

随着计算机技术和网络技术的推广,利用新兴技术手段开展古籍整理,实现古籍数字化已成为古籍管理和利用的新方式。2007年3月,国务院办公厅发布《关于进一步加强古籍保护工作的意见》,提出要建立中华古籍联合目录和古籍数字资源库,进一步加强古籍的整理、出版和研究利用,特别是应用现代技术加强古籍数字化和缩微工作,建设中华古籍保护网。古籍数字化已经成为21世纪古籍整理的主流,代表着未来古籍整理、开发、利用的发展方向。

采用计算机技术对古籍文献进行加工、处理,制成古籍文献书目数据库和古籍全文数据库,用以揭示古籍文献中所蕴涵的极其丰富的信息资源,为古籍的开发利用奠定良好的基础,使古籍原典可以在计算机上实现浏览、检索、利用,从而揭示文献资源,为读者提供便利。主要采用古籍文献书目数据库和古籍全文数据库两种方式进行。其中,古籍书目数据库反映的是古籍的外在特征和基本文献信息,如书名、作者、版本年代、行款尺寸等,便于读者查找和图书馆古籍管理。全文检索数据库将古籍资源全文录入,转化为电子文本,供用户查阅,提供了一种以字符为主要处理对象,根据资料内容而不是外在特征来实现检索。

目前古籍数字化还处在理论和实践的探索之中,但我国的一些数字出版社已经整理出版了一些古籍书。例如,四川大学出版社依托百年名校悠久的历史和厚重的文化积淀,长期以来坚持与学校古籍整理研究所合作,自主出版古籍整理系列图书,逐渐将这一领域做大做强,使古籍整理一直被作为四川大学出版社的重点品牌得到关注。

2.古籍资源的网络化(www.chuimin.cn)

随着网络技术的迅速发展和普及,古籍资源的网络化也成为一种趋势。它会将数字化的古籍资源在网络上有偿或无偿地发布,供互联网用户使用。例如,北京大学图书馆古文献资源库(http://rbdl.calis.edu.cn/index.hlm)是在北京大学图书馆馆藏善本古籍、普通古籍,以及金石拓片、舆图、契约等特藏文献的基础上进行相关的数字化加工而建设起来的,它包括古文献目录、图像、全文数据库,古籍、拓片、舆图等文献资源的系列著录系统,是提供给最终用户使用的检索平台[24]

随着我国古籍数字化的进行,除了古籍文献书目数据库和古籍全文数据库,古籍出版也会越来越多,更多的人会对此关注。由于古籍阅读的困难,所以在古籍出版或网络资源获取时,通过提供词汇和句子提取服务,辅助读者解决阅读中的生僻字和难句等是非常有益的。对扩大中国传统文化、文明的传播,让世界更好地了解中国具有非常积极的作用。

3.古籍数字化研发与数字出版语言服务资源积累

目前,有关研究人员对我国古籍数字化研发过程中应关注的问题提出了很多建议,包括统一标准:如著录条例、数据库格式、编目软件使用字库等,以保证数据库的质量和查询服务效果,为读者提供一个共享古籍文献的统一平台;对古籍数字化产品的联合研发是非常必要的。因为古籍数字化是一项艰巨而复杂的工程,为建立一个和谐的古籍资源库,应该走社会化协同合作之路,即收藏者、投资者、高科技企业、出版单位,多家参与联合共研共建,收益分享,为加快高质量、高水平、高速度的古籍信息资源数字化建设展开协作;做好古籍数字资源的共享。目前,古籍数字化资源虽然数量不少,但绝大多数为付费产品,限制了古籍数字化资源的利用。为了宣传中国传统文化,可以建立公益性的中国古籍基本读物网。其次,建立注册式研究性局域网实现资源共享等。

需要注意的是,在古籍数字化研发过程中,还应注意在词汇与句子等资源方面的收集、整理,形成相应的词库和语料库,在满足出版和提供资源需要的同时,为将来数字出版中提供词汇和难句抽取服务做准备。