而数字出版、自然语言处理技术和云计算的出现,可以帮助我们实现这个愿望,即通过数字出版提供词汇和难句抽取服务。本节探讨了基于数字出版平台的外文文学原著出版中普及词汇抽取服务的问题,同时希望该探索能对促进各种现代技术在数字出版方面的应用产生积极影响。......
2023-11-23
我国是一个有着悠久历史渊源的国家,现有古籍总量3000余万册,这些不可再生的古籍,乃中华民族文明成果的载体,是中华文明绵延数千年的历史见证。信息化技术正在使这些只能保存在图书馆里的资源得以与普通读者见面,为中国和世界各国关注中国历史文化及文明的人们带来惊喜。
古籍是指产生于1911年以前,记载中国古代传统文化、具有中国古典装帧形式的典籍。古籍是不可再生的文物,在长期的流通使用中,一些古籍纸张已经变质、变脆,不能再继续流传阅读,特别是一些孤本、珍本,更需要珍藏。因此,古籍收藏单位采取各种措施加以保护,其中古籍数字化是最理想的使用方式,可减少对古籍原本的直接使用,便于长期保存,还可使古籍资源得以有效的开发和利用。同时,古籍数字化过程中可以实现语言服务资源的积累。
1.古籍数字化
随着计算机技术和网络技术的推广,利用新兴技术手段开展古籍整理,实现古籍数字化已成为古籍管理和利用的新方式。2007年3月,国务院办公厅发布《关于进一步加强古籍保护工作的意见》,提出要建立中华古籍联合目录和古籍数字资源库,进一步加强古籍的整理、出版和研究利用,特别是应用现代技术加强古籍数字化和缩微工作,建设中华古籍保护网。古籍数字化已经成为21世纪古籍整理的主流,代表着未来古籍整理、开发、利用的发展方向。
采用计算机技术对古籍文献进行加工、处理,制成古籍文献书目数据库和古籍全文数据库,用以揭示古籍文献中所蕴涵的极其丰富的信息资源,为古籍的开发利用奠定良好的基础,使古籍原典可以在计算机上实现浏览、检索、利用,从而揭示文献资源,为读者提供便利。主要采用古籍文献书目数据库和古籍全文数据库两种方式进行。其中,古籍书目数据库反映的是古籍的外在特征和基本文献信息,如书名、作者、版本年代、行款尺寸等,便于读者查找和图书馆古籍管理。全文检索数据库将古籍资源全文录入,转化为电子文本,供用户查阅,提供了一种以字符为主要处理对象,根据资料内容而不是外在特征来实现检索。
目前古籍数字化还处在理论和实践的探索之中,但我国的一些数字出版社已经整理出版了一些古籍书。例如,四川大学出版社依托百年名校悠久的历史和厚重的文化积淀,长期以来坚持与学校古籍整理研究所合作,自主出版古籍整理系列图书,逐渐将这一领域做大做强,使古籍整理一直被作为四川大学出版社的重点品牌得到关注。
2.古籍资源的网络化(www.chuimin.cn)
随着网络技术的迅速发展和普及,古籍资源的网络化也成为一种趋势。它会将数字化的古籍资源在网络上有偿或无偿地发布,供互联网用户使用。例如,北京大学图书馆古文献资源库(http://rbdl.calis.edu.cn/index.hlm)是在北京大学图书馆馆藏善本古籍、普通古籍,以及金石拓片、舆图、契约等特藏文献的基础上进行相关的数字化加工而建设起来的,它包括古文献目录、图像、全文数据库,古籍、拓片、舆图等文献资源的系列著录系统,是提供给最终用户使用的检索平台[24]。
随着我国古籍数字化的进行,除了古籍文献书目数据库和古籍全文数据库,古籍出版也会越来越多,更多的人会对此关注。由于古籍阅读的困难,所以在古籍出版或网络资源获取时,通过提供词汇和句子提取服务,辅助读者解决阅读中的生僻字和难句等是非常有益的。对扩大中国传统文化、文明的传播,让世界更好地了解中国具有非常积极的作用。
3.古籍数字化研发与数字出版语言服务资源积累
目前,有关研究人员对我国古籍数字化研发过程中应关注的问题提出了很多建议,包括统一标准:如著录条例、数据库格式、编目软件使用字库等,以保证数据库的质量和查询服务效果,为读者提供一个共享古籍文献的统一平台;对古籍数字化产品的联合研发是非常必要的。因为古籍数字化是一项艰巨而复杂的工程,为建立一个和谐的古籍资源库,应该走社会化协同合作之路,即收藏者、投资者、高科技企业、出版单位,多家参与联合共研共建,收益分享,为加快高质量、高水平、高速度的古籍信息资源数字化建设展开协作;做好古籍数字资源的共享。目前,古籍数字化资源虽然数量不少,但绝大多数为付费产品,限制了古籍数字化资源的利用。为了宣传中国传统文化,可以建立公益性的中国古籍基本读物网。其次,建立注册式研究性局域网实现资源共享等。
需要注意的是,在古籍数字化研发过程中,还应注意在词汇与句子等资源方面的收集、整理,形成相应的词库和语料库,在满足出版和提供资源需要的同时,为将来数字出版中提供词汇和难句抽取服务做准备。
而数字出版、自然语言处理技术和云计算的出现,可以帮助我们实现这个愿望,即通过数字出版提供词汇和难句抽取服务。本节探讨了基于数字出版平台的外文文学原著出版中普及词汇抽取服务的问题,同时希望该探索能对促进各种现代技术在数字出版方面的应用产生积极影响。......
2023-11-23
鉴于现代技术不断发展,特别是云计算的出现以及人工智能领域的研究成果将来在数字出版中的应用,数字出版中可能会出现更多的语言层面的服务形式。同时结合目前已经存在的一些自然语言处理在数字出版中的应用形式,如文版编辑与校对、词典编辑和文本难度等,才提出数字出版语言服务这一理念。......
2023-11-23
普通词汇的抽取是依据语言词汇使用分布的规律,即一本书包含很多词汇,但常用单词占了绝大部分。通过直接对作品中词汇进行频率统计的方法实现词汇抽取的优点是直接体现了原著内词汇的频率分布情况。......
2023-11-23
俚语有很多特征,其中口语化是俚语的基本特征。此外,俚语的另一个典型特征是时间限制特征。时间限制指俚语是随着时代的变化而变化的,某一时代盛行的俚语会随着这一代的结束而消失。因此,现在盛行的俚语,在未来的岁月里则可能会受到质疑。有文章说,俚语占口语比重20%。把俚语提取出来形成俚语表,可方便有意识学习和记忆。每种语言的俚语各有其特点,有自身对应的俚语词典,可根据对应的俚语电子词典完成俚语的自动抽取。......
2023-11-23
“中国语言文学”和“外国语言文学”均为一级学科,“语言学及应用语言学”为下设的二级学科。但中国语言学还在作为二级学科设置,难以与国际上语言学研究发展的趋势和时代发展需要相适应[7]。中国境内的少数民族语言也是整个中华民族和祖国大家庭的宝贵财富。所以,将中国语言学设置为一级学科问题,是促进中文信息处理的发展所必需。......
2023-11-23
但是DVD电影的这一特性却使学生很有可能太放松,他们感觉不到来自电影对他们的要求,电影不会要求他们回答问题。DVD电影提供丰富地道的语言输入,包括一些书面上甚少出现的口语语素,是非常好的语言学习资料。......
2023-11-23
从阅读的目的来看,外文阅读可分为以语言学习为目的的阅读、工作需要进行的阅读和享受型阅读。现代汉字是指现代白话文用到的字,包括古今通用的字和白话文专用的字,合起来称“现代汉字”。与现代汉字相对的是只用于文言文中的字,我们称为文言古语用字。到目前为止,汉字生僻字的输入,还一直是困扰文史工......
2023-11-23
相关推荐