虽然有时我们对数字出版又爱又恨,但数字出版还是不以人的意志为转移在迅猛地发展。数字出版是文化、是以内容为王的,这是数字出版业中有长远目光的人们的共识。随着数字出版的普及,数字出版业的有识之士已经意识到在用数字化形式传递的业务模式上,数字出版还应当关注读者拿到资源后该如何使用,怎样才能促进读者对资源的有效使用,即提供知识服务,未来的数字出版中知识服务更具有卖点。......
2023-11-23
英文自动校对的研究大约始于20世纪60年代。在20世纪80年代初期,美国一些大学对英文单词词长和音节划分等规律进行了研究,对文本中的错误做了总结。同时,一些学者提出了拼写检查和语法检查的方法,对英文错误进行自动拼写改正。英文文本的自动校对基本以词的校对为核心,在“非词错误”和“真词错误”两个层次上进行。非词错误指文本中被词边界分隔出的字串不是词典中的词条,真词错误指虽然字串是词典中的词,但它与上下文搭配不当。其查错和纠错方法也相应地分为孤立词和上下文相关的两种方法。英文文本中非词错误的比例较大,所以较容易做出实用的英文校对系统。
20世纪90年代初,国内的研究人员开始探索用电脑来进行中文自动校对的可行性。初期的主要设计思想还是从国外引入的,但是由于中文与西文有很大的差异。汉语词与词之间无明显分隔,词的切分具有很大困难,英文的研究方法不能完全适用。国内在文本自动校对方面的研究主要是针对汉语文本开展的。因为中文文本校对主要面向的是含有错误的文本,因此,汉语自然语言理解的研究也就成了计算机中文文本自动校对的基础。
由于汉语与英语本质上的不同,在对中文文本进行查错/纠错分析时,必须要基于自然语言的理解技术,通过研究上下文间的依存关系才能实现,这显然是比较复杂和困难的,某些适用于英文单词校对的技术和方法对汉语文本并不太适用。目前,国内有不少单位开展了中文文本校对理论和技术的研究,除了微软亚洲研究院、IBM中国研究中心、哈尔滨工业大学、清华大学、东北大学、北京师范大学、北京工业大学、山西大学等科研院所外,一些有实力的高新技术公司,如北京黑马电子新技术公司、北大方正公司、金山公司等都开展了中文文本校对软件的研究与开发。(www.chuimin.cn)
但与机器翻译—样,文本自动校对技术是建立在自然语言理解技术的基础之上的,是一个难度很大的研究课题,系统的错误召回率和准确率都比较低(召回率小于70%,准确率小于40%),纠错建议的有效率或首选正确率也很低,与用户的要求还有较大差距,故其技术还有待进一步研究。中文文本自动校对的研究总体上还处于刚起步的阶段,中文文本自动校对理论和技术尚不成熟,采用的方法多是字、词级别上的统计方法,使用的模型较简单,利用的语言学知识也不丰富[6]。所以中文文本自动校对系统还需与人工校对相互补充,才能保证校对质量。
虽然有时我们对数字出版又爱又恨,但数字出版还是不以人的意志为转移在迅猛地发展。数字出版是文化、是以内容为王的,这是数字出版业中有长远目光的人们的共识。随着数字出版的普及,数字出版业的有识之士已经意识到在用数字化形式传递的业务模式上,数字出版还应当关注读者拿到资源后该如何使用,怎样才能促进读者对资源的有效使用,即提供知识服务,未来的数字出版中知识服务更具有卖点。......
2023-11-23
国内汉语教材一贯重视词汇、语法编排的科学性与系统性,而忽略了课文的生动性、趣味性,对未成年学习者,这就成为一个主要问题。为了写出优秀的对外汉语用教材和儿童等读物,可以利用信息技术工具集中古今中外汉语名作,帮助语言学家扩大视野和优化写作。......
2023-11-23
由于中文文本自动校对是在字、词级别上,计算机校对是以词语检查为主、基于规则和词典信息的机械校对。因而在错别字的校对方面,计算机校对大大优于人工校对。目前的计算机校对软件基本都能实现对丢字多字、打字错误、错别字、英文单词拼写错误、不规范标点、年月日错误的自动校对。尤其是新专业、交叉学科的书稿,计算机校对将很难应付。随着领域术语获取技术的进步,相应的计算机自动校对水平将会进一步提高。......
2023-11-23
此外,通过自然语言理解的研究可以更好地了解人类大脑是如何工作的。5)统计学:给自然语言处理提供基于样本数据来预测统计事件的技术。7)生物学:给自然语言处理提供大脑中人类语言行为机制的理论。......
2023-11-23
外文原版教材具有篇幅长、语言正式、句式复杂、专业性强等特点。尽管一些优秀的外文原版教材一般语言简洁流畅,但由于专业知识的讲解涉及概念、相关理念、规律等,强调语言的缜密性、准确性,经常会使用长句和大量术语,较一般的文学读物等更不容易理解。我国目前的外文原版教材主要是纸制书形式,但将来以电子书形式的教材会增加。因此,对于原版教材阅读来说,无论是电子阅读还是纸质阅读,词汇问题是需要解决的关键问题。......
2023-11-23
2014年,新技术在我国数字出版中的应用将得到进一步发展。因此,数字出版的潮流势不可挡。韩国的数字出版产业政策对其数字出版产业发展起了极大的促进作用,其扶持政策值得我国借鉴。为了加强数字出版产业振兴政策的实施效果,韩国政府进一步明确了数字出版相关法律,培养专业性的数字出版人才顺应发展数字出版产业的趋势。......
2023-11-23
在自然语言处理中,无论是语音还是文本语言的处理,都要求具有丰富的词的知识。因此,自然语言处理要完成对一个语篇的处理,不仅需要句子的标注,还需要进行更深入复杂的工作。英语的自然语言处理水平处于世界先进水平,对英语实现词汇抽取服务很容易的。......
2023-11-23
目前,利用语料库编纂词典已经成为一种普遍的方法。计算词典学的研究对象主要是基于数字化技术而编纂的各种词典,包括供人使用和供机器使用的词典。随着数字化技术的发展,将进一步推动计算词典学研究的发展,进而推动词典编纂理念的革新,促使词典编纂技术和词典质量不断提高。......
2023-11-23
相关推荐