所以外文数字出版中提供难句抽取服务具有积极的意义。实现外文数字出版中的难句抽取的完全自动化,从理论上说,需要涉及语篇的预处理、难句识别及抽取算法和机器翻译,而这在目前还存在一些困难。其次,除了语料的标注,难句抽取还需要根据高效准确的难句识别和抽取算法,开发相应的难句抽取软件工具。......
2023-11-23
俚语是一种非正式的语言,是老百姓在日常生活中总结出来的通俗易懂的并且具有浓厚地方色彩的词语,它有其地域化和生活化的特点。俚语可以是一些民间粗俗的、不文雅的语言,同时也可以是一些俏皮话、脏话和笑话等。俚语(slang)在汉语里被解释为粗俗的或通行而极窄的方言,而在英语中,它被定义为在非正式用法中常用的、而且通常被认为是不属于标准英语部分的、经常被故意用来使之能收到形象、生动或新颖、不落俗套效果的词或短语,或者表达这些词或短语的某些特定的意义(《简明牛津词典》第六版)[16]。
俚语在文学和影视作品中被广泛应用,在意义表达和对作品主题的揭示等方面起着重要作用,其不仅与社会文化、意识形态相关,同时也反映了所属语言的发展趋势。俚语有很多特征,其中口语化是俚语的基本特征。俚语通常被作为口语来使用,常用来打破说话主色调中的拘谨的气氛,从而拉近发话者与听者之间的距离。此外,俚语的另一个典型特征是时间限制特征。时间限制指俚语是随着时代的变化而变化的,某一时代盛行的俚语会随着这一代的结束而消失。因此,现在盛行的俚语,在未来的岁月里则可能会受到质疑。
有文章说,俚语占口语比重20%。在进行跨文化的交流中,不了解目标语中的俚语,不懂得对俚语的使用,就会给正常的交流造成一定的障碍,甚至会产生误解。例如英语俚语有其新颖时髦、别具特色、幽默诙谐和生动形象的特点,在电影中的很多俚语都很短小精悍,只是一两个词就足以让母语观众明白其中的道理[17]。但在电影中,由于语言对白和字幕的出现稍纵即逝,所以难以保证记忆。把俚语提取出来形成俚语表,可方便有意识学习和记忆。(www.chuimin.cn)
每种语言的俚语各有其特点,有自身对应的俚语词典,可根据对应的俚语电子词典完成俚语的自动抽取。如英语俚语短小精炼,可分为单字俚语、词组俚语和单句俚语三种。《牛津现代英语俚语词典》取材于《牛津英语词典》,收集了现当代全球英语使用国家的俚语单词和词组5000余条,内容生动、释义明确,对于每一词条,词典都列出了完整的信息,包括定义、出处及首次出版日期,并配以经典的实例,让读者感受其用法的妙处。
所以外文数字出版中提供难句抽取服务具有积极的意义。实现外文数字出版中的难句抽取的完全自动化,从理论上说,需要涉及语篇的预处理、难句识别及抽取算法和机器翻译,而这在目前还存在一些困难。其次,除了语料的标注,难句抽取还需要根据高效准确的难句识别和抽取算法,开发相应的难句抽取软件工具。......
2023-11-23
从阅读的目的来看,外文阅读可分为以语言学习为目的的阅读、工作需要进行的阅读和享受型阅读。现代汉字是指现代白话文用到的字,包括古今通用的字和白话文专用的字,合起来称“现代汉字”。与现代汉字相对的是只用于文言文中的字,我们称为文言古语用字。到目前为止,汉字生僻字的输入,还一直是困扰文史工......
2023-11-23
在目前的数字出版服务中,人们主要关注的是疏通出版、消费渠道和丰富数字产品形式。但对数字出版为读者提供语言层面的服务,除了起源于美国的阅读分级服务,几十年来几乎没有新的进展。目前数字出版中的语言服务,有代表性的有以下几种:1)数字出版编辑中的语言服务:文字编辑与校对。3)数字出版面向读者的语言服务:文本难度。......
2023-11-23
此外,通过自然语言理解的研究可以更好地了解人类大脑是如何工作的。5)统计学:给自然语言处理提供基于样本数据来预测统计事件的技术。7)生物学:给自然语言处理提供大脑中人类语言行为机制的理论。......
2023-11-23
数字出版提供词汇抽取服务主要是基于这样一个统计事实,一种成熟的语言,一般词汇量很大,但在人们的日常生活会话和书籍中,常用词占了绝大部分。在现代汉语文章中,2500个常用字的覆盖率达97.97%,3500个常用字的覆盖率达99.48%[4]。如果把一种语言的词汇按词频分段,语言水平高的读者,生词少且趋于低频词段,语言水平较低的读者,生词较多,生词词频段跨度会较大。......
2023-11-23
2014年,新技术在我国数字出版中的应用将得到进一步发展。因此,数字出版的潮流势不可挡。韩国的数字出版产业政策对其数字出版产业发展起了极大的促进作用,其扶持政策值得我国借鉴。为了加强数字出版产业振兴政策的实施效果,韩国政府进一步明确了数字出版相关法律,培养专业性的数字出版人才顺应发展数字出版产业的趋势。......
2023-11-23
外文原版教材具有篇幅长、语言正式、句式复杂、专业性强等特点。尽管一些优秀的外文原版教材一般语言简洁流畅,但由于专业知识的讲解涉及概念、相关理念、规律等,强调语言的缜密性、准确性,经常会使用长句和大量术语,较一般的文学读物等更不容易理解。我国目前的外文原版教材主要是纸制书形式,但将来以电子书形式的教材会增加。因此,对于原版教材阅读来说,无论是电子阅读还是纸质阅读,词汇问题是需要解决的关键问题。......
2023-11-23
期刊文献是人们进行科学交流的重要工具,对于促进人类社会的发展具有重要意义。世界各国为科研和学术交流的需要,都购买了国际主流科技期刊一些数据库的使用权。为此,本节探讨了在数字期刊出版平台应用自然语言处理技术,为期刊文献提供词汇抽取服务,帮助读者更有效和容易地阅读外文参考文献的问题。......
2023-11-23
相关推荐