此外,通过自然语言理解的研究可以更好地了解人类大脑是如何工作的。5)统计学:给自然语言处理提供基于样本数据来预测统计事件的技术。7)生物学:给自然语言处理提供大脑中人类语言行为机制的理论。...
2023-11-23 理论教育
此外,通过自然语言理解的研究可以更好地了解人类大脑是如何工作的。5)统计学:给自然语言处理提供基于样本数据来预测统计事件的技术。7)生物学:给自然语言处理提供大脑中人类语言行为机制的理论。...
2023-11-23 理论教育
我国从20世纪90年代初开始研制汉语语料库,当前规模最大、影响最广的是国家语言资源监测与研究中心所做的工作。为了完成这项系列性的任务,分布于多所大学的研究人员在后台做了大量的艰苦的数据收集与处理工作,每年都形成10亿量级的汉语语料库。...
2023-11-23 理论教育
数字出版提供词汇抽取服务主要是基于这样一个统计事实,一种成熟的语言,一般词汇量很大,但在人们的日常生活会话和书籍中,常用词占了绝大部分。在现代汉语文章中,2500个常用字的覆盖率达97.97%,3500个常用字的覆盖率达99.48%[4]。如果把一种语言的词汇按词频分段,语言水平高的读者,生词少且趋于低频词段,语言水平较低的读者,生词较多,生词词频段跨度会较大。...
2023-11-23 理论教育
较好的方法是给出原型词汇,然后在解释中对其在文档中的形式加以说明。...
2023-11-23 理论教育
目前,语料库是自然语言处理统计方法的基础,在自然语言处理的研究中占有不可替代的地位。按语料库的结构划分语料库可以分为平衡结构语料库和自然随机结构的语料库。按语料库的用途划分语料库可分为通用语料库和专用语料库。利用语料库从事语言研究,可以克服传统语言学研究中的很多困难和不足。...
2023-11-23 理论教育
云计算是当代信息领域的重大创新,从宏观角度看,这种创新体现在两个方面:一方面是从互联网信息服务形式表现为一种新型的商业模式;另一方面,从提供这些服务的平台的硬件、软件的一整套技术实现机制来看,表现为一种针对现代信息社会“大用户”、“大数据”和“大系统”问题解决方案的一种技术。...
2023-11-23 理论教育
由于中文文本自动校对是在字、词级别上,计算机校对是以词语检查为主、基于规则和词典信息的机械校对。因而在错别字的校对方面,计算机校对大大优于人工校对。目前的计算机校对软件基本都能实现对丢字多字、打字错误、错别字、英文单词拼写错误、不规范标点、年月日错误的自动校对。尤其是新专业、交叉学科的书稿,计算机校对将很难应付。随着领域术语获取技术的进步,相应的计算机自动校对水平将会进一步提高。...
2023-11-23 理论教育
从语言实用论的角度来说,词典不仅记录人类语言发展的事实、反映社会环境发展过程和结果,而且能通过改变人类认知世界的方式,从某种程度上推进某一特定社会发展时期生产力的发展。这个定义表明数字化科技发展给“词典”一词带来了新的意义和用法,词典的内涵和外延都发生了变化,把光盘词典、掌上电子词典、手机词典、网络词典和机器词典等各类电子词典融入了词典定义的范畴。...
2023-11-23 理论教育
从阅读的目的来看,外文阅读可分为以语言学习为目的的阅读、工作需要进行的阅读和享受型阅读。现代汉字是指现代白话文用到的字,包括古今通用的字和白话文专用的字,合起来称“现代汉字”。与现代汉字相对的是只用于文言文中的字,我们称为文言古语用字。到目前为止,汉字生僻字的输入,还一直是困扰文史工...
2023-11-23 理论教育
3)英语原版教材词汇抽取中,也可考虑通过词库类别进行词汇抽取。对于一个存在于多个专业词典中的词汇,会被抽取多次,所以需要注意减少数据冗余,方便读者学习。...
2023-11-23 理论教育
国内汉语教材一贯重视词汇、语法编排的科学性与系统性,而忽略了课文的生动性、趣味性,对未成年学习者,这就成为一个主要问题。为了写出优秀的对外汉语用教材和儿童等读物,可以利用信息技术工具集中古今中外汉语名作,帮助语言学家扩大视野和优化写作。...
2023-11-23 理论教育
期刊文献中每篇文章的页数不是很多,但词汇分布却很广,从高频词到低频词,并且包含只在专业词典中出现的专业术语。阅读期刊文献时,术语翻译是翻译的关键和难点。...
2023-11-23 理论教育
为了解决语篇预处理和缺乏准确高效的难句识别和抽取算法问题,可以考虑在参考传统的确定文本难度算法的基础上,在纯文本格式文件中实现自动难句提取,这样就可以避开语篇预处理问题。而传统的文本难度计算中的词汇难度、词频和词长计算都可以在纯文本格式文件中完成。目前,对文本难度研究最成熟的是英语,而英语是国际通用语言,可尝试先在英文读物中提供英语难句的自动提取。...
2023-11-23 理论教育
所以,汉语分词成为中文信息处理中重要而又难以解决的问题。多年来,汉语的词切分问题严重地影响了中文信息处理,或者说中文自然语言处理的发展。目前,随着人类社会向数字环境下“智能社会”的发展,自然语言处理在信息处理中的作用越来越重要,中文分词成为文本分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理中的关键技术和难点。...
2023-11-23 理论教育
表4-1 数字出版词汇抽取涉及的出版物形式属性分类表2.词汇抽取内容策略分类对于不同内容和题材的数字出版物,词汇抽取的内容和词汇表所包含的属性内容是不同的,如文学作品只需抽取普通词汇,专业书籍中不仅有普通词汇还有专业词汇。...
2023-11-23 理论教育
从这些数据可以看出,中文信息处理的第一步自动分词和词性标注尚未达到实用的要求,需要努力的道路还很长,正确率能够提高的空间也很大。是否应该考虑开发适合中文的分析体系?...
2023-11-23 理论教育