首页 理论教育数字出版中的语言服务:自然语言处理技术助力俚语抽取

数字出版中的语言服务:自然语言处理技术助力俚语抽取

【摘要】:俚语有很多特征,其中口语化是俚语的基本特征。此外,俚语的另一个典型特征是时间限制特征。时间限制指俚语是随着时代的变化而变化的,某一时代盛行的俚语会随着这一代的结束而消失。因此,现在盛行的俚语,在未来的岁月里则可能会受到质疑。有文章说,俚语占口语比重20%。把俚语提取出来形成俚语表,可方便有意识学习和记忆。每种语言的俚语各有其特点,有自身对应的俚语词典,可根据对应的俚语电子词典完成俚语的自动抽取。

俚语是一种非正式的语言,是老百姓在日常生活中总结出来的通俗易懂的并且具有浓厚地方色彩的词语,它有其地域化和生活化的特点。俚语可以是一些民间粗俗的、不文雅的语言,同时也可以是一些俏皮话、脏话和笑话等。俚语(slang)在汉语里被解释为粗俗的或通行而极窄的方言,而在英语中,它被定义为在非正式用法中常用的、而且通常被认为是不属于标准英语部分的、经常被故意用来使之能收到形象、生动或新颖、不落俗套效果的词或短语,或者表达这些词或短语的某些特定的意义(《简明牛津词典》第六版)[16]

俚语在文学和影视作品中被广泛应用,在意义表达和对作品主题的揭示等方面起着重要作用,其不仅与社会文化、意识形态相关,同时也反映了所属语言的发展趋势。俚语有很多特征,其中口语化是俚语的基本特征。俚语通常被作为口语来使用,常用来打破说话主色调中的拘谨的气氛,从而拉近发话者与听者之间的距离。此外,俚语的另一个典型特征是时间限制特征。时间限制指俚语是随着时代的变化而变化的,某一时代盛行的俚语会随着这一代的结束而消失。因此,现在盛行的俚语,在未来的岁月里则可能会受到质疑。

有文章说,俚语占口语比重20%。在进行跨文化的交流中,不了解目标语中的俚语,不懂得对俚语的使用,就会给正常的交流造成一定的障碍,甚至会产生误解。例如英语俚语有其新颖时髦、别具特色、幽默诙谐和生动形象的特点,在电影中的很多俚语都很短小精悍,只是一两个词就足以让母语观众明白其中的道理[17]。但在电影中,由于语言对白和字幕的出现稍纵即逝,所以难以保证记忆。把俚语提取出来形成俚语表,可方便有意识学习和记忆。(www.chuimin.cn)

每种语言的俚语各有其特点,有自身对应的俚语词典,可根据对应的俚语电子词典完成俚语的自动抽取。如英语俚语短小精炼,可分为单字俚语、词组俚语和单句俚语三种。《牛津现代英语俚语词典》取材于《牛津英语词典》,收集了现当代全球英语使用国家的俚语单词和词组5000余条,内容生动、释义明确,对于每一词条,词典都列出了完整的信息,包括定义、出处及首次出版日期,并配以经典的实例,让读者感受其用法的妙处。