首页 理论教育文本数据挖掘:挖掘文本中的有用信息

文本数据挖掘:挖掘文本中的有用信息

【摘要】:数据清洗这是文本挖掘中关键的一步。因此文本内容无法用目前的数据挖掘技术直接进行处理,需要对文本进行预处理。通常文本型数据都具有相当大的维度空间,将导致在文本挖掘阶段消耗更多的计算机资源与处理时间。通过用户预定义的评估指标体系对文本挖掘所获取的知识进行评价,并根据评价结果抉择是否留用。文本挖掘的结果是面向各种应用的知识模式。通过评估可以改进文本挖掘的知识发现过程。

文本挖掘从数据挖掘发展而来,是Ronen Feldman等人最早提出了文本挖掘的相关概念:从海量文本的数据集合中或语料库中发现隐含的、令人比较感兴趣的、有潜在的价值的规律与信息。国内将文本挖掘定义为:文本挖掘是指从文本数据中获取可理解的、可用的知识,同时运用这些知识更好地组织信息以便将来参考的过程。

文本数据是一种主要的非结构化数据,因为它无一定形态,长度可以任意变化,结构又比较复杂,无法用数据库二维逻辑来表现,因此比较难处理。文本挖掘是指从大量的文本数据中提取出有规律的模式和有趣的知识的过程。文本挖掘是由数据挖掘发展而来,因此两者有交集,也有区别,比如文本挖掘主要处理对象是无固定模式的非结构化数据,而数据挖掘所处理的对象一般以关系型数据库为主。在文本挖掘中,文本预处理过程的质量好坏会直接影响最终的模式的识别与知识的发现,因此预处理过程在文本挖掘中是相当重要的环节。

文本挖掘的主要方法包括对文本型数据进行分类、聚类、观点挖掘、情绪分析、关键词自动提取、话题的发现与聚类、语义分析、文档的自动摘要和实体关系模型等。文本挖掘的流程主要包括文本获取(文本源)、数据清洗(预处理)、文本特征选择(表示和抽取)、构建模型、模型评估、知识。

文本挖掘的流程如图9-3所示。

图9-3 文本挖掘流程图

(1)文本获取

处理对象是以文本形式存储的信息,寻找出其中潜在的知识或规律,这是文本挖掘第一步。与结构化数据不同的是,结构化的数据是可以直接从关系数据库中获取的。文本型数据的获取方式有很多种,比如有些文本型数据如Web页面数据需要对其进行处理(去掉其html标签后,进行分句,再进行分词)将其变为结构化的文本数据;又如有些文本数据是已经经过处理后存储在数据库中的数据。

(2)数据清洗

这是文本挖掘中关键的一步。由于文本获取的数据文件并非一般意义上的关系型数据,因此首先需要将该数据文件转换为机器可识别的关系数据,并且能表现文本内容的结构化形式。与结构型数据不同的是文本型数据一般只有有限的结构,或者直接就是非结构化的数据,而且文本型数据对于计算机处理来说本身就是相当困难的。因此文本内容无法用目前的数据挖掘技术直接进行处理,需要对文本进行预处理。由于文本内容包含了大量的文本信息,需要去除大量的噪声,同时要保留每一个文档的特征,并用一定的特征模型作为文本的表示形式,把文本由非结构化数据转化为结构化的数据。

(3)文本特征选择

文本特征指的是关于文本的元数据,分为两种:描述性特征(文本的名称、日期、大小、类型);语义性特征(文本的作者、机构、标题、内容)。通常文本型数据都具有相当大的维度空间,将导致在文本挖掘阶段消耗更多的计算机资源与处理时间。文本处理阶段主要包括:常用的停用词表的过滤与删除,即使用词表来删除那些很不常用又或者副词之类出现频率很高但是信息价值不高的常用词,并根据词语片段在文本结构中位置的不同给予不同权重(比如段首与段尾的权重可能要比段中的权重要高)以及进行同义词的分析(比如360与奇虎就是同义词),还有一词多义的分析(比如苹果有可能说的是我们平常吃的水果,也有可能是美国产的苹果手机的意思)等。文本模型表示后的数据规模一般非常大,通常都具有很高的维数,特别是采用向量空间模型时,文本向量会达到数百万维度甚至更大。如果对于这种维数文本进行处理通常会耗费大量的时间,因此选择最有代表性的特征词从而将文本的特征集进行压缩,以降低文本的维数是相当必要的。

(4)文本处理

文本数据经过特征化处理后进入挖掘阶段。文本挖掘任务主要包括:文本聚类分析、文本关联分析、文本分类分析、信息检索、链接分析等。由于文本型数据通常都是具有比较复杂、维度比较高而且具有语义与语境的特点,所以用传统的文本挖掘算法来进行知识挖掘,常常得不到好的效果,因此进行文本挖掘时需要根据所要分析语料的特点来改进或使用新的算法来进行挖掘。一般来说主要有两个算法选择的影响因素:一是客户挖掘时的具体需求是什么;二是根据不同文本型数据各自具有的特点进行模型算法的选择。文本挖掘过程的核心是文本挖掘的算法,而文本挖掘算法也是目前的主要研究方向,采用合适的文本挖掘算法能提高挖掘效率,而且也能取得比较好的结果。想要得到好的挖掘结果,必须深入理解各种挖掘算法的前提与要求,并根据所需要训练的文本的特点并结合适当算法进行挖掘。

(5)评估——知识发现和模式提取

这是文本挖掘的最后一个环节。通过用户预定义的评估指标体系对文本挖掘所获取的知识进行评价,并根据评价结果抉择是否留用。文本挖掘的结果是面向各种应用的知识模式。利用已经定义好的评估指标对获取的知识或模式进行评价。如果评价结果符合要求,就保存知识或模式以备用户使用;否则返回到前面的某个环节重新调整和改进,然后再进行新一轮的发现。通过评估可以改进文本挖掘的知识发现过程。