中文分词测试优化方案

2023-07-02 理论教育版权反馈

【摘要】：采用中国科学院计算技术研究所数字化室＆软件室发布的中文自然语言处理开放平台汉语词法分析系统ICTCLAS。按照权重（词频）的大小整理切分词语，并保留权重超过一定限定值（阈值）的特征项。根据中确定的切分词语构造空间向量的基向量，同时确定空间向量的维数等参数。①在开始聚类前，首先对中已经表示好的文本空间向量做归一化处理。

本研究采用搜狐研发中心搜狗实验室的互联网语料链接关系库。该关系库提供了一个大规模互联网链接关系对应表，用于验证各种链接关系分析算法的有效性与可行性。语料关系库中的数据分为10大类：C000007汽车、C000008财经、C000010IT、C000013健康、C000014体育、C000016旅游、C000020教育、C000022招聘、C000023文化、C000024军事。语料关系库可供下载的共有3个版本：Mini版，精简版，完整版。本文使用前2个版本进行实验。语料库的组织方式如下：为10个大类各建立1个文件夹，在每个文件夹中，每1份语料自成1个.txt文件。

实验过程如下：

（1）将所有文件夹下的.txt文件随机连接成一个大的完整文件，同时保留.txt文件的所属类别（本实验保留了类别的最后2位：07，08，…）。

（2）采用中国科学院计算技术研究所数字化室＆软件室发布的中文自然语言处理开放平台汉语词法分析系统ICTCLAS。利用ICTCLAS_Win，将（1）中的文件进行一级标注的词语切分。

（3）统计标注好的切分词语的词频。

（4）按照权重（词频）的大小整理切分词语，并保留权重超过一定限定值（阈值）的特征项。（本实验保留了词频大于100的词语作为特征项）同时，根据汉语的特点，在实验中设计了2种情况，以分析比较词性对于聚类效果的影响：

①所有类型的词语都参与聚类；

②只保留被标注为名词的词语。

（5）根据（4）中确定的切分词语构造空间向量的基向量，同时确定空间向量的维数等参数。

（6）将语料库中的每一份语料文件（.txt文件）都表示为一个空间向量。在实验过程中，采用了如下2种表示方法：

①传统的空间向量表示方法：（T1，W1，T2，W2，…，Tn，Wn）；

②稀疏的空间向量表示方法：（D1，W1，D2，W2，…，Dp，Wp，n）。

（7）聚类：聚类过程是实验的重点，也是目标所在。

①在开始聚类前，首先对（6）中已经表示好的文本空间向量做归一化处理。向量归一化在模式识别中是很重要的一环，其目的是把事件的统计分布概率统一归纳在0-1灰色聚类的隶属性上，这样，聚类过程对于每一个空间向量的敏感度都是一样的。

传统空间向量： pagenumber_ebook=51,pagenumber_book=42

其中：　

稀疏空间向量： pagenumber_ebook=51,pagenumber_book=42

其中：　

②在实验中，采用欧几里得距离来表示任意2个文本向量之间的距离。

传统空间向量：令X＝（T1，x1，T2，x2，…，Tn，xn），Y＝（T1，y1，T2，y2，…，Tn，yn），则d1（X，Y）＝ pagenumber_ebook=51,pagenumber_book=42 ；则d1（X，Y）＝；

稀疏空间向量：计算方法与传统空间向量类似，计算相同词条之间距离平方和的算术平方根。

③LP算法要求预先确定阈值。实验中，采取的阈值策略：制定初始阈值（即针对单个成员簇的阈值，此阈值根据实验效果多次调整），当2个簇合并为1个簇时，新簇的阈值由合并算法根据被合并簇的聚类特征求出。

2个簇进行合并，其特征向量分别为X＝（T1，x1，T2，x2，…，Tn，Xn），Y＝（T1，y1，T2，y2，…，Tn，yn），则组成的新簇的特征向量为

pagenumber_ebook=52,pagenumber_book=43

合并定理：假定对2个簇进行合并，合并后的簇的阈值表示为

d′＝max(dist(Z，X＋dx)，dist(Z，Y＋dy))

其中，dist指2个特征向量之间的距离。

④数据分析

实验中对于本文提到的3种聚类方式都有涉及，对于它们的优劣在实验层面上做了研究比对。

A：所有类型的词语都用于构建空间向量；

B：只采用名词构建空间向量；

C：采用传统的空间向量表示方法；

D：采用稀疏的空间向量表示方法。

Mini版（SogouC.mini.20061102）：共100篇文档，每个类别10篇。

精简版（SogouC.reduced.20061102）：共10 020篇文档，每个类别1 002篇。

表2-3是实验结果。其中，t（time）表示聚类消耗时间，单位为ms；a（accuracy）表示聚类准确度。聚类消耗的时间依赖于执行的具体状况，因而有一定的差异。表中所取的数据是排除突变数据（即坏数据）之后，多次实验结果的平均值。

表2-3　聚类实验效果

pagenumber_ebook=52,pagenumber_book=43

对实验结果进行分析，可以总结出以下5点：

（1）对于精简版的聚类，3种方法的效果都优于Mini版。这是因为，精简版的基础数据量较大，个别的突变数据对于聚类效果的影响就相对较小。

（2）采用稀疏向量表示法之后，聚类的时间消耗减少了约4/5，表明对于高维向量采用其稀疏表示可以有效地节省内存占用空间，加快聚类处理速度。

（3）相较于层次聚类，LP算法在时间消耗上下降了约30%，因此，对于数据量较大，实时性要求较高的场合，由于有效地减少了消耗时间，LP算法还是显示出了它的优势。

（4）相较于平面划分法，LP算法在聚类的准确性上提高了11%～13%，达到了77%～83%，从而保证了聚类的准确度在可接受的范围之内。

（5）本次实验中，LP算法在聚类准确性上略逊于层次法，笔者认为这主要是因为层次法的主要思想是全局最优，每次聚为一个簇的2个成员之间的相似度都是最大的，而在LP算法中，决定将2个成员归为一类的唯一衡量就是阈值d。阈值选取的好坏对于实验效果的影响非常大。因此，如何选取阈值的初始值以及在聚类过程中如何动态地调整阈值是下一步的主要工作。

pagenumber_ebook=53,pagenumber_book=44