一般来说,中文分词在具体的算法实现上分为三种:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。在中文搜索引擎中,目前基本上是这三种算法混合使用。2)基于统计的分词方法基于统计的分词方法也叫最大概率分词方法。作为中文分词基础的词库,新词补充和老词删除就是非常重要的工作。比如“测试”在“每台计算机在出厂前都要经过严格的测试”这句话中是典型的动词,而在“软件测试领域”中是一个名词。......
2023-07-02
本研究采用搜狐研发中心搜狗实验室的互联网语料链接关系库。该关系库提供了一个大规模互联网链接关系对应表,用于验证各种链接关系分析算法的有效性与可行性。语料关系库中的数据分为10大类:C000007汽车、C000008财经、C000010IT、C000013健康、C000014体育、C000016旅游、C000020教育、C000022招聘、C000023文化、C000024军事。语料关系库可供下载的共有3个版本:Mini版,精简版,完整版。本文使用前2个版本进行实验。语料库的组织方式如下:为10个大类各建立1个文件夹,在每个文件夹中,每1份语料自成1个.txt文件。
实验过程如下:
(1)将所有文件夹下的.txt文件随机连接成一个大的完整文件,同时保留.txt文件的所属类别(本实验保留了类别的最后2位:07,08,…)。
(2)采用中国科学院计算技术研究所数字化室&软件室发布的中文自然语言处理开放平台汉语词法分析系统ICTCLAS。利用ICTCLAS_Win,将(1)中的文件进行一级标注的词语切分。
(3)统计标注好的切分词语的词频。
(4)按照权重(词频)的大小整理切分词语,并保留权重超过一定限定值(阈值)的特征项。(本实验保留了词频大于100的词语作为特征项)同时,根据汉语的特点,在实验中设计了2种情况,以分析比较词性对于聚类效果的影响:
①所有类型的词语都参与聚类;
②只保留被标注为名词的词语。
(5)根据(4)中确定的切分词语构造空间向量的基向量,同时确定空间向量的维数等参数。
(6)将语料库中的每一份语料文件(.txt文件)都表示为一个空间向量。在实验过程中,采用了如下2种表示方法:
①传统的空间向量表示方法:(T1,W1,T2,W2,…,Tn,Wn);
②稀疏的空间向量表示方法:(D1,W1,D2,W2,…,Dp,Wp,n)。
(7)聚类:聚类过程是实验的重点,也是目标所在。
①在开始聚类前,首先对(6)中已经表示好的文本空间向量做归一化处理。向量归一化在模式识别中是很重要的一环,其目的是把事件的统计分布概率统一归纳在0-1灰色聚类的隶属性上,这样,聚类过程对于每一个空间向量的敏感度都是一样的。
传统空间向量:
其中:
稀疏空间向量:
其中:
②在实验中,采用欧几里得距离来表示任意2个文本向量之间的距离。
传统空间向量:令X=(T1,x1,T2,x2,…,Tn,xn),Y=(T1,y1,T2,y2,…,Tn,yn),则d1(X,Y)=;则d1(X,Y)=;
稀疏空间向量:计算方法与传统空间向量类似,计算相同词条之间距离平方和的算术平方根。
③LP算法要求预先确定阈值。实验中,采取的阈值策略:制定初始阈值(即针对单个成员簇的阈值,此阈值根据实验效果多次调整),当2个簇合并为1个簇时,新簇的阈值由合并算法根据被合并簇的聚类特征求出。
2个簇进行合并,其特征向量分别为X=(T1,x1,T2,x2,…,Tn,Xn),Y=(T1,y1,T2,y2,…,Tn,yn),则组成的新簇的特征向量为
合并定理:假定对2个簇进行合并,合并后的簇的阈值表示为
d′=max(dist(Z,X+dx),dist(Z,Y+dy))
其中,dist指2个特征向量之间的距离。
④数据分析
实验中对于本文提到的3种聚类方式都有涉及,对于它们的优劣在实验层面上做了研究比对。
A:所有类型的词语都用于构建空间向量;
B:只采用名词构建空间向量;
C:采用传统的空间向量表示方法;
D:采用稀疏的空间向量表示方法。
Mini版(SogouC.mini.20061102):共100篇文档,每个类别10篇。
精简版(SogouC.reduced.20061102):共10 020篇文档,每个类别1 002篇。
表2-3是实验结果。其中,t(time)表示聚类消耗时间,单位为ms;a(accuracy)表示聚类准确度。聚类消耗的时间依赖于执行的具体状况,因而有一定的差异。表中所取的数据是排除突变数据(即坏数据)之后,多次实验结果的平均值。
表2-3 聚类实验效果
对实验结果进行分析,可以总结出以下5点:
(1)对于精简版的聚类,3种方法的效果都优于Mini版。这是因为,精简版的基础数据量较大,个别的突变数据对于聚类效果的影响就相对较小。
(2)采用稀疏向量表示法之后,聚类的时间消耗减少了约4/5,表明对于高维向量采用其稀疏表示可以有效地节省内存占用空间,加快聚类处理速度。
(3)相较于层次聚类,LP算法在时间消耗上下降了约30%,因此,对于数据量较大,实时性要求较高的场合,由于有效地减少了消耗时间,LP算法还是显示出了它的优势。
(4)相较于平面划分法,LP算法在聚类的准确性上提高了11%~13%,达到了77%~83%,从而保证了聚类的准确度在可接受的范围之内。
(5)本次实验中,LP算法在聚类准确性上略逊于层次法,笔者认为这主要是因为层次法的主要思想是全局最优,每次聚为一个簇的2个成员之间的相似度都是最大的,而在LP算法中,决定将2个成员归为一类的唯一衡量就是阈值d。阈值选取的好坏对于实验效果的影响非常大。因此,如何选取阈值的初始值以及在聚类过程中如何动态地调整阈值是下一步的主要工作。
图2-27
图2-28
图2-29
图2-30
图2-31
有关虚拟社会网络下集群行为感知与规律研究的文章
一般来说,中文分词在具体的算法实现上分为三种:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。在中文搜索引擎中,目前基本上是这三种算法混合使用。2)基于统计的分词方法基于统计的分词方法也叫最大概率分词方法。作为中文分词基础的词库,新词补充和老词删除就是非常重要的工作。比如“测试”在“每台计算机在出厂前都要经过严格的测试”这句话中是典型的动词,而在“软件测试领域”中是一个名词。......
2023-07-02
一个典型的测试系统可用如图1-2所示的原理框图来描述。传感器承担着将可测量的物理量转变为电信号的作用。在实际应用中,因涉及的领域及被测参量的种类、性质和测试要求不同,对传感器和测试系统的体系结构要求是不同的,相应的测试仪器和装置千差万别,正确地选择和设计测试系统的体系结构是测试成败的关键。从信号的传递过程来看,无论是什么样的测试集成系统,都包含了信号采集、信号转换、信号传输、信号处理等基本环节。......
2023-06-28
测试步骤①标准液的配制:准确称取5 mg牡荆素、牡荆素鼠李糖苷和异牡荆素,转移至100 mL容量瓶中,加入60 mL甲醇,超声5 min,冷却后加入甲醇至刻度,摇匀即可注射。UPLC的条件色谱柱:Acquity UPLCBEH C18,1.7μm,2.1×100 mm流速:0.4 mL/min注射量:1μLUV检测波长:340 nm移动相A:0.1%磷酸水溶液移动相B:130 mL甲醇加70 m L乙醇柱温:45℃梯度:图4-15山楂标准品的色谱图结果计算牡荆素鼠李糖苷、异牡荆素的计算公式同上。......
2023-07-02
包装尖锐器具、针具的容器,需要做针刺穿透的安全性能测试评判。为此达成包装制品(苏州)有限公司与杭州品享科技有限公司两家联手,成功研制了国内第一台针刺穿透测试仪。根据世界卫生组织提供的材料:全球每年约有300万医务人员因针刺锐器伤害而感染各种血源性疾病。但凡涉及、接触尖锐物质的非纸质包装产品测试,可以对针刺穿透仪的局部标准零部件进行更换即可。......
2023-06-27
纳米材料的磁性质主要表现为超顺磁性、高的矫顽力、低的居里温度和高的磁化率[1-3]。当纳米材料尺寸较小,使得各向异性减少到能与热运动相比拟时,磁化方向不再固定于一个易磁化方向而是做无规律的变化,因而出现超顺磁性现象。不同纳米材料出现超顺磁性的临界尺寸不同。由于小尺寸效应和表面效应而导致纳米粒子的本征和内在的磁性变化,使其具有较低的居里温度。......
2023-06-20
已有很多文章对载流子迁移率的重要性进行研究。图7-4所示为TOF实验装置图[8]。图7-4TOF系统2.TOF系统中的实际使用问题薄膜的厚度。TOF方法只适合载流子迁移率在10-7~10-1 cm2/V·sec范围,迁移率太高和太低都不适合。电子迁移率和空穴迁移率。在TOF系统中,数据的重复性包含了测量数据的可重复性及光电器件的可重复性。......
2023-06-20
左旋多巴的等电点是5.7,在低p H 条件下是带正电的,在移动相中加入阴离子就能形成中性的离子对,由此延长在反相柱中的保留时间。②样品液的配制:称取一定量含有约10 mg左旋多巴的样品,转入100 mL容量瓶中,加入60 mL 0.1 mol/L盐酸,超声10 min,冷却后再加入0.1 mol/L盐酸至刻度,摇匀后离心5 min,吸取清液即可注射。......
2023-07-02
小麦、黑麦、大麦等作物中都含有壬二酸。壬二酸具有抗角质化、抑菌等功能,一些化妆品及保健品中含有壬二酸。壬二酸是酸性化合物,降低移动相的p H 可延长保留时间,得到较好的峰型。②样品液的配制:称取一定量碾碎的含有约20 mg壬二酸的样品,转入100 m L容量瓶中,加入10 mL温水,超声5 min,再加入50 mL乙醇,超声10 min,冷却后再加入乙醇至刻度,摇匀,离心5 min,吸取清液即可注射。......
2023-07-02
相关推荐