采用中国科学院计算技术研究所数字化室&软件室发布的中文自然语言处理开放平台汉语词法分析系统ICTCLAS。按照权重(词频)的大小整理切分词语,并保留权重超过一定限定值(阈值)的特征项。根据中确定的切分词语构造空间向量的基向量,同时确定空间向量的维数等参数。①在开始聚类前,首先对中已经表示好的文本空间向量做归一化处理。......
2023-07-02
一般来说,中文分词在具体的算法实现上分为三种:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。在中文搜索引擎中,目前基本上是这三种算法混合使用。第二种算法实现过于复杂,所以基本上以第一种和第三种为主。
1)基于字符串的匹配方法
这种方法又叫做“机械分词方法”,是最常见的方法。它是按照一定的策略将准备分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
例如:“有意见分歧”的正向切分结果是“有意/见/分歧”,反向切分的结果是“有/意见/分歧”。
2)基于统计的分词方法
基于统计的分词方法也叫最大概率分词方法。其基本思想如下:
•一个待切分的汉字串可能包含多种分词结果;
•将其中概率最大的那个作为该字串的分词结果。
最大概率分词算法描述如下:
(1)对一个待分词的字串S,按照从左到右的顺序取出全部候选词w1,w2,…,wi,…,wn。
(2)到词典中查出每个候选词的概率值P(wi),并记录每个候选词的全部左邻词。
(3)按照P(wi)=P(wi-1)×P(wi)计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻词。
(4)如果当前词wn是字串S的尾词,且累计概率P(wn)最大,则wn就是S的终点词。
(5)从wn开始,按照从右到左的顺序,依次将每个词的最佳左邻词输出,即为S的分词结果。
举个实际例子:
S:有意见分歧。W1:有/意见/分歧 W2:有意/见/分歧
这里S表示待切分句子,要计算概率P(W1/S)和P(W2/S),然后采用概率大的值对应的切分方案。
P(W|S)=P(S|W)×P(W)/P(S)≈P(W)=P(w1,w2,…,wi)≈P(w1)×P(w2)×…×P(wi)
推导中约等于这一步的假设:每个词之间的概率是上下文无关的。
3)新词发现
语言本身是在不停进化和发展的,新的词语层出不穷,一些老词语渐渐被弃用。作为中文分词基础的词库,新词补充和老词删除就是非常重要的工作。
“超级女声”、“超女”、“快乐男声”、“快男”、“神马都是浮云”、“神马”、“囧”、“化学火锅”等新词出现时,搜索引擎需快速捕捉到并将其添加到分词系统中去。
如何判断哪些词是新词,这就全部要依靠算法来实现。
我们知道,词典中没有的但是结合紧密的字或词有可能组成一个新词。判断词的结合紧密度应使用信息熵:
如果X和Y的出现相互独立,那么P(X,Y)的值和P(X)P(Y)的值相等,I(X,Y)为0。如果X和Y密切相关,P(X,Y)将比P(X)P(Y)大很多,I(X,Y)的值也就远大于0。如果X和Y几乎不会相邻出现,而它们各自出现的概率又比较大,那么I(X,Y)将取负值。
4)词性标注
有些单词对应多个词性,所以给词性进行标注是需要研究的问题。比如“测试”在“每台计算机在出厂前都要经过严格的测试”这句话中是典型的动词,而在“软件测试领域”中是一个名词。把这个问题抽象出来就是已知单词序列W1,W2,…,Wn,给每个单词标注上词性C1,C2,…,Cn。
解决此问题的方法是从单词所有可能的词性中选出其最常用的词性作为这个词的词性,也就是概率最大的词性,比如“测试”大部分时候作为一个名词出现,那么可以机械地将其标注成名词,这样标注的准确率会比较低,因为没有考虑到上下文。隐马尔可夫模型(Hidden Markov Model,HMM)同时考虑了词的生成概率和词性之间的转移概率,所以能够提高词性准确率。
有关虚拟社会网络下集群行为感知与规律研究的文章
采用中国科学院计算技术研究所数字化室&软件室发布的中文自然语言处理开放平台汉语词法分析系统ICTCLAS。按照权重(词频)的大小整理切分词语,并保留权重超过一定限定值(阈值)的特征项。根据中确定的切分词语构造空间向量的基向量,同时确定空间向量的维数等参数。①在开始聚类前,首先对中已经表示好的文本空间向量做归一化处理。......
2023-07-02
不完全退火是将工件部分奥氏体化后缓慢冷却的退火,包括相变区退火、亚温退火和临界区退火等。不完全退火的目的与完全退火相似,都是通过相变重结晶来细化晶粒、改善组织、去除应力、降低硬度以及改善切削性能。不完全退火由于重结晶不完全而导致细化晶粒的程度较差,但能够缩短工艺周期,降低费用,可用于晶粒未粗化的锻轧件等。......
2023-06-24
量子遗传算法是一种将遗传算法和量子计算相结合的概率优化方法,两者相互作用。量子遗传算法是一种将量子比特的概率幅用于染色体编码,用量子门的调整操作来实现染色体更新,以完成进化搜索的方法。量子遗传算法的流程如下:初始化种群Q,随机生成n个用量子比特编码的染色体。......
2023-06-29
DBSCAN通过检查数据集中每点的Eps邻域来搜索簇,如果点p的Eps邻域包含的点多于minPts个,则创建一个以p为核心对象的簇。DBSCAN迭代地聚集从这些核心对象直接密度可达的对象,这个过程可能涉及一些密度可达簇的合并。当没有新的点添加到任何簇时,该过程结束。算法9.3DBSCAN算法输入:数据集D;给定点在邻域内成为核心对象的最小邻域点数:minPts;邻域半径:Eps;输出:簇集合。标记所有对象为unvisited。重复步骤~,直至没有标记为unvisited的对象。......
2023-06-21
1)BA网络算法初始设定m0个孤立节点。此算法来自于对分子网络中蛋白质组织结构的分析。研究发现,对于交互和规律的网络来说,高度连接的蛋白质连接被系统的抑制,然而在那些处于高度连接和稀少连接之间的蛋白质结构却没有被抑制。表3-1算法1表3-2算法23)中心分析中心性分析用来检测网络中的关键点以及对网络元素进行排序。......
2023-07-02
模拟退火算法是由N Metropolis等学者于1953年最早提出的。模拟退火算法从某一给定的初始温度开始,随着迭代的进行,温度参数不断下降,结合算法概率性的突跳能力在问题的可行解空间中随机寻找目标函数的解,并以Metropolis准则判定是否接受新解,如此迭代进行下去,逐步寻找问题的全局最优解。Metropolis接受准则是模拟退火算法的重要核心思想,Metropolis接受准则也是依据固体物质退火过程的特点而提出的。图11-2模拟退火算法流程图③算法运算产生新解。......
2023-06-28
混沌粒子群优化算法的基本思想是采用混沌序列初始化粒子的位置和速度,先对当前粒子群体中的最优粒子进行混沌寻优,然后把混沌寻优的结果随机替换粒子群体中的一个粒子。,z1N),根据式(4-6)得到N个向量z1,z2,…如果粒子适应度优于全局极值gbest,则将gbest设置为新位置。则混沌粒子群优化算法的流程为:初始化,设置最大允许迭代次数或适应误差限,以及CPSO算法的参数惯性权值和学习因子。,PgD)进行混沌优化:将Pgi(i=1,2,…计算其适应值,得到性能最好的可行解pb。......
2023-06-23
在所有可能的项集中,有很多候选都不是频繁的。算法4.2Apriori算法伪代码FPGrowth方法使用一种增强的前缀树对数据D进行索引,以实现快速的支持度计算。FPGrowth将所有的项按照支持度的降序排列。FP树构建完成后,所有的频繁项集就可以从树中挖掘出来。基于频繁树模式的频繁集搜索方法见算法4.3。算法4.3FPGrowth算法伪代码......
2023-06-15
相关推荐