首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于遗传算法的文档聚类算法的设计与仿真(英文)
引用本文:魏建香,刘怀,苏新宁.基于遗传算法的文档聚类算法的设计与仿真(英文)[J].南京大学学报(自然科学版),2009,45(3).
作者姓名:魏建香  刘怀  苏新宁
作者单位:[1]南京大学信息管理系,南京210093 [2]南京人口管理干部学院信息科学系,南京210042 [3]南京师范大学电气与自动化工程学院,南京210042
基金项目:National Natural Science Foundation of China(10771076)
摘    要:在各种聚类算法中,K—means是一种基于划分的经典算法.但是由于Kmeans方法对于初始中心点的选择非常敏感,有可能导致聚类结果收敛于局部,本文提出了一种基于遗传算法来对类中心点进行全局寻优的文档聚类算法.在传统相似度计算的方法中,文档相似矩阵为绝大部分元素为0的稀疏矩阵,忽略了关键字之间的部分相似性,影响了文档之间的相似度.为此,本文改变了传统相似度计算的方法,通过关键字之问的部分相似度,设计出更加精确的文档相似度计算公式。在遗传算法的设计中,将K个类中心点组成的矩阵作为初始个体,采用浮点数进行编码;适应度函数采用所有类内距离的均方差之和加1的倒数表示,当类内均方差之和越小,则个体的适应度越大,被选择进入下一代的概率也越大.通过选择、交叉和变异等步骤对聚类的中心点进行反复迭代寻优,最终找到最优的类中心点.通过实验仿真,K—means收敛速度快,聚类的平均目标函数大于genetic algorithm(GA)且正确率明显小于GA.本文提出的GA算法的分类正确率能达到98%以上,与传统的K—means方法相比,聚类的准确性更高,说明本文提出的算法是一种行之有效的文档聚类方法.

关 键 词:文档聚类  遗传算法  相似度  类中心

Design and simulation of a document clustering algorithm based on genetic algorithm
Wei Jian-Xiang,Liu Huai,Su Xin-Ning.Design and simulation of a document clustering algorithm based on genetic algorithm[J].Journal of Nanjing University: Nat Sci Ed,2009,45(3).
Authors:Wei Jian-Xiang    Liu Huai  Su Xin-Ning
Institution:1.Department of Information Management;Nanjing University;210096;China;2.Department of Information Science;Nanjing College for Population Programme Management;210042;China;3.School of Electrical and Electronic Engineering;Nanjing Normal University;China
Abstract:Among various document algorithms,K-means is a classical one.However it is a greedy algorithm,which is sensitive to the choice of cluster center and is much easier to result in local optimization.As genetic algorithm(GA) is a global convergence algorithm and the best cluster center can be found easily,a new dynamic document clustering method based on GA is presented in this paper.Reviewing all kinds of traditional document clustering methods,the partial similarity of was not taken into account,so the docume...
Keywords:document clustering  genetic algorithm  similarity  cluster center  
本文献已被 CNKI 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号