首页 | 本学科首页   官方微博 | 高级检索  
     检索      

面向稀疏数据集的聚类算法
引用本文:赵玉明,舒红平,魏培阳,刘魁.面向稀疏数据集的聚类算法[J].科学技术与工程,2020,20(2):659-663.
作者姓名:赵玉明  舒红平  魏培阳  刘魁
作者单位:成都信息工程大学软件工程学院;成都信息工程大学软件自动生成与智能服务四川省重点实验室,成都610225;成都信息工程大学软件工程学院;成都信息工程大学软件自动生成与智能服务四川省重点实验室,成都610225;成都信息工程大学软件工程学院;成都信息工程大学软件自动生成与智能服务四川省重点实验室,成都610225;成都信息工程大学软件工程学院;成都信息工程大学软件自动生成与智能服务四川省重点实验室,成都610225
基金项目:四川省科技厅科技支撑项目(18ZDYF3256)、四川省教育厅科研资助项目(18ZB0126).
摘    要:在聚类过程中数据可能呈现稀疏性,如果仍用传统的欧式距离作为聚类指标,则聚类的质量和效率将会受到严重的影响。受到信息论中KL(Kullback-Leibler)散度的启发,采用基于KL散度的相似性度量方法,先描述数据的整体分布,进而对数据进行聚类。研究结果表明,最后通过实验验证本算法的有效性。这种方法可以利用簇中元素提供的信息来度量不同簇之间的相互关系,克传统欧式距离的缺点,提升算法准确度。

关 键 词:数据挖掘  聚类  KL(Kullback-Leibler)  散度  欧式距离
收稿时间:2019/2/20 0:00:00
修稿时间:2019/6/10 0:00:00

Clustering Algorithm for Sparse Data Set
Zhao Yuming,Shu Hongping,Wei Peiyang,Liu Kui.Clustering Algorithm for Sparse Data Set[J].Science Technology and Engineering,2020,20(2):659-663.
Authors:Zhao Yuming  Shu Hongping  Wei Peiyang  Liu Kui
Institution:Chengdu University of Information and Technology,,,
Abstract:Abstract] Data may be sparse in clustering process. If the traditional Euclidean distance is still used as clustering index, the quality and efficiency of clustering will be seriously affected. Inspired by KL divergence in information theory, similarity measurement method based on KL divergence is used in this paper to describe the overall dis-tribution of data, and then cluster the data. The information provided by the elements can be used in the cluster to measure the relationship between different clusters, overcome the shortcomings of traditional Euclidean distance and improve the accuracy of the algorithm. Finally, an experiment is carried out to verify the effectiveness of the algorithm.
Keywords:Data  Mining  Clustering  KL Divergence  Euclidean Distance
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《科学技术与工程》浏览原始摘要信息
点击此处可从《科学技术与工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号