基于增量式模糊聚类算法的文本挖掘 |
| |
引用本文: | 耿新青,王正欧.基于增量式模糊聚类算法的文本挖掘[J].南京理工大学学报(自然科学版),2022(5):579-585+593. |
| |
作者姓名: | 耿新青 王正欧 |
| |
作者单位: | 1. 鞍山师范学院数学与信息科学学院;2. 天津大学系统工程研究所 |
| |
基金项目: | 国家自然科学基金(60275020); |
| |
摘 要: | 针对传统模糊聚类算法需要预先确定初始隶属度矩阵的问题,该文提出了基于增量式模糊聚类算法(Incremental fuzzy clustering algorithm, FCLDA)的文本挖掘方法。首先根据文本集中关键词出现次数进行排序,优先选择出现次数多的关键词作为文本集的主题,然后利用隐含狄利克雷分布(Latent Dirichlet allocation, LDA)主题模型构建文档-主题概率分布组成矩阵,将该矩阵作模糊C均值聚类(FCM)算法的隶属度矩阵,并对隶属度矩阵的隶属度值增加一个权值,在FCLDA算法迭代过程中,采用模糊信息熵作为聚类数确定的标准,增加主题词,当模糊信息熵达到最小值时,聚类数确定下来,最后将FCLDA算法应用到网页的文本挖掘中,结果试验表明,相对于FCM算法和K最近邻(K-nearest neighbor)算法,FCLDA算法的运行聚类结果准确率更高,运行速度加快,更适合处理具有模糊性的文本。
|
关 键 词: | 狄利克雷分布主题模型 模糊聚类 聚类数 模糊信息熵 文本聚类 |
|
|