基于增量式模糊聚类算法的文本挖掘期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于增量式模糊聚类算法的文本挖掘

作者姓名：	耿新青王正欧

作者单位：	1. 鞍山师范学院数学与信息科学学院;2. 天津大学系统工程研究所

基金项目：	国家自然科学基金(60275020)；

摘要：	针对传统模糊聚类算法需要预先确定初始隶属度矩阵的问题，该文提出了基于增量式模糊聚类算法(Incremental fuzzy clustering algorithm, FCLDA)的文本挖掘方法。首先根据文本集中关键词出现次数进行排序，优先选择出现次数多的关键词作为文本集的主题，然后利用隐含狄利克雷分布(Latent Dirichlet allocation, LDA)主题模型构建文档-主题概率分布组成矩阵，将该矩阵作模糊C均值聚类(FCM)算法的隶属度矩阵，并对隶属度矩阵的隶属度值增加一个权值，在FCLDA算法迭代过程中，采用模糊信息熵作为聚类数确定的标准，增加主题词，当模糊信息熵达到最小值时，聚类数确定下来，最后将FCLDA算法应用到网页的文本挖掘中，结果试验表明，相对于FCM算法和K最近邻(K-nearest neighbor)算法，FCLDA算法的运行聚类结果准确率更高，运行速度加快，更适合处理具有模糊性的文本。
关键词：	狄利克雷分布主题模型模糊聚类聚类数模糊信息熵文本聚类