共查询到20条相似文献,搜索用时 62 毫秒
1.
谢坤武 《湖北民族学院学报(自然科学版)》2009,27(4)
随着互联网中信息的日益增长,通过文本挖掘,快速、准确地检索信息和分类信息成为人们日益迫切的要求,具有广泛的应用前景和实用价值.依据信息论的思想,从文档信息量变化的角度,对文本数据从概率角度来研究文本数据的聚类分析,研究信息量在层次聚类过程中所呈现的规律性,进而提出一种基于信息量模型的聚类分析算法. 相似文献
2.
《南京大学学报(自然科学版)》2020,(1)
采用以平面为原型来拟合样本的思想设计学习机,已在机器学习和数据挖掘等领域引起广泛关注,然而,如何利用少量标记样本,兼顾平面原型特点实现聚类,鲜见报道.以kPC(k-Plane Clustering)为切入点,在有标样本极端少的情况下,设计了半监督型平面聚类算法semi-kPC.考虑到L1范数较L2范数更为鲁棒的事实,在已有工作L1kPC(L1 norm kPC)的基础上,提出基于L1范数的半监督聚类方法 semi-L1kPC.从每类仅有一个已标样本出发,在人工数据集和UCI数据集上的实验表明:(1)在XOR(Exclusive OR)问题上,平面型的聚类方法的聚类准确率均显著高于k-means算法,因为k-means无法利用平面特性;(2)在引入少量监督信息后,半监督型聚类方法 semi-kPC和semi-L1kPC比其他聚类方法的聚类准确率更高;(3)采用L1范数的semi-L1kPC比semi-kPC的鲁棒性更好. 相似文献
3.
近年来,高等学校为适应快速发展和激烈竞争的需要,投入大量资金购买教学、科研设备,作为改善教学、科研、实验、实习教学的条件,和提高教学、科研、实验、实习教学质量的手段,而对于设备投资和管理效益却往往予以忽视。对此,本文从投资、管理、效益三个层面进行分析,从制度管理、动态管理、技术管理三个方面进行论述,从新设备、在用设备、闲置设备三个角度出发,对高校设备管理中如何优化投资设备的增量资产、发挥在用设备的最大效益、挖掘闲置设备的利用价值等进行了一些探讨。 相似文献
4.
Web文本聚类是文本挖掘的重要组成部分。该文章分析了Web文本挖掘的方法,通过比较现有的几种聚类算法之后,着重研究了一个基于DBSCAN的聚类算法.以及它在文本挖掘中的具体实现过程。 相似文献
5.
针对传统模糊聚类算法需要预先确定初始隶属度矩阵的问题,该文提出了基于增量式模糊聚类算法(Incremental fuzzy clustering algorithm, FCLDA)的文本挖掘方法。首先根据文本集中关键词出现次数进行排序,优先选择出现次数多的关键词作为文本集的主题,然后利用隐含狄利克雷分布(Latent Dirichlet allocation, LDA)主题模型构建文档-主题概率分布组成矩阵,将该矩阵作模糊C均值聚类(FCM)算法的隶属度矩阵,并对隶属度矩阵的隶属度值增加一个权值,在FCLDA算法迭代过程中,采用模糊信息熵作为聚类数确定的标准,增加主题词,当模糊信息熵达到最小值时,聚类数确定下来,最后将FCLDA算法应用到网页的文本挖掘中,结果试验表明,相对于FCM算法和K最近邻(K-nearest neighbor)算法,FCLDA算法的运行聚类结果准确率更高,运行速度加快,更适合处理具有模糊性的文本。 相似文献
6.
通过将类间分离度函数引入到模糊C-均值聚类算法中,结合半监督的思想,建立基于信息熵的半监督模糊C-均值聚类模型,并对该模型的求解过程进行推导,提出一种新的算法.为了验证算法的有效性,将该算法在UCI数据集上进行实验,实验结果表明,该算法比仅引入信息熵的模糊C-均值聚类方法聚类性能更好. 相似文献
7.
李湘云 《长春工程学院学报(自然科学版)》2007,8(2):56-58
为了对复杂文本挖掘进行聚类分析,提出了一种基于动态ISODATA的聚类算法,详细介绍了此算法的基本思想和具体的算法步骤,并最终给出了试验结果。 相似文献
8.
李小展 《东莞理工学院学报》2011,18(1):29-32
针对原始K-means算法的一系列问题,提出一种基于半监督的K-means聚类改进算法,能够自动进行聚类,找出最优K值,并且最大限度地找出孤立点.首先根据样本集自身的特点,按照"类内尽可能相似"原则一步一步形成数据集,然后对数据集进行"去噪"与合并相似簇,最后,利用少量的标记信息指导和修正聚类结果.在UCI的多个数据集... 相似文献
9.
《内蒙古师范大学学报(自然科学版)》2017,(5)
为了解决大量高维数据分类的问题,给出一种基于半监督判别最大熵模糊的聚类算法.该算法不仅继承了已有FLDA-MEFCA算法的降维优势,而且可以充分利用监督信息来提高聚类性能.实验证明该算法的总体性能优于最大熵模糊聚类算法、FLDA-MEFCA和经典FCM类算法. 相似文献
10.
通过将半监督学习的思想引入到模糊C-均值聚类方法中,提出一种基于半监督的模糊C-均值聚类算法,有效解决了模糊C-均值聚类算法随机选取初始聚类中心导致聚类结果局部收敛的问题,能客观获取最佳聚类数目和初始聚类中心.实验结果表明,与传统模糊C-均值聚类算法相比,基于半监督的模糊C-均值算法在一定程度上减少了迭代次数,降低了对初始聚类中心的依赖性. 相似文献
11.
随着信息爆炸时代的到来,如何有效的从网络上获取有价值的信息成为当前研究的热点.Web文本挖掘技术就是解决上述问题的一种方法,它从大量半结构化、异构的Web文档集中发现潜在的、有价值的知识.本文着力于研究Web文本挖掘过程中的重要技术,并通过分析当前研究热点和各种算法,提出一种改进的投影聚类算法,实验证明其正确率比k-均值算法高.最后,本文设计了基于Web文本挖掘的证券投资系统,并将改进的聚类算法应用其中. 相似文献
12.
在分析Web文本挖掘过程、关键技术的基础上,针对训练文本集中往往存在多个主题类别的问题,提出一种基于聚类分析策略的Web文本挖掘方法。其基本思路是对训练文档集进行聚类处理,然后对同主题文档进行共性分析,并经过特征权值调整和特征约减,从而获得表示用户不同主题感兴趣概念向量。 相似文献
13.
14.
吕佳 《重庆师范大学学报(自然科学版)》2007,24(2):32-35
Web日志挖掘旨在使用数据挖掘技术从Web服务器日志文件中挖掘出有用的规律和模式,以此改进网站结构以及实现Web个性化服务。本文提出基于免疫聚类的Web日志挖掘算法,利用人工免疫系统的基本原理来进行用户聚类分析,从而发现相似客户群体、挖掘潜在客户。免疫聚类通过模拟免疫系统体液免疫应答的基本过程,提取出数据的基本特征,以此概括数据的分布特征,从而实现Web日志数据的无监督自组织聚类。通过在真实数据集上的实验证明了该算法的可行性和有效性。 相似文献
16.
一种基于本体的文本聚类方法 总被引:2,自引:0,他引:2
基于本体的文本聚类方法,在文本表示上引入WordNet,并定义了关键概念集,使用WordNet中的概念节点及概念间的语义关系减少文本特征向量维数,提高聚类效果.聚类过程中,算法使用文本的关键概念集和概念特征向量计算文本相似度,利用文本的关键概念集标注聚簇为聚类结果中的各个簇提供解释.实验结果表明,该方法有效地减少了文本特征向量的维数,提高了文本聚类效果以及聚类结果的可解释性. 相似文献
17.
林国平 《太原师范学院学报(自然科学版)》2008,7(3):45-48
考虑到实验数据的大规模及样本数据形状的复杂性等特点,提出一种基于分级聚类与DBSCAN聚类相结合的HL-DBSCAN聚类算法,避免了DBSCAN的聚类算法较大的时间复杂度,适用性更广,更能体现一个聚簇的规律,提高分类精度.通过实验与结果分析,取得较好的聚类结果,证明了该算法在文本聚类处理中的可行性. 相似文献
18.
基于不完整信息的半监督聚类算法 总被引:1,自引:0,他引:1
聚类是数据挖掘中最重要的研究内容之一,通常用来对数据做统计和分析.重点研究半监督聚类算法,即在有一部分用户标注的先验信息的条件下,改进现有的聚类算法,以利用少量的用户标注信息,得到更好的数据聚类效果. 相似文献
19.
采用路径划分聚类算法,对Web用户访问路径进行划分,然后根据其相似度进行聚类,依据分类系数和平均模糊熵来判定簇个数的最优解,得到较好的聚类效果,为最终挖掘出用户的访问模式奠定了良好的基础.实验发现簇中心偏移次数明显减少,中心长度有所提高,证明算法具有较好的效率. 相似文献
20.
一种基于概念相似度的文本模糊聚类方法 总被引:4,自引:0,他引:4
文本挖掘是数据挖掘的一个重要研究领域。基于形式概念分析和概念相似度,给出了一种新的文本模糊聚类方法。该方法不仅考虑了关键词之间的语义关系,而且通过非距离计算得到模糊相似矩阵。可根据不同要求,得到不同的聚类结果,具有较好的灵活性。最后通过实例,说明了给出算法的可行性。 相似文献