期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

谢坤武《湖北民族学院学报(自然科学版)》2009,27(4)

随着互联网中信息的日益增长,通过文本挖掘,快速、准确地检索信息和分类信息成为人们日益迫切的要求,具有广泛的应用前景和实用价值.依据信息论的思想,从文档信息量变化的角度,对文本数据从概率角度来研究文本数据的聚类分析,研究信息量在层次聚类过程中所呈现的规律性,进而提出一种基于信息量模型的聚类分析算法. 相似文献

2.

半监督平面聚类算法设计

业巧林张福全杨红鑫杨绪兵《南京大学学报(自然科学版)》2020,(1):9-18

采用以平面为原型来拟合样本的思想设计学习机,已在机器学习和数据挖掘等领域引起广泛关注,然而,如何利用少量标记样本,兼顾平面原型特点实现聚类,鲜见报道.以kPC(k-Plane Clustering)为切入点,在有标样本极端少的情况下,设计了半监督型平面聚类算法semi-kPC.考虑到L1范数较L2范数更为鲁棒的事实,在... 相似文献

3.

基于DBSCAN聚类算法的Web文本挖掘

傅华忠茅剑《科技信息》2007,(1)

Web文本聚类是文本挖掘的重要组成部分。该文章分析了Web文本挖掘的方法,通过比较现有的几种聚类算法之后,着重研究了一个基于DBSCAN的聚类算法．以及它在文本挖掘中的具体实现过程。相似文献

4.

基于增量式模糊聚类算法的文本挖掘

耿新青王正欧《南京理工大学学报(自然科学版)》2022,(5):579-585+593

针对传统模糊聚类算法需要预先确定初始隶属度矩阵的问题,该文提出了基于增量式模糊聚类算法(Incremental fuzzy clustering algorithm, FCLDA)的文本挖掘方法。首先根据文本集中关键词出现次数进行排序,优先选择出现次数多的关键词作为文本集的主题,然后利用隐含狄利克雷分布(Latent Dirichlet allocation, LDA)主题模型构建文档-主题概率分布组成矩阵,将该矩阵作模糊C均值聚类(FCM)算法的隶属度矩阵,并对隶属度矩阵的隶属度值增加一个权值,在FCLDA算法迭代过程中,采用模糊信息熵作为聚类数确定的标准,增加主题词,当模糊信息熵达到最小值时,聚类数确定下来,最后将FCLDA算法应用到网页的文本挖掘中,结果试验表明,相对于FCM算法和K最近邻(K-nearest neighbor)算法,FCLDA算法的运行聚类结果准确率更高,运行速度加快,更适合处理具有模糊性的文本。相似文献

5.

基于DBSCAN聚类算法的Web文本挖掘

傅华忠茅剑《科技信息》2007,(1):55-56

近年来,高等学校为适应快速发展和激烈竞争的需要,投入大量资金购买教学、科研设备,作为改善教学、科研、实验、实习教学的条件,和提高教学、科研、实验、实习教学质量的手段,而对于设备投资和管理效益却往往予以忽视。对此,本文从投资、管理、效益三个层面进行分析,从制度管理、动态管理、技术管理三个方面进行论述,从新设备、在用设备、闲置设备三个角度出发,对高校设备管理中如何优化投资设备的增量资产、发挥在用设备的最大效益、挖掘闲置设备的利用价值等进行了一些探讨。相似文献

6.

改进的FCM半监督聚类算法

郭新辰樊秀玲郗仙田韩啸《吉林大学学报(理学版)》2014,52(6):1293-1296

通过将类间分离度函数引入到模糊C-均值聚类算法中,结合半监督的思想,建立基于信息熵的半监督模糊C-均值聚类模型,并对该模型的求解过程进行推导,提出一种新的算法.为了验证算法的有效性,将该算法在UCI数据集上进行实验,实验结果表明,该算法比仅引入信息熵的模糊C-均值聚类方法聚类性能更好. 相似文献

7.

ISODATA动态聚类算法在文本挖掘中的应用

李湘云《长春工程学院学报(自然科学版)》2007,8(2):56-58

为了对复杂文本挖掘进行聚类分析,提出了一种基于动态ISODATA的聚类算法,详细介绍了此算法的基本思想和具体的算法步骤,并最终给出了试验结果。相似文献

8.

基于半监督的K-means聚类改进算法

李小展《东莞理工学院学报》2011,18(1):29-32

针对原始K-means算法的一系列问题,提出一种基于半监督的K-means聚类改进算法,能够自动进行聚类,找出最优K值,并且最大限度地找出孤立点.首先根据样本集自身的特点,按照"类内尽可能相似"原则一步一步形成数据集,然后对数据集进行"去噪"与合并相似簇,最后,利用少量的标记信息指导和修正聚类结果.在UCI的多个数据集... 相似文献

9.

一种半监督模糊聚类算法的研究

下载免费PDF全文

王秋平孙亮关济实庄园《科学技术与工程》2014,14(1)

为了提高对未知样本的使用率,充分发挥出半监督聚类算法的优势,ISFCA算法将约束项引入到竞争聚类算法(CA算法)的目标函数中。但在ISFCA算法的隶属度函数中,存在迭代的非必要信息,增加了算法的复杂度。改进了ISFCA算法的隶属度函数,提取出迭代的必要项uCA″rs和非必要项uCA′rs,从而简化隶属度迭代计算过程,使样本的聚类更加合理。实验结果表明,优化后的ISFCA算法对阀门的故障诊断是行之有效的。相似文献

10.

基于半监督判别最大熵模糊聚类算法

《内蒙古师范大学学报(自然科学版)》2017,(5)

为了解决大量高维数据分类的问题,给出一种基于半监督判别最大熵模糊的聚类算法.该算法不仅继承了已有FLDA-MEFCA算法的降维优势,而且可以充分利用监督信息来提高聚类性能.实验证明该算法的总体性能优于最大熵模糊聚类算法、FLDA-MEFCA和经典FCM类算法. 相似文献

11.

基于投影聚类算法的Web文本挖掘证券投资系统

袁赟张英杰《邵阳学院学报(自然科学版)》2009,6(4):61-65

随着信息爆炸时代的到来,如何有效的从网络上获取有价值的信息成为当前研究的热点．Web文本挖掘技术就是解决上述问题的一种方法,它从大量半结构化、异构的Web文档集中发现潜在的、有价值的知识．本文着力于研究Web文本挖掘过程中的重要技术,并通过分析当前研究热点和各种算法,提出一种改进的投影聚类算法,实验证明其正确率比k-均值算法高．最后,本文设计了基于Web文本挖掘的证券投资系统,并将改进的聚类算法应用其中．相似文献

12.

基于聚类分析策略的Web文本挖掘方法

刘彦保王文发王文东《延安大学学报(自然科学版)》2007,26(4):22-25,29

在分析Web文本挖掘过程、关键技术的基础上,针对训练文本集中往往存在多个主题类别的问题,提出一种基于聚类分析策略的Web文本挖掘方法。其基本思路是对训练文档集进行聚类处理,然后对同主题文档进行共性分析,并经过特征权值调整和特征约减,从而获得表示用户不同主题感兴趣概念向量。相似文献

13.

关于文本挖掘中文本分类与文本聚类的研究

王珍珍《科技信息》2007,(6):55-55

本文首先介绍文本挖掘的定义及一般处理过程,重点探讨了文本分类与分类聚类等文本挖掘的关健技术。相似文献

14.

Web文本挖掘研究 总被引：4，自引：0，他引：4

易高翔程耕国《武汉科技大学学报(自然科学版)》2005,28(1):72-74

介绍Web文本的概念、一般过程和挖掘的关键技术，为智能化Web奠定一定基础。相似文献

15.

基于不完整信息的半监督聚类算法 总被引：1，自引：0，他引：1

高云天王学辉郭涛《北华大学学报(自然科学版)》2009,10(5):457-463

聚类是数据挖掘中最重要的研究内容之一,通常用来对数据做统计和分析.重点研究半监督聚类算法,即在有一部分用户标注的先验信息的条件下,改进现有的聚类算法,以利用少量的用户标注信息,得到更好的数据聚类效果. 相似文献

16.

基于半监督聚类的真核启动子识别

赵宪佳《青岛大学学报(自然科学版)》2010,23(3):42-46

首先将待测试的DNA序列片段利用词项-序列矩阵进行表示,然后通过奇异值分解进行降维,最后采用全局一致性和局部一致性兼顾的半监督聚类算法对长的DNA序列片段进行测试,并与现有的几种启动子识别算法的结果进行对比。相似文献

17.

分级与密度相结合的Web文本聚类算法

林国平《太原师范学院学报(自然科学版)》2008,7(3):45-48

考虑到实验数据的大规模及样本数据形状的复杂性等特点,提出一种基于分级聚类与DBSCAN聚类相结合的HL-DBSCAN聚类算法,避免了DBSCAN的聚类算法较大的时间复杂度,适用性更广,更能体现一个聚簇的规律,提高分类精度.通过实验与结果分析,取得较好的聚类结果,证明了该算法在文本聚类处理中的可行性. 相似文献

18.

基于Web挖掘的路径划分模糊聚类算法的研究

杨厚群杜文才《海南大学学报(自然科学版)》2009,27(2):164-168

采用路径划分聚类算法,对Web用户访问路径进行划分,然后根据其相似度进行聚类,依据分类系数和平均模糊熵来判定簇个数的最优解,得到较好的聚类效果,为最终挖掘出用户的访问模式奠定了良好的基础．实验发现簇中心偏移次数明显减少,中心长度有所提高,证明算法具有较好的效率．相似文献

19.

Incremental Web Usage Mining Based on Active Ant Colony Clustering

SHEN Jie LIN Ying CHEN Zhimin 《武汉大学学报:自然科学英文版》2006,11(5):1081-1085

To alleviate the scalability problem caused by the increasing Web using and changing users＇ interests, this paper presents a novel Web Usage Mining algorithm-Incremental Web Usage Mining algorithm based on Active Ant Colony Clustering. Firstly, an active movement strategy about direction selection and speed, different with the positive strategy employed by other Ant Colony Clustering algorithms, is proposed to construct an Active Ant Colony Clustering algorithm, which avoid the idle and ＂flying over the plane＂ moving phenomenon, effectively improve the quality and speed of clustering on large dataset. Then a mechanism of decomposing clusters based on above methods is introduced to form new clusters when users＇ interests change. Empirical studies on a real Web dataset show the active ant colony clustering algorithm has better performance than the previous algorithms, and the incremental approach based on the proposed mechanism can efficiently implement incremental Web usage mining. 相似文献

20.

一种基于半监督降维的聚类算法

朱凤梅张道强《广西师范大学学报(自然科学版)》2008,26(3)

半监督聚类通过利用少量有标号样本或成对约束等监督信息来提高聚类性能.在此提出一种新颖的基于半监督降维的聚类算法,首先用半监督降维方法对原始数据进行降维,然后在降维后的空间中进行半监督聚类.由于在降维和聚类两个阶段中都利用了监督信息,从而使得算法的聚类性能得到进一步提升.在UCI标准数据集、yale人脸库以及文本数据集上的实验结果验证了该算法的有效性. 相似文献