首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文提出了一种新颖的词相似度定义,在词相似度的基础上,还首次给出了词集合相似度的定义.基于相似度,提出了一种自下而上的分层聚类算法,这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,因而提高聚类的使用效果.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.  相似文献   

2.
目的 通过对现有聚类常用算法的研究,给出一种适用于大规模中本数据集聚类的算法DBTC(density-based text clustering)。方法 采用在DBSCAN算法基础上改进提出的DBTC算法,对中本数据集进行聚类。结果 DBTC算法可以发现任意形状的簇,对中本聚类的准确率高达80%以上。结论 经过分析和实验证明DBTC算法比基本的DBSCAN算法更适合于大规模数据集。  相似文献   

3.
一种提高文本聚类算法质量的方法   总被引:1,自引:0,他引:1  
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题.  相似文献   

4.
一种新的最近邻聚类算法   总被引:1,自引:0,他引:1  
在分析现有最近邻聚类算法所存在问题的基础上,提出了一种先利用均值规格化的思想来确定算法的初始半径,然后根据启发式规则修改聚类半径的新的最近邻聚类算法.同时,给出了聚类有效性函数对得到的聚类结果进行合理性判断.  相似文献   

5.
一种新的K-Means蚁群聚类算法   总被引:1,自引:0,他引:1  
针对蚁群聚类算法聚类质量不高的原因,使用K-Means算法改进蚁群聚类规则,提出一种新的K-Means蚁群聚类算法(KM-AntClust),并通过实验验证新算法的聚类效果.实验结果表明,新的算法可以明显提高聚类质量.  相似文献   

6.
聚类布尔和分类数据   总被引:1,自引:0,他引:1  
提出了一种判别布和分类属性相似度的准则,并在此基础上提出了一种新的聚类的算法CAC,该算克服了传统聚类算法不适合聚类布尔和分类属性数据的缺点,实验表明CAC算法比传统的聚类算法有更好的聚类效果。  相似文献   

7.
提出一种新的聚类算法——层次谱聚类算法.该算法在传统二分的SM谱聚类的过程中嵌入了层次聚类算法,目的是为了提高谱聚类的聚类正确率,同时又利用谱聚类纠正了层次聚类过程中所得到的歪斜划分.实验结果表明:提出的层次谱聚类算法的聚类正确率比层次聚类算法、谱聚类算法的聚类正确率都要高,同时又纠正了层次聚类过程中的歪斜划分.  相似文献   

8.
研究了统计语言模型中b igram模型在自动文本分类中的应用,针对传统的向量空间模型在计算文本相似度时假设特征项相互独立的缺点,提出了一种新的利用词对及词序信息来改善文本分类结果的方法.实验结果表明:该方法是可行且有效的.  相似文献   

9.
一种改进的K-means聚类算法   总被引:1,自引:0,他引:1  
传统的K-means聚类算法对初始聚类中心的依赖程度很大,聚类结果会随聚类中心的选择不同波动很大,为了消除这种中心选择不确定性,提出一种改进的K-means聚类算法,从而有效地改善初始聚类中心点选择的随机性,提高聚类结果的稳定性.仿真实验结果表明,改进后的K-means聚类算法优于传统的算法.  相似文献   

10.
将万有引力和牛顿第二运动定律的思想引入到聚类分析中,提出了一种基于引力的聚类算法CABG.该算法可以自动决定目标数据集中的簇的个数,并且能发现任意形状的簇且可以过滤“噪声”数据.实验结果表明CABG可以产生高质量的聚类结果.  相似文献   

11.
一种新的子空间聚类算法   总被引:1,自引:0,他引:1  
通过对数据空间进行网格划分并寻找稀疏区域来发现类的边界,提出了一种基于密度与网格的新的子空间聚类算法.该算法使用投影寻踪的搜索策略来发现存在于子空间内的类,同时运用基于竞争的修剪方式来有效地控制算法的计算复杂性.实验结果表明,所提算法在精度、时间复杂性等方面具有优良性能.  相似文献   

12.
通过对数据空间进行网格划分并寻找稀疏区域来发现类的边界,提出了一种基于密度与网格的新的子空间聚类算法.该算法使用投影寻踪的搜索策略来发现存在于子空间内的类,同时运用基于竞争的修剪方式来有效地控制算法的计算复杂性.实验结果表明,所提算法在精度、时间复杂性等方面具有优良性能.  相似文献   

13.
一种基于视觉原理的新聚类算法   总被引:1,自引:0,他引:1  
将视觉原理和生物物理学中著名的Weber定律结合在一起,提出一个基于视觉原理的新算法,实现了有效而且无参型聚类,并且提出了相应的新代价标准.仿真实验表明对于非线性一不可分的数据集,该新聚类算法有效,获得了传统聚类算法(如FCM)所达不到的效果.  相似文献   

14.
在聚类分析中,模糊k-均值算法是目前应用最为广泛的方法之一,然而该算法对初始化敏感,容易陷入局部极值点,为此,提出一种基于克隆选择的模糊聚类新算法以实现全局优化处理.在新算法中,由于克隆算子能够将进化搜索与随机搜索、全局搜索和局部搜索相结合,因而通过对候选解进行克隆算子操作,能够快速得到全局最优解.用人造数据和IRIS实际数据所做测试结果表明了新算法的有效性.  相似文献   

15.
文档聚类和词聚类都是重要且被充分研究的问题.大多数现有的聚类算法针对文档和词是分别聚类,不是同时的.本文提出文档集作为文档和词间的一个二部图的模型思想,使用这个思想,联合聚类问题可以被看成二部图的分割问题.为了解决图的分割问题,使用一个新的联合谱聚类算法,即使用适度规模的词-文档矩阵的奇异向量产生好的分割结果.谱算法得到一些最佳的性能,表明奇异向量通过连续放松解决图划分的NP难问题.最后通过实验结果验证联合聚类算法在实践中非常有效.  相似文献   

16.
文章提出一种新的用户浏览模式的聚类算法,该算法应用马尔可夫链与模糊逻辑理论,通过对Web会话文件的处理,赋予类标记,实现了根据访问模式对用户的分类,以便个性化推荐和指导不同类别的用户进行学习.  相似文献   

17.
In traditional data clustering, similarity of a cluster of objects is measured by distance between objects. Such measures are not appropriate for categorical data. A new clustering criterion to determine the similarity between points with categorical attributes is presented. Furthermore, a new clustering algorithm for categorical attributes is addressed. A single scan of the dataset yields a good clustering, and more additional passes can be used to improve the quality further.  相似文献   

18.
论述了一种基于中文分词的主观题自动评分优化算法的设计与实现,详细介绍了中文分词技术及实现方法,对单词串匹配度从单词长度、单词词形、单词顺序及影响因子四个方面进行算法设计与分析,最后进行实验测试,测试结果表明采用此优化算法进行的自动评分准确率有显著提升.  相似文献   

19.
针对蚁群聚类算法存在收敛速度慢、易陷入局部最优等缺陷,通过在蚁群聚类算法的每次迭代过程中引入遗传算法,提出一种混合蚁群聚类算法.它利用遗传算法全局快速收敛的特性,提升了蚁群聚类算法的收敛速度,同时,遗传算法中的交叉、变异操作扩大了解空间的搜索,帮助蚁群算法跳出局部最优.仿真试验验证了算法的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号