共查询到18条相似文献,搜索用时 62 毫秒
1.
聚类作为一种无监督的学习方法,利用对数据的分析从中发掘有用的信息。聚类质量的高低通常取决于聚类方法所使用的相似性度量方法和实现方式。文章中提出了一种有效的面向高维数值型数据的聚类方法——新的线性相似性度(LM),可以较好地识别开难于区分的数值型数据。通过与三种经典方法比较,实验结果显示该类方法对数值型高维数据有较高的灵敏度。 相似文献
2.
目的 通过对现有聚类常用算法的研究,给出一种适用于大规模中本数据集聚类的算法DBTC(density-based text clustering)。方法 采用在DBSCAN算法基础上改进提出的DBTC算法,对中本数据集进行聚类。结果 DBTC算法可以发现任意形状的簇,对中本聚类的准确率高达80%以上。结论 经过分析和实验证明DBTC算法比基本的DBSCAN算法更适合于大规模数据集。 相似文献
3.
聚类分析是数据挖掘领域中一个基础而活跃的研究课题。由于大多数的聚类方法在处理高维数据时会出现高维失效问题,维简约成为高维聚类中一个非常重要的处理步骤。通过分析对象间相似性度量与原始数据分布间的关系,提出一种基于熵的特征筛选方法。该方法通过构造一个基于对象间相似度的熵度量,对原始特征集中的每个特征进行重要性评估,从而获得重要特征子集。实验结果显示,该方法可以有效剔除高维数据集中的不重要或噪声特征,改善聚类算法的性能和聚类结果的可理解性。 相似文献
4.
聚类分析是数据挖掘与知识发现领域的一个重要研究方向.多数聚类算法中相似性是其核心概念之一,对象之间的相似性会被直接或者间接的计算出来.传统的相似性度量方法多是基于单一的粒度去观察两个被测对象.在人类认知过程中,通常采用多粒度来更合理有效地进行问题求解.本文借鉴人类的这种多粒度认知机理,提出一种新的相似性学习方法,称作全粒度相似性度量方法,基于此发展了一种全粒度聚类算法.而全粒度相似性度量从各个角度观察被测对象,进而会得到两个对象间更加真实的相似度.从UCI数据集中选取5组数据进行实验,最后通过与两种传统的聚类方法比较验证了全粒度聚类算法的合理性与有效性. 相似文献
5.
刘健 《科技情报开发与经济》2008,18(20):132-133
提出了一种基于资源相似性的Web访问序列模式的相似度量方法,并且考虑了用户访问资源的时间因素,经过检验,证明其能够有效真实地反映实际情况。 相似文献
6.
在对我国证券市场交易数据的研究基础上,提出了一种新的面向金融时间序列的相似度量模型。此模型的数学定义清晰,易于计算机实现,能够有效完成形态搜索的自动化。给出了模型的形式化定义和模型的性质,并在实际股票交易数据上进行了相似性搜索实验,实验结果验证了模型的识别能力。 相似文献
7.
8.
采用一种改进后的决策树归纳聚类算法和交互式CLTree(Clustering based on decision Trees)剪枝,对商业数据的某些问题实现了聚类挖掘。对交易数据的实际酸类分新表明,该方法不仅可以处理数值型属性,还可以处理枚举型属性。实验结果表明,该方法在处理很合类型数据时具有良好的挖掘效果。对商业数据聚类分新,可以得到合理的市场分段,预测顾客的购买行为。 相似文献
9.
一种基于概念相似度的文本模糊聚类方法 总被引:4,自引:0,他引:4
文本挖掘是数据挖掘的一个重要研究领域。基于形式概念分析和概念相似度,给出了一种新的文本模糊聚类方法。该方法不仅考虑了关键词之间的语义关系,而且通过非距离计算得到模糊相似矩阵。可根据不同要求,得到不同的聚类结果,具有较好的灵活性。最后通过实例,说明了给出算法的可行性。 相似文献
10.
一种提高文本聚类算法质量的方法 总被引:1,自引:0,他引:1
冯少荣 《同济大学学报(自然科学版)》2008,36(12)
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题. 相似文献
11.
一种基于语义距离的高效文本聚类算法 总被引:6,自引:0,他引:6
摘 要:提出了一种基于语义进行文本聚类的新方法。该方法从语义上具体分析文档,利用文档具体语义计算文档间的相似度,使得文档聚类结果更合理。文本聚类主要采用最近邻聚类算法,并提出第二次聚类算法改进最近邻算法对输入次序敏感的问题。类特征词的选择上根据相似度权重优胜略汰类特征词,使得最后类特征词越来越逼近类的主题。实验结果表明本文所提出的算法在聚类精度和召回率上均优于基于VSM的K-Means聚类算法。 相似文献
12.
针对传统词频-逆文档频率(T F-IDF)算法对具有特定属性的文本分类存在的不足,尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题,提出一种改进的T F-IDF文本聚类算法.采用2015—2019年吉林省科研机构发表论文数据进行对比实验,分别用改进T F-IDF算法和传统T F-IDF算法先统计论文中的关键词词... 相似文献
13.
14.
大数据下的系统发育估计是一个组合优化问题,在有限计算时间内,现有算法很难为大量序列数据的分析提供最优解.基于前人启发式算法,提出了一种系统发育树随机聚类建树方法,可在较短时间内为系统发育过程产生的大规模序列数据提供所有具有进化意义的解及最优解,以揭示发育过程中的序列进化关系.实验结果表明,该随机聚类方法是行之有效的,对生物计算及系统发育相关领域研究具有积极意义. 相似文献
15.
鉴于高维数据的稀疏性和分类数据特点,探讨了专门针对高维分类数据的聚类方法.首先将原始数据集转换成频繁项集,再通过改造频繁模式树以及给出的剪切策略,挖掘出事务的最大频繁项集,并基于最大频繁项集(MFI)的两个属性,将具有相同MFI的对象归于一类,由此提出了基于最大频繁项集的聚类算法.通过对分类数据集的实验,表明该算法具有相当的稳定性、健壮性和有效性. 相似文献
16.
为了解决短文本因特征关键词稀疏而导致文本向量概念表达不够准确的问题,本文提出概念属性扩展特征关键词短文本聚类算法——STCBCFE(Short Text Clustering Based on Concept Feature Ex-pansion)。该算法通过HowNet的概念属性扩展特征关键词,以此增加文本语义特征和反映文本主题的特征关键词数量,进而提高短文本相似性;将其应用于短文本聚类,能够提高短文本的聚类效果。实验结果表明,该算法在短文本聚类的查准率和查全率上都得到了较大的提高。 相似文献
17.
提出了一种自适应于不同题材文本自动确定其包含的潜在主题数K的方法.考虑到大多数文本的潜在主题分布符合段落密度特性,提出以段落为中心的研究策略,通过采用基于K均值的聚类算法联同自定义判别函数的聚类分析方法,实现了段落自适应聚类下的文本潜在主题的自动发现.实验结果表明,该方法在一定程度上能有效处理普遍存在的文风自由且主题表达灵活多样的各式文本. 相似文献
18.
针对聚类算法在图像分割上存在分割效果和时间效率上的不足,基于网格聚类算法ShrinClus,提出一种新的图像分割方法,该方法通过把图像的RGB空间分割成网格,将所有像素点分配到原子网格当中,然后对非空原子网格集合进行收缩聚类,通过查找低密度的边缘网格来确定簇的边界,最终将原子网格的分类结果映射至像素点.该方法能有效地分割在RGB空间中存在部分重叠的图像,算法具有接近线性的时间复杂度.最后通过实验验证了新方法的有效性. 相似文献