首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 546 毫秒
1.
基于改进ROCK算法的个性化推荐系统研究   总被引:1,自引:1,他引:0  
王荣  王飞戈  吴坤芳 《河南科学》2011,29(11):1346-1349
分析了ROCK算法的优点和缺点,ROCK算法优点是容易聚类Mushroom等分类属性数据集;缺点是这种算法的相似度函式sim是基于领域专家的直觉.改进的ROCK算法采用Jaccard系数计算相似度,根据相似度的值越大表示对象越相似进行聚类,得到聚类结果,从而实现用户的个性化推荐.  相似文献   

2.
王纬  王妍  黄山 《科技咨询导报》2007,(36):175-176
提出基于客户价值的客户分类方法,将加权模糊c均值算法应用于客户分类,并用基于相似系数和检测孤立点的方法排除孤立点对聚类结果的干扰,提高聚类质量。  相似文献   

3.
聚类布尔和分类数据   总被引:1,自引:0,他引:1  
提出了一种判别布和分类属性相似度的准则,并在此基础上提出了一种新的聚类的算法CAC,该算克服了传统聚类算法不适合聚类布尔和分类属性数据的缺点,实验表明CAC算法比传统的聚类算法有更好的聚类效果。  相似文献   

4.
苟和平 《科学技术与工程》2013,13(16):4720-4723
针对KNN算法在分类时的样本相似度计算开销大,在处理不均衡数据集时少数类分类误差大的问题,提出一种在不均衡数据集下基于密度的训练样本裁剪算法。对训练样本的各个样本类进行聚类,删除噪声数据并计算每个样本类的平均相似度和样本平均密度,以此获得样本类裁剪的相似度阈值,然后将样本类内相似度小于类相似度阈值的样本进行合并,减少训练样本总数。实验表明,此样本裁剪算法能够在保持KNN算法分类性能基本稳定的前提下,有效地减少分类计算开销,并能在一定程度上提高少数类的分类性能。  相似文献   

5.
子空间聚类是一种将搜索局部化在相关维上进行的聚类算法,它能有效地克服数据因维度过高引起的在全空间上聚类的困难.针对高维分类型数据,本文提出了一种自底向上的子空间层次聚类算法,该算法在全局范围内建立一个最相似线性表用来记录每个簇类与其最相似的簇类的相似度,在聚类过程中,选取最相似的簇类合并,并通过维护此线性表产生最相似的簇类.此算法在基于信息熵的意义上能够较准确地搜索簇类的子空间.通过Zoo和Soybean两个典型的分类型数据实验发现,相对于其它相关聚类算法,该算法在聚类的准确率和稳定性方面表现出较高的优越性.  相似文献   

6.
K最近邻算法(KNN)在分类时,需要计算待分类样本与训练样本集中每个样本之间的相似度.当训练样本过多时,计算代价大,分类效率降低.因此,提出一种基于DBSCAN聚类的改进算法.利用DBSCAN聚类消除训练样本的噪声数据.同时,对于核心样本集中的样本,根据其样本相似度阈值和密度进行样本裁剪,以缩减与待分类样本计算相似度的训练样本个数.实验表明此算法能够在保持基本分类能力不变的情况下,有效地降低分类计算量.  相似文献   

7.
KNN算法在分类准确率和召回率方面具有较好的性能,但由于样本相似度计算开销大,导致分类效率低.针对此问题,本文提出一种基于密度的训练样本裁剪算法,对训练样本的各个样本类进行聚类,根据密度不同聚集成不同的簇,删除噪声数据并计算每个样本类的相似度阈值,然后将样本类内大于类相似度阈值的样本进行合并,以减少训练样本总数.实验表明,此样本裁剪算法能够在保持KNN算法分类性能基本稳定的前提下,实现各个样本类内高相似度样本的合并,减少分类计算开销.  相似文献   

8.
基于直觉模糊C-均值的客户聚类和识别方法   总被引:1,自引:1,他引:0  
客户聚类和识别是大规模客户化生产中产品/服务快速有效设计的基础.考虑客户需求信息的不确定性,提出了基于直觉模糊C-均值的客户聚类算法.针对传统基于欧式距离的C-均值聚类方法无法计算直觉模糊数组间距离的缺点,采用直觉模糊交叉熵方法处理算法中的距离计算问题.同时,直觉模糊交叉熵还用来计算新客户和各客户类间的偏好相似度,进行客户识别.最后以某工程机械企业服务开发中的客户聚类和识别为例,验证了所提方法的有效性.  相似文献   

9.
分析了输入参数对算法聚类效果的影响,针对传统的蚁群聚类算法中参数设置依赖于经验的指导以及蚂蚁移动随机性大等问题,提出了一种改进的自适应蚁群聚类算法,算法中引入了自适应策略函数,通过设置相似度阈值,动态调整蚂蚁的运动状态,降低蚂蚁移动的随机性.将改进算法应用于客户细分,并将结果与K均值聚类算法进行了比较,实验结果表明:改进后的算法在迭代次数上更少,算法的收敛速度更快,识别客户的正确率更高.  相似文献   

10.
针对文本在聚类或分类时,由于数据高维稀疏导致相似度值低的问题,提出一种基于改进文本相似度计算的聚类方法.首先,利用向量空间模型VSM表示文本,采用余弦函数计算文本之间的相似度;然后,基于网络中节点的相似性传播原理,通过设置阈值找到与各个文本相似度较大的文本集合,进而使用Jaccard系数将两个文本之间相似度计算转化为两个文本集合之间的相似度计算;最后根据得到的文本相似度矩阵,利用谱聚类算法对文本进行聚类.在WebKB上的实验结果表明,与传统的K-means、谱聚类方法相比,该方法提高了聚类的准确度,召回率与F值.  相似文献   

11.
为同时保证基分类器的准确性和差异性, 提出一种基于聚类和AdaBoost的自适应集成算法. 首先利用聚类算法将训练样本分成多个类簇; 然后分别在每个类簇上进行AdaBoost训练并得到一组分类器; 最后按加权投票策略进行分类器的集成. 每个分类器的权重是自适应的, 且为基于测试样本与每个类簇的相似性及分类器对此测试样本的分类置信度计算得到. 实验结果表明, 与AdaBoost,Bagging(bootstrap aggregating)和随机森林等代表性集成算法相比, 该算法可取得更高的分类精度.  相似文献   

12.
为了在激烈的市场竞争中取胜,电信企业意识到必须将客户分类,针对不同的客户研究相应的营销策略,DBSCAN算法能够实现客户分类,但对初始参数E和MinPts的取值非常敏感,不同的取值将产生不同的聚类结果,通过对DBSCAN算法进行改进,实现了更加准确和全面的客户分类。  相似文献   

13.
由于在互联网、电信、生物信息、社会网络分析等领域可获得的链接丰富的数据日益增多,链接挖掘已经成为数据挖掘的研究热点。基于链接分类是链接挖掘的一个重要方向。在此以电信领域用户通话特征数据为对象,研究了基于链接分类技术及其在电信客户流失预测的应用方法,在提取并分析大规模客户呼叫图的极大团、结点膨胀率、结点聚集度等与节点稳定性相关的链接属性及其时变特征的基础上,提出了一种适合海量数据的基于链接的电信客户流失预测算法。实验结果表明,此算法较传统分类算法能提高客户流失预测性能,实现了基于链接分类方法的成功应用。  相似文献   

14.
时间序列的相似性度量是时间序列聚类、分类以及其他相关时间序列分析的基础.传统基于距离的相似性度量方法,忽视了时间序列可能存在的时间上的联系,而将时间序列看作一系列孤立点的集合.对于序列间可能存在的前后联系,基于分数阶微分的遗传特性和记忆特性,提出一种新的时间序列聚类的相似性度量.根据时间序列的分数阶微分计算新序列间的点距离,将其作为聚类算法的输入对时间序列进行聚类.仿真实验结果表明,与基于原始序列矢量距离的聚类结果相比,新的分数阶相似性度量方法表现更好.  相似文献   

15.
一种基于后缀树的中文网页层次聚类方法   总被引:1,自引:3,他引:1  
为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比。聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。  相似文献   

16.
根据港口客户数据特点,运用信息增益方法对其进行了数据预处理,将其表示为树形结构组织方式,得到216棵客户树;引入卷积核,定义了度量客户树之间相似性的卷积树核;随后,将先前提出的核k-凝聚聚类算法推广到基于卷积核的客户树上,并运用Matlab数据处理工具实现对港口客户数据的聚类分析.分析结果表明,卷积核在港口客户细分中得到了良好的应用效果.  相似文献   

17.
In the process of protected protocol recognition,an improved AGglomerative NESting algorithm( IAGNES) with high adaptability is proposed,which is based on the AGglomerative NESting algorithm( AGNES),for the challenging issue of how to obtain single protocol data frames from multiprotocol data frames. It can improve accuracy and efficiency by similarity between bit-stream data frames and clusters,extract clusters in the process of clustering. Every cluster obtained contains similarity evaluation index which is helpful to evaluation. More importantly,IAGNES algorithm can automatically recognize the number of cluster. Experiments on the data set published by Lincoln Laboratory shows that the algorithm can cluster the protocol data frames with high accuracy.  相似文献   

18.
BP神经网络在数据挖掘分类中的应用   总被引:2,自引:0,他引:2  
结合人工神经网络对噪声数据具有高承受能力,且对未经训练的数据具有分类模拟能力的特点,讨论了在数据挖掘领域中利用BP网络进行数据分类的实现过程,描述并分析了BP算法.然后,针对银行业务中客户信用政策给出了实例分析,用该算法建立了一个分类模型,根据存款金额、贷款次数、及时还贷率等数据信息实现对客户信用等级的分类.  相似文献   

19.
基于粗集的模糊聚类方法和结果评估   总被引:3,自引:0,他引:3  
粗集的决策表的属性包括定量属性和定性属性,针对这种情况,根据一种对象的相似性度量方法,使用模糊聚类方法对粗集对象进行模糊聚类,对聚类结果进行了评估(根据这种聚类方法得到的结果和实际的分类结果进行比较).在这种相似性度量方法基础上,证明了粗集的等价关系可以被转化为模糊等价矩阵.基于粗集的聚类步骤如下:首先,一个粗集等价关系都可以转化为一个模糊相似矩阵,其次,转化成一个模糊等价矩阵,最后,进行模糊聚类.对此方法进行了实验,并对实验的结果进行评估.实验结果说明了这种方法的简单高效.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号