首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
CABOSFV_C是一种针对分类属性高维数据的高效聚类算法,该算法采用集合稀疏差异度进行距离计算,并采用稀疏特征向量实现数据压缩。该算法的聚类效果受集合稀疏差异度上限参数的影响,而该参数的选取没有明确的指导。针对该问题提出基于集合稀疏差异度的启发式分类属性数据层次聚类算法( heuristic hierarchical clustering algorithm of categorical data based on sparse feature dissimilarity,HABOS),该方法从聚结型层次聚类思想的角度出发,在聚类数上限参数的约束下,应用新的内部聚类有效性评价指标( clustering validation index based on sparse feature dissimilarity, CVISFD)进行启发式度量,从而实现对聚类层次的自动选取。 UCI基准数据集的实验结果表明,HABOS有效地提高了聚类准确性和稳定性。  相似文献   

2.
为了提高餐饮推荐系统的准确率,提出一种基于集合论和图论的餐饮高维非数值型数据聚类算法.首先将菜品数据进行预处理,找出需要的特征,删除不必要的特征,再将这些特征以集合的形式输入到系统中,使用改进的杰卡德相似系数对集合进行相似度计算,得到以集合表示方式的菜品数据间的相似度,接着将所有的数据转换为无向图,最后利用图形聚类算法...  相似文献   

3.
针对文本在聚类或分类时,由于数据高维稀疏导致相似度值低的问题,提出一种基于改进文本相似度计算的聚类方法.首先,利用向量空间模型VSM表示文本,采用余弦函数计算文本之间的相似度;然后,基于网络中节点的相似性传播原理,通过设置阈值找到与各个文本相似度较大的文本集合,进而使用Jaccard系数将两个文本之间相似度计算转化为两个文本集合之间的相似度计算;最后根据得到的文本相似度矩阵,利用谱聚类算法对文本进行聚类.在WebKB上的实验结果表明,与传统的K-means、谱聚类方法相比,该方法提高了聚类的准确度,召回率与F值.  相似文献   

4.
一种基于相交关系的GML空间聚类算法   总被引:1,自引:0,他引:1  
提出一种基于相交关系的GML空间聚类算法SCIR,该算法以GML数据作为数据源,计算空间对象的相交关系,针对空间对象的相交关系和非空间属性,定义了一种相似度度量方法,利用ROCK算法进行聚类.实验结果表明,算法SCIR能实现GML数据中基于相交关系的空间对象聚类,并具有较高的效率.  相似文献   

5.
将三支聚类思想和聚类集成思想相结合,提出一种基于样本相似度的三支聚类算法.首先,通过随机选择样本部分特征的方法生成一组基聚类成员,以此构造样本相似度,并在此基础上定义划分有效性指标,用以自动计算最优阈值;其次,使用投票法对基聚类成员集成得到初步的聚类结果;最后,利用最优阈值对聚类结果划分,得到每个类的核心域集合和边界域集合.UCI(University of California Irvine)数据集上的实验结果证明了所提出方法的有效性.  相似文献   

6.
为向负荷预测模型提供准确可靠的相似日训练样本集合,针对现有聚类算法在初始聚类中心选取方面的不足,提出了一种基于数据中心度的改进聚类算法,并搭建集数据筛选、聚类、优化、训练、预测为一体的日最大负荷预测模型.首先,基于各被聚类对象的中心度,选取聚拢效果最好的对象作为第一个聚类中心代入Canopy算法,形成初始聚类中心集合;然后,采用K-means聚类算法,得到不同类别相似日的训练样本;最后,利用PSO-GA-BP神经网络算法搭建日最大负荷预测模型进行预测分析.算例对某地区2011—2012年日最大负荷开展预测分析,结果表明:所提方法在聚类指标与预测指标上均具有一定优越性,具备一定实际工程应用价值.  相似文献   

7.
为解决聚类问题中簇的个数不易确定的难题,提出一种自动化的聚类方法.该方法针对不确定的簇个数,给出了一种新的粒子表示方法,并利用微粒群算法在完成一次聚类后,再利用kmeans算法重新分配数据对象并计算聚类中心.该方法利用结合凝聚度和分离度概念的轮廓系数来确定簇的个数,并用误差平方和来辅助验证.实验表明,该方法可以找到最佳的簇个数,并可以有效的对数据对象进行聚类.  相似文献   

8.
为快速有效地对大规模数据对象聚类,提出了一种基于代表点质量的万有引力聚类算法GCARM.算法首先扫描数据集并利用K-叉树结构使得距离相近的对象凝聚在一起成为具有质量的代表点;然后计算代表点之间的万有引力,使得引力大于设定阈值的代表点连通起来,其最大连通对象的集合就是聚类.实验结果表明,GCARM算法可以在保证精度的情况下识别任意形状,任意大小的聚类并去除噪声,并具有较高的效率和可扩展性.  相似文献   

9.
蚂蚁的自我聚集的行为可以形成蚂蚁聚簇,根据此行为提出一种基于蚂蚁树的文本文件的聚簇算法.算法中将对象属性作为为关键词,提取文本文件关键词组成一个关键词集合,一个集合代表一个对象(蚂蚁).算法将计算关键词的相对频率和对象之间的相似度,然后比较对象相似度阈值和相异度阈值,最终完成文本文件对象的聚簇.  相似文献   

10.
邵琳琳 《科学技术与工程》2013,13(12):3452-3456
针对传统协同过滤推荐算法生成推荐速度慢、推荐质量不高等缺陷,提出了一种基于混合蛙跳模糊聚类的改进协同过滤推荐算法。算法首先利用模糊C-均值(FCM)聚类方法对用户数据进行预处理,得到用户数据聚类中心,有效地降低了推荐工作量。然后选取相似度最优的若干聚类组成候选用户邻居集合,并利用混合蛙跳算法快速地全局寻优能力得到用户最近邻居集合,提高了推荐精度。最后,通过计算预测评分生成推荐结果。仿真结果表明,相比于传统协同过滤推荐算法,该算法在推荐速度和推荐精度上有明显改善。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号