共查询到20条相似文献,搜索用时 15 毫秒
1.
对近邻传播聚类算法进行了详细的研究。提出用波动率来衡量数据震荡的剧烈程度,分析了收敛迭代次数和最大迭代次数两个参数的合适设置;重点研究了倾向度和阻尼因子两个参数与聚类数、波动率的关系,研究发现通过增大倾向度和阻尼因子都能减少波动率。 相似文献
2.
传统近邻传播聚类算法(affinity propagation,AP)的偏向参数与数据集相关,若不根据数据集作优化,将导致算法聚类精度低。为此提出一种量子近邻传播聚类算法,首先用量子叠加态编码偏向参数,再用量子旋转门搜索量子叠加态,找出近优的偏向参数供AP算法聚类,达到自适应优化AP偏向参数的目的。在UCI数据集上的实验结果表明,本文提出的算法聚类精度比同类算法更优,计算时间和迭代次数亦优于传统AP算法,引入量子计算优化近邻传播聚类算法的思路是可行的。 相似文献
3.
针对近邻传播(Affinity Propagation,简称AP)算法在对非团状数据集聚类过程中出现的局部聚类较多、精准度不高等问题,提出了一种基于改进AP算法的聚类质量评价模型.首先,在AP算法初步聚类的基础上,通过合并相似度较大的簇,减小聚类上限值kmax,进一步压缩聚类区间范围;其次,给出一个新的内部评价指标,用分属不同簇的样本对的平均距离代表簇间距离,削弱噪声数据的影响,平衡簇间分离度与簇内紧致度的关系.在UCI和KDD CUP99数据集上的实验结果表明,新模型可以给出精准的最优聚类数(范围),能够在保持较低漏报率的同时,有效提高样本的检测率和分类正确率. 相似文献
4.
《河南师范大学学报(自然科学版)》2015,(6):134-140
聚类是识别基因表达数据蕴含的关键基因调控模块的一种有效方法,基因表达谱的相似性度量是聚类的关键问题.然而,一般的相似性度量方法不能刻画时间序列基因表达谱数据所蕴含的时间延迟、反向相关和局部相关等复杂的基因调控关系.针对时间序列基因表达谱数据,提出一种基于近邻传播和动态规划的相似性度量方法和聚类算法.在大鼠再生肝细胞基因表达谱数据集上的聚类结果与基因功能富集分析结果高度一致,证明算法在时间序列基因表达谱数据聚类上的有效性. 相似文献
5.
针对近邻传播算法无法有效处理高维数据而导致聚类效果不佳的问题, 提出一种基于奇异值分解的自适应近邻传播(SVD-SAP)聚类算法. 通过引入奇异值分解, 对高维数据进行重构、 降维, 消除冗余信息, 并在此基础上采用非线性函数策略, 自适应地调整阻尼系数, 提高算法的聚类性能. 仿真实验结果表明, 与已有算法相比, 该改进算法聚类精度更高, 收敛速度更快. 相似文献
6.
根据竞争情报分析需要,会产生不同竞争情报分析模型,这些分析模型的构造大多建立在竞争情报数据的聚类统计之上。提出采用改进的近邻传播(Affinity propagation, AP)聚类算法实现大规模竞争情报数据聚类统计。根据竞争情报数据样本建立相似矩阵,初始化偏向参数;通过布谷鸟搜索优化偏向参数,将偏向参数作为布谷鸟巢进行训练,设置轮廓指标值作为布谷鸟算法适应度函数;通过鸟巢位置更新优化后的偏向参数进行AP聚类运算,不断更新AP算法的决策和潜力阵;最终获得稳定的聚类结果。试验证明,通过合理设置布谷鸟宿主发现概率、移动步长和AP算法阻尼因子等参数,能够获得较好的聚类效果。相比常用竞争情报聚类算法,所提改进AP聚类算法能够获得更高的轮廓指标值和最短的欧式距离性能,在竞争情报数据分析统计中的适用度高。 相似文献
7.
为提取电力负荷数据的有效信息,改善传统聚类方法在电力负荷数据中相似度衡量方式单一及聚类效果较差的问题,提出一种采用欧式形态距离的负荷曲线近邻传播(AP)聚类方法。使用五分位法将用电负荷曲线重表达为曲线形态变化特征序列,使用改进最长公共子序列算法衡量不同特征序列之间的模式匹配度,以此作为曲线之间的差异度;构造一种兼顾曲线整体分布特征和曲线形态变化特征的双尺度相似性度量方法,使用熵权法对两种特征进行自适应配比;将所提相似度衡量方法应用到AP聚类方法中,改进相似度矩阵计算方法,对用户典型日用电负荷曲线进行聚类。在标准合成时间序列数据集上进行了实验对比,结果表明:欧式形态距离度量方法能够有效区分负荷曲线的变化特征;所提方法具有较高的聚类质量和稳健性,相比其他相似度量方法,调整兰德系数提高了9.0%~43.8%,DB指标与标准集相差0.014 3,在电力实测数据集上能对用户进行合理划分。 相似文献
8.
在近邻传播聚类算法基础上提出了基于偏向参数p可变的分簇路由算法CPAP,该算法针对异构无线传感器网络的特殊背景,改变AP算法偏向参数p的常规设置方式,综合考虑能量、距离因素解决分簇问题;另外,分析了算法中K参数的影响,取得其近似最优值。仿真结果表明:CPAP与PECBA相比,第一死亡节点出现时间推迟了28.5%,将更多的能量用于网络开始死亡之前,提高了网络的能量利用率。 相似文献
9.
提出了一种混合约束的半监督聚类算法HCSCAP,综合考虑了已标号点和成对点约束信息,使2类先验信息在聚类的过程中能发挥各自的作用.通过调整相似性矩阵添加成对点约束,已标号点以宏结点的方式添加到相似性矩阵.给出了具体的算法步骤并进行了测试,实验表明:HCSCAP比只利用成对点约束信息的SAP算法和只利用标号点的SS-CA... 相似文献
10.
针对待聚类的数据对象的对称性,提出了一种基于对称点距离的蚂蚁聚类算法.该算法不再采用Euclidean距离来计算类内对象的相似性,而是使用新的对称点距离来计算相似性.实验结果表明:与标准的蚂蚁聚类算法相比,该算法在处理带有对称性质的数据集时,可以更好的识别数据集的聚类数目和划分. 相似文献
11.
12.
在K近邻和逆K近邻理论基础上提出了K近邻团的概念。通过度量对象间的相似度,任意两个元素都互为K近邻和逆K近邻的对象集合构成一个K近邻团。利用同一个K近邻团中的对象彼此都具有较高相似性的特点,选取不同的K值对目标集合进行聚类。通过实验证明了该方法的有效性。 相似文献
13.
《郑州大学学报(理学版)》2017,(3)
针对互近邻距离的不足,提出了互近邻相对距离的概念,同时设计实现了一种新的最小生成树聚类算法.针对某些数据的不平衡问题,提出了兼容不平衡数据的最小生成树分割方法.算法设计简单,易于实现.实验结果表明,该算法能够聚类任意形状数据和兼容处理不均衡数据.对于具有良好几何形状的数据,该算法能够达到非常好的聚类效果,总体性能优于其他算法. 相似文献
14.
基于邻接距离属性动态聚类算法采用能综合反映属性名称相似性和语义相似性的“邻接距离”,提高了属性匹配的准确率;以类内损失、类间损失之和最小化为准则,使用动态聚类算法对相似属性进行匹配,不需要设置聚类参数,避免了人为造成的误差。 相似文献
15.
提出的基于距离浓度的K-均值聚类算法把聚类的数据对象视为抗原,聚类中心看作是免疫系统中的抗体,聚类过程表示为免疫系统不断产生抗体,识别抗原,最后产生出可以捕获抗原的最佳抗体过程.定义了抗体浓度和亲和度,使得抗体之间的距离越大,其距离浓度越小,反之则浓度越大,从而提高了算法的搜索效率.设计了抗体的期望繁殖率计算方法和克隆变异方法.仿真结果表明:该算法不仅克服了传统的K-均值聚类算法易陷入局部极小值的缺点,而且避免了对初始化选值敏感性的问题,同时也有较快的收敛速度. 相似文献
16.
为了加快传统聚类方法的计算速度,提高实际工作的效率,在传统层次聚类算法基础上,探讨了一种基于距离的增量聚类算法,并应用于粮食智能决策支持系统中。算法在保持层次聚类优点的基础上,利用旧的聚类结果提高聚类速度,根据用户需要在聚类精度和聚类速度方面选取一个适当的平衡点,有效地提高了聚类分析的效率。由此得出结论:可以利用旧的历史数据提高分析效率,缩短实际业务中的统计计算时间。 相似文献
17.
18.
在传统层次聚类基础上,提出并实现了一种基于距离的增量式聚类算法,并应用于粮食智能决策支持系统中,算法在保持层次聚类优点的基础上,利用原有的聚类结果提高聚类速度,并可以根据用户需要在聚类精度和聚类速度两方面选取一个适当的平衡点,有效地提高聚类分析的效率。 相似文献
19.
施成湘 《西南师范大学学报(自然科学版)》2013,38(8):125-129
利用特征散度普适能力强的优势,提出了基于二次分水岭和近邻传播聚类的彩色图像分割算法.算法通过二次分水岭算法预分割,提取区域中色彩向量数据点,利用特征散度构造相似度矩阵,运用近邻传播数据聚类,实现图像的分割.实验证明,算法较好地避免了聚类算法对初始条件的依赖性,降低了彩色图像大样本数据的运算量,与人的主观视觉感知具有良好的一致性. 相似文献
20.
基于图的标签传播算法是半监督学习中的研究热点之一,其性能很大程度依赖于图的质量.为了应对这一问题,文章提出了基于聚类的标签集成传播算法.该算法对样本集进行多次聚类,在每次聚类产生的簇中,利用互补熵度量簇内样本标签的混乱程度,并在混乱程度较小的簇中进行标签传播,当一个未标记样本获得某个标签的次数与聚类次数的比值大于50%... 相似文献