首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
聚类分析是一种数据缩减技术,即基于数据特征的相似性将数据聚集成不同的类,是数据挖掘中一种非常有效的工具,得到了人们广泛的关注。从聚类算法中的相似性度量问题入手,采用基于流形距离的相似性度量替代传统的基于欧氏距离的相似性度量,通过二阶段聚类解决引入流形距离带来的计算量增大问题,并将这种聚类算法应用到聚类分析当中。  相似文献   

2.
针对传统的基于距离/相关系数的相似性度量方法无法有效度量基因间的时延表达特性,为了更加准确地刻画基因间的共调控关系,提出一种基于动态时间弯曲距离(DTW)的相似性度量方法,并结合可指定类数的仿射传播聚类算法进行聚类.将该算法用于人工合成数据和真实的酵母基因数据集,实验结果表明,相对于其它经典聚类算法,本文所提算法能得到更好的聚类结果.  相似文献   

3.
基于全局空间相似性的模糊聚类算法   总被引:1,自引:0,他引:1  
用传统模糊C均值聚类算法分割图像时,类内数据空间分布离散.针对这一问题,提出一种基于全局空间相似性模糊聚类算法.算法建立全局空间相似性度量标准和全局灰度相似性度量标准,分别计算图像中任意一点与聚类中心点的空间相似性和灰度相似性;通过调整参数来控制两种特征在节点间差异计算中所占的比重,增强了分割结果中类内数据样本空间分布...  相似文献   

4.
传统的基于模糊C均值聚类的图像分割算法分割结果中类内数据空间分布离散,无法准确分割出目标物体.针对这一问题,提出一种基于相似类合并模糊C均值聚类算法,并将其应用到图像分割中.首先,提出一种全局空间相似性度量标准和全局灰度相似性度量标准,并将其引入到一种新颖的节点间距离度量公式中来计算图像中任意一点与聚类中心点的差异.其次,算法选取彩色直方图作为区域描述算子,采用巴氏距离计算聚类过程中得到的任意两类间的相似性.最后,应用最大相似类合并策略得到最终的分割结果.实验结果表明,与传统模糊C均值聚类算法和空间约束核模糊C均值聚类算法相比,该算法获得更加精确的图像分割结果.  相似文献   

5.
聚类是识别基因表达数据蕴含的关键基因调控模块的一种有效方法,基因表达谱的相似性度量是聚类的关键问题.然而,一般的相似性度量方法不能刻画时间序列基因表达谱数据所蕴含的时间延迟、反向相关和局部相关等复杂的基因调控关系.针对时间序列基因表达谱数据,提出一种基于近邻传播和动态规划的相似性度量方法和聚类算法.在大鼠再生肝细胞基因表达谱数据集上的聚类结果与基因功能富集分析结果高度一致,证明算法在时间序列基因表达谱数据聚类上的有效性.  相似文献   

6.
K-Modes算法是一种经典的字符型数据聚类算法,在处理对象属性值距离时,采用简单的0-1匹配,不能体现出属性值之间潜在的相似关系.通过图形聚类理论中的连接度来度量字符型属性值之间的相似性,改进了传统的K-Modes算法.实验结果表明该方法较传统的K-Modes算法有一定的改善.  相似文献   

7.
时间序列的相似性度量是时间序列聚类、分类以及其他相关时间序列分析的基础.传统基于距离的相似性度量方法,忽视了时间序列可能存在的时间上的联系,而将时间序列看作一系列孤立点的集合.对于序列间可能存在的前后联系,基于分数阶微分的遗传特性和记忆特性,提出一种新的时间序列聚类的相似性度量.根据时间序列的分数阶微分计算新序列间的点距离,将其作为聚类算法的输入对时间序列进行聚类.仿真实验结果表明,与基于原始序列矢量距离的聚类结果相比,新的分数阶相似性度量方法表现更好.  相似文献   

8.
软件成本数据常常表现为高维混合属性数据,传统的相似性度量已不再适用.文中通过建立软件成本数据的高维模糊C均值(FCM)聚类算法对数据相似性进行度量.首先,定义由序数属性到数值属性的初始映射;然后,通过建立改进的迭代高维FCM聚类算法对序数 数值映射进行修正,优化聚类效果;最后,利用得到的模糊划分矩阵对软件成本数据的相似性进行度量.实验结果表明,通过对聚类效果进行优化,文中定义的相似性度量能够提高软件成本估算精度.  相似文献   

9.
将序列数据的相似度度量方法S3M引入蚁群聚类算法中,提出一种基于序列相似性的蚁群聚类算法。该算法既继承了蚁群聚类算法原有的优点,又能有效地对序列数据聚类,更适合处理序列数据。  相似文献   

10.
聚类是数据挖掘中重要的功能算法,其主要的功能是发现数据中潜在的知识.目前文献发表的聚类算法多数仅限于处理单一数值型数据或者分类型数据,其主要原因是含有多种类型的混合型数据间的相似性很难度量.本文提出了一种混合数据相似性度量方法:对于分类型属性,利用互信息构建贝叶斯信念网络,利用贝叶斯信念网络构建关系层次,继而为层次附上距离,形成关系层次距离,而对于数值型属性则利用标准化的曼哈顿距离来度量其相似性,最后结合分类型属性与数值型属性来对整个数据集进行相似性的度量.在此基础上,设计实现了用于混合型数据聚类算法CRHD,并通过UCI中的多个数据集和已有算法进行仿真实验对比,证明了CRHD算法的有效性.  相似文献   

11.
针对传统K均值算法中采取的欧氏距离计算相似性的不足,提出一种新的相似性计算方法,并将这种方法与欧氏距离的度量方法进行了比较。在UC I基准数据集上的实验表明,该方法有更稳定的聚类结果,是一种比较有效的聚类度量方法。  相似文献   

12.
在聚类过程中数据可能呈现稀疏性,如果仍用传统的欧式距离作为聚类指标,则聚类的质量和效率将会受到严重的影响。受到信息论中KL(Kullback-Leibler)散度的启发,采用基于KL散度的相似性度量方法,先描述数据的整体分布,进而对数据进行聚类。研究结果表明,最后通过实验验证本算法的有效性。这种方法可以利用簇中元素提供的信息来度量不同簇之间的相互关系,克传统欧式距离的缺点,提升算法准确度。  相似文献   

13.
RNN(相互最近邻)算法是一种基于层次的聚类算法,它比其他传统的层次聚类算法聚类更快.由于利用RNN算法对同一个数据集聚类,若选择不同簇间距离度量方式,那么聚类结果就会不同.因此在分析聚类结果对距离度量方式依赖性的基础上,采用用聚类聚集的思想,找出一种新的聚类方式,从而使得聚类效果更好.  相似文献   

14.
针对待聚类的数据对象的对称性,提出了一种基于对称点距离的蚂蚁聚类算法.该算法不再采用Euclidean距离来计算类内对象的相似性,而是使用新的对称点距离来计算相似性.实验结果表明:与标准的蚂蚁聚类算法相比,该算法在处理带有对称性质的数据集时,可以更好的识别数据集的聚类数目和划分.  相似文献   

15.
针对传统模糊C均值聚类算法对图像特征描述单一,易受图像复杂纹理干扰而出现误分割的问题,提出一种基于自适应结构张量的FCM算法,并将其应用于图像分割.打破传统高斯滤波器在滤波方向和角度上所受限制,采用基于各向异性滤波的结构张量;引入图像边缘密度函数,用以衡量图像节点的平滑性,自适应地计算各向异性滤波函数所占比例;定义一种自适应结构张量相似性度量标准,用以计算图像中节点与聚类中心点的结构相似性,有效地代替了传统FCM中的灰度相似性度量标准;采用一种新颖的节点间距离度量公式来计算图像中节点与聚类中心点的差异.仿真结果表明,对结构复杂的图像,改进算法获得了更加精确的分割结果.  相似文献   

16.
针对传统协同过滤推荐算法(CF)存在用户-项目矩阵稀疏以及推荐准确率较低等问题,提出了一种基于NKL和K-means聚类的协同过滤推荐算法(NKL-KM).首先,NKL-KM算法定义了一种新的相似性度量方法,该方法在进行相似性度量时考虑了各项目评分的分布以及评分值差异.其次,NKL-KM算法将K-means算法与CF算法结合,提高了推荐算法精度.最后,在MovieLens和Netflix数据集上进行算法对比实验,实验结果表明NKL-KM算法有较高的推荐精度.  相似文献   

17.
Isomap在基因表达谱数据聚类分析中的应用   总被引:8,自引:0,他引:8  
基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。基于非线性降维算法等容特征映射 ,提出了一种新的大规模基因表达谱数据聚类算法 ,该方法改进了样本向量之间的距离度量 ,用测地距离代替传统的欧式距离 ,有助于挖掘高维数据内在的几何结构。将该算法应用于两个公开的基因表达数据集 ,并用一种新的评价方法Normalized Cut将聚类结果与其他聚类方法的结果进行了比较。结果表明 ,该文的聚类算法优于其他聚类算法 ,聚类结果具有明显的生物学意义 ,并能对数据的类别数作出较好的预测和评估  相似文献   

18.
一种基于相交关系的GML空间聚类算法   总被引:1,自引:0,他引:1  
提出一种基于相交关系的GML空间聚类算法SCIR,该算法以GML数据作为数据源,计算空间对象的相交关系,针对空间对象的相交关系和非空间属性,定义了一种相似度度量方法,利用ROCK算法进行聚类.实验结果表明,算法SCIR能实现GML数据中基于相交关系的空间对象聚类,并具有较高的效率.  相似文献   

19.
为了降低谱聚类采用高斯函数作为相似性度量方式对参数的敏感性,以及能够发现多密度簇的同时降低噪声点的干扰,提出了一种将基于均衡接近度的灰关联分析结合到谱聚类中的新方法,采用加权的自适应相似性度量方式。最后用改进的FCM算法对其进行聚类。在真实数据集和人工数据集上分别对提出的算法和现有算法进行了比较分析。研究结果表明,提出的新算法能够消除参数的影响,具有更高的聚类精度。聚类精度采用F测度指标。  相似文献   

20.
基于传统吸引子传播算法, 通过样本特征赋权, 克服冗余信息的影响及给出新的相似性度量方法等策略, 提出一种基于变异系数赋权的吸引子传播算法. 实验结果表明, 该算法在处理属性较多、 信息重叠的样本时, 不仅具有吸引子传播算法的快速、 高效聚类特征, 且聚类性能明显优于传统吸引子传播算法和K-均值等经典聚类算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号