首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 296 毫秒
1.
针对传统的基于距离/相关系数的相似性度量方法无法有效度量基因间的时延表达特性,为了更加准确地刻画基因间的共调控关系,提出一种基于动态时间弯曲距离(DTW)的相似性度量方法,并结合可指定类数的仿射传播聚类算法进行聚类.将该算法用于人工合成数据和真实的酵母基因数据集,实验结果表明,相对于其它经典聚类算法,本文所提算法能得到更好的聚类结果.  相似文献   

2.
图之间的距离度量一直是研究的难点之一。文中提出了一种基于图谱归一化编辑距离的聚类方法。首先利用图的谱方法实现图中点的排序,再用串编辑距离进行两图之间的相似性度量,以此距离构成的不相似矩阵,应用基于矩阵理论的聚类算法实现序列图的聚类研究。考虑到图中点的多少差异,给出归一化串编辑距离的方法解决长短谱序列间距离差异误差问题。实验表明,基于图谱归一化编辑距离的聚类方法是有效的。  相似文献   

3.
聚类是识别基因表达数据蕴含的关键基因调控模块的一种有效方法,基因表达谱的相似性度量是聚类的关键问题.然而,一般的相似性度量方法不能刻画时间序列基因表达谱数据所蕴含的时间延迟、反向相关和局部相关等复杂的基因调控关系.针对时间序列基因表达谱数据,提出一种基于近邻传播和动态规划的相似性度量方法和聚类算法.在大鼠再生肝细胞基因表达谱数据集上的聚类结果与基因功能富集分析结果高度一致,证明算法在时间序列基因表达谱数据聚类上的有效性.  相似文献   

4.
一种基于网格的层次聚类算法   总被引:1,自引:0,他引:1  
传统的凝聚层次聚类算法的时间复杂度为O(n3),由于时间复杂度太高而无法应用到大的数据集.针对这一问题,提出了一种新的基于网格的层次聚类算法,先用基于网格的方法进行一次微聚类,然后再用凝聚的层次聚类算法进行聚类.在进行凝聚的层次聚类时,提出了一种新的簇间距离度量方法,该方法采用簇中权值最高的代表点的最小距离作为簇间的距离.理论分析和实验结果表明,基于网格的层次聚类算法比传统的凝聚层次算法具有更高的效率和正确性.  相似文献   

5.
由于时间序列数据具有高维度、动态性等特点,这就导致传统的数据挖掘技术很难有效的对其进行处理,为此,提出了一种基于多维时间序列形态特征的相似性动态聚类算法(similarity dynamical clustering algorithm based on multidimensional shape features for time series,SDCTS).首先,提取多维时间序列的特征点以实现降维,然后,根据多维时间序列的斜率、长度和幅值变化的形态特征定义了一种新的时间序列相似性度量标准,进而提出无需人为给定聚类个数的多维时间序列动态聚类算法.实验结果表明,与其他算法相比,此算法对时间序列具有良好的聚类效果.  相似文献   

6.
聚类分析是一种数据缩减技术,即基于数据特征的相似性将数据聚集成不同的类,是数据挖掘中一种非常有效的工具,得到了人们广泛的关注。从聚类算法中的相似性度量问题入手,采用基于流形距离的相似性度量替代传统的基于欧氏距离的相似性度量,通过二阶段聚类解决引入流形距离带来的计算量增大问题,并将这种聚类算法应用到聚类分析当中。  相似文献   

7.
传统的基于模糊C均值聚类的图像分割算法分割结果中类内数据空间分布离散,无法准确分割出目标物体.针对这一问题,提出一种基于相似类合并模糊C均值聚类算法,并将其应用到图像分割中.首先,提出一种全局空间相似性度量标准和全局灰度相似性度量标准,并将其引入到一种新颖的节点间距离度量公式中来计算图像中任意一点与聚类中心点的差异.其次,算法选取彩色直方图作为区域描述算子,采用巴氏距离计算聚类过程中得到的任意两类间的相似性.最后,应用最大相似类合并策略得到最终的分割结果.实验结果表明,与传统模糊C均值聚类算法和空间约束核模糊C均值聚类算法相比,该算法获得更加精确的图像分割结果.  相似文献   

8.
目前,时间序列相似性判定大多采用欧式距离和动态时间弯曲DTW(DynamicTimeWar.ping)方法,这两种方法均存在一定缺陷。欧式距离要求序列长度一样,垂直移动序列将影响相似性判定和阈值设置的经验性;动态弯曲距离对欧式距离进行了优化,避免了欧式长度的一致性,但其他两个缺点仍然存在且计算复杂度增加。提出了一种新的基于两点时间序列相似性算法,可计算任意两序列的相似度。首先分析了两点组成的序列形态,提出了相似性判定方法TPSS(TwoPointsSegmentationSimilarity);其次为提高相似性判定的鲁棒性,减少人为阈值设置的影响,对TPSS进行了拓展;最后给出了算法及实验分析。实验结果表明,该算法能很好地判定任意序列的相似性,提高了鲁棒性及减少人为干预,对数据挖掘中的聚类与预测有很好的帮助作用。  相似文献   

9.
灰色关联聚类是灰色系统分析的重要研究领域.现有的灰关联聚类方法在处理不同长度序列数据时,通常采用补齐或删除数据方式进行处理,增加了系统的不确定性.在动态时间弯曲距离基础上,提出了一种新的灰关联聚类方法,通过计算序列间距离矩阵的最短路径来度量相似程度,最终完成序列的灰关联聚类.该方法无需对序列数据进行人工干预,具有更强的鲁棒性.实验结果表明,在处理不同长度数据序列时,聚类结果更为准确.  相似文献   

10.
大部分时间序列数据分析的一个重要组成部分是相似性度量方式.在众多相似性度量方式中,基于最长公共子序列的相似性度量方式是一种常用的有效方法,但该方法仅仅度量序列点对点的数值差异,而忽略了序列的变化趋势.为此提出一种基于趋势信息的时间序列离散化方法并用最长公共子序列进行相似性度量.该方法能够很好地度量时间序列的趋势信息.此外,还将其与现有的点对点函数线性结合.与现有相似性度量方法不同,该方法能同时考虑时间序列的趋势信息和函数距离,相似性度量方案运用最近邻分类算法规则进行分类.为了进行全面的比较,在42个时间序列数据集上测试该算法的有效性.实验结果表明,所提出的方法能有效提高时间序列分类准确率.  相似文献   

11.
The task of clustering Web sessions is to group Web sessions based on similarity and consists of maximizing the intra-group similarity while minimizing the inter-group similarity. The first and foremost question needed to be considered in clustering Web sessions is how to measure the similarity between Web sessions. However, there are many shortcomings in traditional measurements. This paper introduces a new method for measuring similarities between Web pages that takes into account not only the URL but also the viewing time of the visited Web page. Then we give a new method to measure the similarity of Web sessions using sequence alignment and the similarity of Web page access in detail Experiments have proved that our method is valid and efficient.  相似文献   

12.
近邻传播(Affinity Propagation,AP)聚类是基于数据点间消息传递的算法,主要通过数据间的相似度实现聚类.与传统的聚类方法相比,AP聚类无需事先给定聚类数目就可实现聚类,因此具有快速高效的优点,然而在处理高维复杂数据集时存在随着聚类效率提升而准确度不高的问题.为改善AP聚类算法的效率和精度,提出基于类内和类间距离的粗粒度并行AP聚类算法——IOCAP.首先引入粒度思想将初始数据集划分成多个子集;其次对各子集结合类内和类间距离进行相似度矩阵的改进计算,最后基于MapReduce模型实现改进后的并行AP聚类.在真实数据集上的实验表明,IOCAP算法在大数据集上有较好的适应性,能在保持AP聚类效果的同时有效地提升算法精度.  相似文献   

13.
一种增量式文本软聚类算法   总被引:1,自引:0,他引:1  
针对传统文本聚类算法时间复杂度较高,而与距离无关的算法又不适用于动态、变化的文本集等问题,提出了一种基于语义序列的增量式文本软聚类算法.该算法考虑了长文本的多主题特性,并利用语义序列相似关系计算相似语义序列集合的覆盖度,同时将每次选择的具有最小熵重叠值的候选类作为一个结果聚类,这样在整个聚类的过程中大大减小了文本向量空间的维数,缩短了计算时间.由于所提算法的语义序列只与文本自身相关,所以它适用于增量式聚类.实验结果表明,算法的聚类精度高于同条件下的其他聚类算法,尤其适合于长文本集的软聚类.  相似文献   

14.
针对采用物理建模刻画三元催化器故障演化精确性不足问题,提出一种基于尾气大数据的改进测度模糊C均值(FCM,fuzzy c-means),故障诊断方法。该方法包括分数阶傅里叶变换(FRFT,fractional fourier transform)下的故障特征提取与优化、核熵成分分析(KECA,kernel entropy component analysis)下的分形故障特征降维以及改进相似测度下的FCM故障特征聚类。首先,对不同工况的尾气数据进行FRFT处理,获取三元催化器从时域到频域的精细故障信息,同时利用粒子群算法(PSO,paticle swarm optimization)选取最优的FRFT特征,并由分形算子给出相应精细特征的分形维数;其次,借助KECA对候选的高维分形特征进行维数约简;最后,将获得的故障特征提交给改进测度的FCM故障分类器完成故障诊断。数值实验结果表明,较之采用欧式距离或余弦距离的FCM方法,研究方法的故障诊断精确度更高。  相似文献   

15.
 为了提高入侵检测系统的性能,提出了一种综合降维方法。首先,借用类比推理方法,为两个多维向量建立相似距离算法。然后,基于人工免疫系统和遗传算法设计了一种对正常行为样本集合和异常行为样本集合的优化算法。最后,对采集到的网络行为样本,分别计算与优化的两个行为样本集合的相似度。把这两个相似度作为纵坐标和横坐标,行为样本被映射成二维坐标平面上的点。系统根据点的位置,判定行为是否异常。  相似文献   

16.
基于遗传算法的动态文本聚类   总被引:1,自引:0,他引:1  
为了解决动态文本聚类中聚类中心陷于局部极值点的问题,该文提出了基于遗传算法的动态文本聚类方法.采用二进制编码方式对聚类中心进行编码、类内中的点与其类中心的欧氏距离作为适应度函数.通过遗传算子的操作对类中心进行逐步迭代,直至适应度函数收敛,得到使聚类划分效果最好的聚类中心.实验表明该方法可以克服局部极值点的问题,且聚类结果的评价指标Purity(纯度)也比较好.  相似文献   

17.
针对机载快速存取记录器(QAR)详细记录了发动机全周期多源性能参数的特点,提出了一种基于时间序列相似性匹配的航空发动机剩余寿命预测方法。首先通过相关分析选取与发动机性能衰退密切相关的参数,利用狄克松判定准则剔除原始数据异常值,将多个性能参数通过状态空间模型融合为健康指数来表征发动机衰退状态;然后通过K-means聚类分析法重构发动机健康指数序列;最后计算序列之间的相似度,依据相似度大小赋予参照样本不同权重预测发动机剩余寿命。通过航空公司实际数据对该方法进行验证,结果表明该方法具有较好的预测精度。  相似文献   

18.
面向室内空间的移动轨迹聚类有利于发现室内热点和用户移动模式.针对室内环境在定位技术、距离度量等方面的特殊性,充分考虑室内移动轨迹的空间和语义特征,提出一种基于无线射频识别(radio frequency identi-fication,RFID)位置语义的室内移动轨迹聚类方法.该方法对原始轨迹提取特征点,可简化轨迹以降低算法时间复杂度;从空间形状和位置语义2个方面加权计算轨迹相似度,其中,空间相似度通过定义适用于室内三维空间的距离函数来计算,语义相似度计算基于最长公共子序列思想,并引入移动对象在轨迹点的到达时间和停留时间;利用线性表存储轨迹相似度,采用改进的层次聚类方法对移动轨迹进行聚类.实验结果表明,该方法能够有效地进行室内轨迹聚类并具有较高的效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号