首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
聚类是识别基因表达数据蕴含的关键基因调控模块的一种有效方法,基因表达谱的相似性度量是聚类的关键问题.然而,一般的相似性度量方法不能刻画时间序列基因表达谱数据所蕴含的时间延迟、反向相关和局部相关等复杂的基因调控关系.针对时间序列基因表达谱数据,提出一种基于近邻传播和动态规划的相似性度量方法和聚类算法.在大鼠再生肝细胞基因表达谱数据集上的聚类结果与基因功能富集分析结果高度一致,证明算法在时间序列基因表达谱数据聚类上的有效性.  相似文献   

2.
时间序列的相似性度量是时间序列聚类、分类以及其他相关时间序列分析的基础.传统基于距离的相似性度量方法,忽视了时间序列可能存在的时间上的联系,而将时间序列看作一系列孤立点的集合.对于序列间可能存在的前后联系,基于分数阶微分的遗传特性和记忆特性,提出一种新的时间序列聚类的相似性度量.根据时间序列的分数阶微分计算新序列间的点距离,将其作为聚类算法的输入对时间序列进行聚类.仿真实验结果表明,与基于原始序列矢量距离的聚类结果相比,新的分数阶相似性度量方法表现更好.  相似文献   

3.
目前,时间序列相似性判定大多采用欧式距离和动态时间弯曲DTW(DynamicTimeWar.ping)方法,这两种方法均存在一定缺陷。欧式距离要求序列长度一样,垂直移动序列将影响相似性判定和阈值设置的经验性;动态弯曲距离对欧式距离进行了优化,避免了欧式长度的一致性,但其他两个缺点仍然存在且计算复杂度增加。提出了一种新的基于两点时间序列相似性算法,可计算任意两序列的相似度。首先分析了两点组成的序列形态,提出了相似性判定方法TPSS(TwoPointsSegmentationSimilarity);其次为提高相似性判定的鲁棒性,减少人为阈值设置的影响,对TPSS进行了拓展;最后给出了算法及实验分析。实验结果表明,该算法能很好地判定任意序列的相似性,提高了鲁棒性及减少人为干预,对数据挖掘中的聚类与预测有很好的帮助作用。  相似文献   

4.
将序列数据的相似度度量方法S3M引入蚁群聚类算法中,提出一种基于序列相似性的蚁群聚类算法。该算法既继承了蚁群聚类算法原有的优点,又能有效地对序列数据聚类,更适合处理序列数据。  相似文献   

5.
为提取电力负荷数据的有效信息,改善传统聚类方法在电力负荷数据中相似度衡量方式单一及聚类效果较差的问题,提出一种采用欧式形态距离的负荷曲线近邻传播(AP)聚类方法。使用五分位法将用电负荷曲线重表达为曲线形态变化特征序列,使用改进最长公共子序列算法衡量不同特征序列之间的模式匹配度,以此作为曲线之间的差异度;构造一种兼顾曲线整体分布特征和曲线形态变化特征的双尺度相似性度量方法,使用熵权法对两种特征进行自适应配比;将所提相似度衡量方法应用到AP聚类方法中,改进相似度矩阵计算方法,对用户典型日用电负荷曲线进行聚类。在标准合成时间序列数据集上进行了实验对比,结果表明:欧式形态距离度量方法能够有效区分负荷曲线的变化特征;所提方法具有较高的聚类质量和稳健性,相比其他相似度量方法,调整兰德系数提高了9.0%~43.8%,DB指标与标准集相差0.014 3,在电力实测数据集上能对用户进行合理划分。  相似文献   

6.
针对电子病历中疾病诊断文本同义词识别和命名标准化问题,提出了一种自适应的文本聚类方法.首先提出了一种新的基于集合的文本相似性度量算法;然后采用基于相似度分布的文本聚类算法实现同义文本识别,该算法能够自动确定类簇个数;最后采用基于序列模式的中心概念提取算法实现了疾病命名的标准化,同时对聚类簇进行合并和优化,进一步提升了聚类的准确性.测试结果表明,所述方法具有较高的准确率和聚类效率,在病历文本的预处理、分类和分析中具有广泛意义.  相似文献   

7.
针对传统的基于距离/相关系数的相似性度量方法无法有效度量基因间的时延表达特性,为了更加准确地刻画基因间的共调控关系,提出一种基于动态时间弯曲距离(DTW)的相似性度量方法,并结合可指定类数的仿射传播聚类算法进行聚类.将该算法用于人工合成数据和真实的酵母基因数据集,实验结果表明,相对于其它经典聚类算法,本文所提算法能得到更好的聚类结果.  相似文献   

8.
提出一种基于信息熵和动态时间规整(DTW)的多维时间序列相似性度量的方法。首先,基于马氏距离(mahalanobis distance)的DTW,不仅考虑了多维时间序列的各个变量间的相互关系,而且对于长度不同的时间序列,通过动态规整可以进行准确地对齐。其次,利用信息熵理论,通过最小化损失函数,对马氏距离矩阵进行学习,来获得全局最优的马氏矩阵。为了验证所提算法的效果,选用UCI数据集中的5个数据集,采用最近邻分类算法对其进行分类实验。实验结果表明:该算法相比于其他算法,具有较高的分类准确率,且时间消耗较少。  相似文献   

9.
一种支持结构化P2P的多维范围查找方法   总被引:1,自引:0,他引:1  
提出一种基于结构化P2P的分层聚类查询系统. 利用空间填充曲线建立从高维特征空间到一维相邻空间的映射,根据映射过程提出一种分层聚类的概念,并将相似的多维数据归入在相同的聚类中,使聚类内的数据具有更大的相似性与更小的值域区间. 模拟结果显示,该方法可减少查询所需的带宽,具有良好的查询准确度和可扩展性.  相似文献   

10.
为了提高fMRI激活区提取算法的抗噪能力及精确性,提出了一种基于体素邻域信息的均值漂移聚类算法.采用互相关分析方法计算每个体素的时间序列与刺激函数的相关系数,并计算该体素的时间序列与邻域中体素的时间序列的相关系数,以这2种相关系数构建有效整合体素邻域信息的二维特征空间.再用均值漂移算法对此特征空间进行聚类搜索,完成对脑神经活动区域的检测.利用仿真数据和实际fMRI数据对算法进行测试.仿真数据测试结果表明,当选定合适的核宽,无论激活区域大小,所提出算法的敏感性和特异性均优于较传统的互相关分析算法和互相关聚类算法.实际fMRI数据测试结果显示,所提出算法与其他2种算法的结果具有良好的一致性,而所提出算法的检测区域更完整.  相似文献   

11.
针对采用物理建模刻画三元催化器故障演化精确性不足问题,提出一种基于尾气大数据的改进测度模糊C均值(FCM,fuzzy c-means),故障诊断方法。该方法包括分数阶傅里叶变换(FRFT,fractional fourier transform)下的故障特征提取与优化、核熵成分分析(KECA,kernel entropy component analysis)下的分形故障特征降维以及改进相似测度下的FCM故障特征聚类。首先,对不同工况的尾气数据进行FRFT处理,获取三元催化器从时域到频域的精细故障信息,同时利用粒子群算法(PSO,paticle swarm optimization)选取最优的FRFT特征,并由分形算子给出相应精细特征的分形维数;其次,借助KECA对候选的高维分形特征进行维数约简;最后,将获得的故障特征提交给改进测度的FCM故障分类器完成故障诊断。数值实验结果表明,较之采用欧式距离或余弦距离的FCM方法,研究方法的故障诊断精确度更高。  相似文献   

12.
基于时间序列的模糊聚类与规则提取信用评价模型   总被引:1,自引:0,他引:1  
提出基于多维时间序列模糊聚类与模糊规则提取技术相结合的模糊分类系统,将其应用于信用评价研究.该方法利用投影寻踪技术对多维时间序列数据进行降维处理并进行模糊分类;根据分类结果和最佳投影值提取模糊规则,采用梯形分布法生成三个模糊隶属函数;最后根据计算模糊贴近度确定样本的信用级别.实例证明该方法具有良好的评价效果和实用价值.  相似文献   

13.
针对航空器轨迹聚类没有充分利用目标的速度、航向等多维特征信息,在发掘轨迹聚类中存在局限性,提出基于多维特征的航空轨迹聚类方法并基于统计学方法完成异常检测。通过散点相似矩阵确定多维特征,利用多维特征构建多维特征相似矩阵,完成对轨迹的聚类,引入航转角和特征点选择特征轨迹,用多元拟合模型对特征轨迹点拟合,得到航空器特征轨迹表达式,通过计算实验轨迹与位置特征表达式的距离是否大于95%的置信区间距离,完成异常轨迹的检测。在天津机场用ADS-B数据进行实验,比较结果表明具有一定可行性。  相似文献   

14.
针对自组织模糊神经网络,提出了一种新的结构辨识算法.通过建立输入和输出相似性准则,提出一个用于提取模糊规则的新型聚类算法.所提方法的显著优点是克服了传统神经网络的维度灾难问题.  相似文献   

15.
ROCK是一种采用数据点间的公共链接数来衡量相似度的分层聚类方法,这种方法对于高维、稀疏特征的分类数据具有高效的聚类效果。其邻接度矩阵计算是影响其时间复杂度的关键步骤,将图形处理器(GUP)强大的浮点运算和超强的并行计算能力应用与此步骤,而其余步骤由CPU完成,这种基于GUP的ROCK算法的运算效率在AMD 643500+CPU和NVIDIA GeForce 6800 GT显卡的硬件环境下经过实验测试,证明其运算速度比完全采用CPU计算速度要快。这种改进的分层聚类算法适合在数据流环境下对大量数据进行实时高效聚类操作。  相似文献   

16.
随着通信用户数量的逐渐增加,当前多维信任数据协同推荐算法无法有效满足用户对资源多样性、准确性和发掘能力的要求。为此,提出一种新的定向信息推荐下多维信任数据协同推荐算法。通过矢量空间模型对用户兴趣进行描述,将具有代表性的用户看作该类用户的聚类中心,建立用户对资源的偏好矩阵,求出依据综合信任值的用户相似度;重复选择聚类中心,直至符合既定阈值。获取用户聚类结果后,选择待推荐用户所处聚类中和该用户相似的若干用户,依据上述近邻对目标资源的评分值实现目标用户对目标项目的预测。给出定向信息推荐下多维信任数据协同推荐算法的实现过程,输出Top-N多维信任数据推荐集合。实验结果表明,所提算法预测精度和资源多样性高,发掘能力强,推荐效果好。  相似文献   

17.
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Movers Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。  相似文献   

18.
根据语音信号的时变特性,提出了一种具有很好分类定位能力的语音可视化方法——局部线性嵌入(LLE)和模糊核聚类相结合的算法.通过利用LLE对提取的语音特征进行非线性降维,然后再利用模糊核聚类算法对其进行聚类分析,即利用Mercer核,将原始空间通过非线性映射到高维特征空间,在高维特征空间中对语音信号特征进行模糊核聚类分析.由于经过了核函数的映射,使原来没有显现的特征突现出来,从而能够更好地支持基于位置的语音可视化.以10名男生和10名女生在实验室环境下的720个语音资料(汉语元音)作为样本进行了试验,试验结果验证了该方法的可行性和有效性.  相似文献   

19.
面向室内空间的移动轨迹聚类有利于发现室内热点和用户移动模式.针对室内环境在定位技术、距离度量等方面的特殊性,充分考虑室内移动轨迹的空间和语义特征,提出一种基于无线射频识别(radio frequency identi-fication,RFID)位置语义的室内移动轨迹聚类方法.该方法对原始轨迹提取特征点,可简化轨迹以降低算法时间复杂度;从空间形状和位置语义2个方面加权计算轨迹相似度,其中,空间相似度通过定义适用于室内三维空间的距离函数来计算,语义相似度计算基于最长公共子序列思想,并引入移动对象在轨迹点的到达时间和停留时间;利用线性表存储轨迹相似度,采用改进的层次聚类方法对移动轨迹进行聚类.实验结果表明,该方法能够有效地进行室内轨迹聚类并具有较高的效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号