首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
基因表达数据聚类为肿瘤新类别的发现提供了重要手段。然而,直接对原始数据进行聚类会在一定程度上丢失数据本身隐含的流形结构信息,影响子空间分割方法的聚类效果。为解决这一问题,提出模式收缩最小二乘回归(pattern shrinking least square regression, PSLSR)子空间分割方法。该模型能够同时进行模式收缩和仿射矩阵的学习,并利用交替优化方法进行求解。在6个基因表达数据上的实验结果表明该方法优于现有子空间分割方法。  相似文献   

2.
为提取电力负荷数据的有效信息,改善传统聚类方法在电力负荷数据中相似度衡量方式单一及聚类效果较差的问题,提出一种采用欧式形态距离的负荷曲线近邻传播(AP)聚类方法。使用五分位法将用电负荷曲线重表达为曲线形态变化特征序列,使用改进最长公共子序列算法衡量不同特征序列之间的模式匹配度,以此作为曲线之间的差异度;构造一种兼顾曲线整体分布特征和曲线形态变化特征的双尺度相似性度量方法,使用熵权法对两种特征进行自适应配比;将所提相似度衡量方法应用到AP聚类方法中,改进相似度矩阵计算方法,对用户典型日用电负荷曲线进行聚类。在标准合成时间序列数据集上进行了实验对比,结果表明:欧式形态距离度量方法能够有效区分负荷曲线的变化特征;所提方法具有较高的聚类质量和稳健性,相比其他相似度量方法,调整兰德系数提高了9.0%~43.8%,DB指标与标准集相差0.014 3,在电力实测数据集上能对用户进行合理划分。  相似文献   

3.
现实中有很多样本数据是二维的,且多数聚类方法需将二维样本数据向量化,从而导致二维数据的内部几何信息丢失.针对这一问题,提出二维最小二乘回归子空间分割方法直接对二维数据进行聚类,将一维最小二乘回归子空间分割方法推广到二维,使得原始数据的结构信息得以保留.在人脸数据集和哥伦比亚大学图像数据集上进行实验,结果表明该方法是有效的.  相似文献   

4.
针对简单线性迭代聚类算法在多光谱遥感图像超像素分割中存在的未充分利用图像特征信息及超像素尺寸、 数量固定导致分割精度较低的问题, 提出将流形 简单线性迭代聚类算法引入到遥感图像超像素分割任务中, 并对其进行改进. 首先, 给出一种基于彩色局部二进制模式改进的多光谱遥感图像纹理特征提取方法; 其次, 扩展流形 简单线性迭代聚类算法的光谱空间, 使算法可以适应高维图像数据; 最后, 改进流形 简单线性迭代聚类算法的聚类距离度量, 融合图像的多段光谱特征、 空间特征及纹理特征对像素进行迭代聚类, 实现内容敏感超像素分割. 实验结果表明, 与现有方法相比, 该算法对多光谱遥感图像的超像素分割结果更准确, 在边缘召回率、 欠分割误差、 可达细分精度指标上均有提升, 能改善多光谱遥感图像分割预处理方法中精度较低的问题.  相似文献   

5.
传统图像分割方法大都存在分割速度低下、过度分割等缺点.针对上述问题,提出一种新的彩色图像区域分割算法.这种方法首先将图像转化至L*a*b*空间,并划分为子块,抽取图像子块的颜色、纹理和位置特征组成子块的特征向量,然后运用减法聚类,获得聚类簇数和初始蔟中心,最后利用改进的K均值算法在像素点特征空间进行聚类,进而分割图像成区域.实验结果表明这种新方法具有分割效率高、分割效果理想等优点.  相似文献   

6.
基于减法聚类的带钢厚度数据驱动建模   总被引:1,自引:0,他引:1  
针对轧钢生产中大批过程数据没有被用于提高厚度质量的现象,提出了一种基于减法聚类的带钢厚度数据驱动在线建模方法.首先通过减法聚类将输入空间划分为一些小的局部空间,在每个局部空间中用最小二乘支持向量机建立子模型,子模型加权输出作为带钢厚度的离线模型;然后当在线数据不断增加时,通过在线减法聚类算法实时调整局部空间,子模型的参数采用最小二乘支持向量机的递推算法进行相应的在线辨识,子模型的预测输出作为模型的最后输出.实验结果表明,该方法具有良好的预测精度和较强的在线学习能力.  相似文献   

7.
针对高维时序数据中局部相关模式的聚类问题,建立了一种基于相关子模式的spCluster模型,讨论了该模型与平均平方残值的关系.并以此模型为基础,提出了适用于时序数据的确定性双聚类算法sp-TSC,该算法首先利用spCluster模型将局部相关的数据对象符号化,然后将字符序列插入到泛化后缀树中,利用后缀树的性质避免了穷举局部相关子模式的各种组合,有效减小了搜索空间,从而可以在数据矩阵尺寸的线性时间内发现全部最大δ-spCluster.理论分析和实验表明,该算法是高效可行的.  相似文献   

8.
为了提高图像分割的运算速度,该文在将传统模糊C均值(FCM)聚类算法应用于图像自动分割的基础上,提出一种改进的快速图像分割算法。将图像从像素空间映射至其对应的灰度直方图特征空间,实现在特征空间进行数据聚类分析以减少聚类样本数量。依据灰度直方图特性,通过曲线拟合方法获得图像的聚类数及初始聚类中心。实验结果表明,在有效分割图像的基础上,该算法的运算迭代次数减少了约10%,运行时间减小了约6%。  相似文献   

9.
子空间聚类已经广泛应用于多个涉及高维数据聚类应用领域,受到机器学习研究者的广泛关注.子空间聚类方法是一种使用特征选择的聚类分析技术,通过选择重要特征子集实现对高维空间的低维表示,在实际应用中能够取得更好的性能,成为流行的高维数据聚类方法.与硬聚类方法相比,软聚类能够给出复杂数据更有意义的划分.扩展k-均值聚类并提出基于可靠性的正则化加权软k-均值新的子空间聚类方法(Reliability-based regularized weighted soft k-means clustering algorithm,RRWSKM),该方法能够计算每个特征对每个聚类的贡献度,从而找到与不同聚类相关的重要特征子集.另外,该方法能够通过调整模型参数准确地辨识数据模式,具有良好的聚类性能.该方法把维度加权熵和划分熵作为正则化项引入到目标函数,避免过拟合问题同时使更多的特征参与辨识聚类.为了提高算法的鲁棒性,使用可靠性测度获得特征权重初始值,提高算法的可靠性和性能.考虑到该算法是非凸优化问题,使用迭代优化方法得到优化问题的最优解.使用多个实际数据集对本文算法进行仿真验证,结果表明,与其他子空间聚类算法相比,该算法能够有效发现高维数据的低维表示,具有良好的聚类性能,适合高维数据的聚类.  相似文献   

10.
针对FCM进行图像分割时需要人为确定聚类数的问题,提出一种改进的基于FCM的图像分割算法.该算法先对图像进行4叉树结构的子图分解(即原图等分为2×2的4幅子图,子图再等分为2×2的4幅子图),待子图满足一定条件时进行聚类数为2的FCM聚类分割;然后将分割好的区域根据其大小及相邻区域直方图的巴氏距离进行合并,得到最终的分割结果,从而避免了聚类数目的直接确定.实验结果表明:该算法能够获得很好的分割效果;对子图进行聚类分割减少了每次参与聚类的对象数,从而在一定程度上降低了算法的计算量.  相似文献   

11.
离群数据挖掘是数据挖掘中的重要内容.本文针对时间序列数据进行离群数据挖掘方法的研究.在引入了基于局部离群点因子的离群数据挖掘方法与时间序列上滑动窗口基础上,将二者相结合,提出了基于滑动窗口的时间序列离群数据挖掘算法,并将算法应用于海表温度数据得到海表温度的异常之处.  相似文献   

12.
为了提高多元时间序列模式异常检测算法的有效性和合理性,在k-近邻局部异常检测算法的基础上,结合基于主元分析的多元时间序列的降维方法,对多元时间序列模式异常进行检测.实验结果验证了该算法对多元时间序列模式异常检测的准确性和有效性.  相似文献   

13.
针对多变量时间序列异常检测问题进行研究,提出基于改进ADPP的多变量时间序列异常检测算法IADPP.IADPP算法引入适用于多变量时间序列的张量相似性度量SSOTPCA,并以此相似性度量构造序列集的k-近邻图,在构造的k-近邻图上计算多变量时间序列的异常系数.研究结果表明,IADPP算法克服了原有ADPP算法不支持多变量时间序列和要求密度均匀的缺陷,取得了较好的检测结果.  相似文献   

14.
针对传统的基于密度的局部离群点检测算法对原始数据集没有进行预处理导致该算法在面对未知数据集时检测效果不理想,又由于其需要计算每一个数据点的离群因子,在数据量过多时,计算量大大增加的问题,通过对局部离群点检测算法的分析,提出了一种基于目标函数的局部离群点检测方法FOLOF(FCM objective function-based LOF).首先,使用肘部法则确定数据集的最佳聚类个数;然后,通过FCM的目标函数对数据集进行剪枝,得到离群点候选集;最后,利用加权局部离群因子检测算法计算候选集中每个点的离群程度.利用该方法在人工数据集和UCI数据集上进行了相关实验,并与其他相关方法进行了对比,结果显示,该算法能够提高离群点检测精度,减少计算量,有效提高离群点检测性能.  相似文献   

15.
针对能耗监测常用的设定能耗阈值方法和基于历史数据的数据分析方法在实时性和智能性方面的不足,提出了一种基于数据挖掘技术的能耗实时监测方法。该方法通过对历史能耗数据进行聚类分析识别耗能体特有的能耗模式集合,对数据分类后获得能耗模式判定树,在能耗实时监测过程中对动态采集的能耗数据进行模式匹配,与相同模式历史数据进行离群点分析,可判别当前能耗是否异常。结合某综合大楼能耗数据进行了实验,验证了该方法及时发现能耗数据异常的有效性。  相似文献   

16.
A fundamental problem in whole sequence matching and subsequence matching is the problem of representation of time series. In the last decade many high level representations of time series have been proposed for data mining which involve a trade-off between accuracy and compactness. In this paper the author proposes a novel time series representation called Grid Minimum Bounding Rectangle (GMBR) and based on Minimum Bounding Rectangle. In this paper, the binary idea is applied into the Minimum Bounding Rectangle. The experiments have been performed on synthetic, as well as real data sequences to evaluate the proposed method. The experiment demonstrates that 69%- 92% of irrelevant sequences are pruned using the proposed method.  相似文献   

17.
提出一种利用Landsat数据和时间序列子序列的退耕监测方法.首先利用随机森林方法,对每年的Landsat数据统计值进行分类,得到每个像元属于农田的概率,由每年的农田概率构成年际的农田概率时间序列;然后,对退耕(农田变为非农田)及相关地物类别的农田概率时间序列进行分析,得到代表退耕的时间序列片段,即特征子序列;最后,计...  相似文献   

18.
针对基于聚类的离群点检测算法在处理高维数据流时效率和精确度低的问题,提出一种高维数据流的聚类离群点检测(CODHD-Stream)算法。该算法首先采用滑动窗口技术对数据流划分,然后通过属性约简算法对高维数据集降维;其次运用基于距离的信息熵过滤机制的 K-means 聚类算法将数据集划分成微聚类,并检测微聚类的离群点。通过实验结果分析表明:该算法可以有效提高高维数据流中离群点检测的效率和准确度。  相似文献   

19.
基于nested-loop的大数据集快速离群点检测算法   总被引:1,自引:0,他引:1  
针对已有的多数离群点检测算法存在扩展性差,不能有效应用于大数据集的问题,在已有的基于距离的离群点检测算法的基础上,设计模信息表存储结构,利用向量内积不等式关系以及合理的存储分配和调度策略,提出一种高效离群点检测算法DBoda.该算法通过在预处理中存储每个点的模信息,减少点间距离的计算量,并对嵌套循环方法进行优化,进一步减少I/O的开销.理论分析和试验结果表明,所提算法具有时间消耗小和适用于处理大数据集的特点,可以有效地解决离群点检测中的算法时间复杂性和算法扩展性问题.  相似文献   

20.
基于数据模式聚类算法的离群点检测   总被引:1,自引:0,他引:1  
针对传统模式挖掘算法在事务包含模式定义上未考虑模式间的包含关系而使聚类结果不够优良的问题, 提出一种新的基于模式聚类的离群点检测算法PCOT, 该算法适合于高维数据空间, 采用一种新的事务包含模式, 通过将模式表示成超图, 用超图分割方法对模式进行聚类. 实验与分析结果表明, 该算法能有效地在高维稀疏空间中发现离群点.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号