首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
软件成本数据常常表现为高维混合属性数据,传统的相似性度量已不再适用.文中通过建立软件成本数据的高维模糊C均值(FCM)聚类算法对数据相似性进行度量.首先,定义由序数属性到数值属性的初始映射;然后,通过建立改进的迭代高维FCM聚类算法对序数 数值映射进行修正,优化聚类效果;最后,利用得到的模糊划分矩阵对软件成本数据的相似性进行度量.实验结果表明,通过对聚类效果进行优化,文中定义的相似性度量能够提高软件成本估算精度.  相似文献   

2.
针对高维数据聚类分析中数据之间具有多种非线性特征关系,导致数据分布不均、传统相似性度量失效及结果类中心难以精准表征等问题,提出了一种基于核主元分析(KPCA)与密度聚类(DBSCAN)的高维非线性特征数据聚类分析技术。首先,为有效提取高维数据的非线性特征,利用KPCA理论将原始数据映射到更高维数据空间,利用主元分析获得数据变化的方向集合,并进行降维分析;然后,通过重新定义数据样本在主元空间的相似性距离对传统DBSCAN聚类方法进行改进,并利用3δ统计理论对各簇中心的进行表征,从而实现高维数据的精确分类与类中心知识表达。以实际高血压患者群体聚类问题为例对方法进行了有效性验证,实验表明,所提方法可以有效获取原始数据的非线性特征,实现患者个体特征群体的有效划分及簇类中心知识的表达,解决传统DBSCAN聚类方法对高维数据不适用的问题。  相似文献   

3.
聚类是数据挖掘中重要的功能算法,其主要的功能是发现数据中潜在的知识.目前文献发表的聚类算法多数仅限于处理单一数值型数据或者分类型数据,其主要原因是含有多种类型的混合型数据间的相似性很难度量.本文提出了一种混合数据相似性度量方法:对于分类型属性,利用互信息构建贝叶斯信念网络,利用贝叶斯信念网络构建关系层次,继而为层次附上距离,形成关系层次距离,而对于数值型属性则利用标准化的曼哈顿距离来度量其相似性,最后结合分类型属性与数值型属性来对整个数据集进行相似性的度量.在此基础上,设计实现了用于混合型数据聚类算法CRHD,并通过UCI中的多个数据集和已有算法进行仿真实验对比,证明了CRHD算法的有效性.  相似文献   

4.
一种支持结构化P2P的多维范围查找方法   总被引:1,自引:0,他引:1  
提出一种基于结构化P2P的分层聚类查询系统. 利用空间填充曲线建立从高维特征空间到一维相邻空间的映射,根据映射过程提出一种分层聚类的概念,并将相似的多维数据归入在相同的聚类中,使聚类内的数据具有更大的相似性与更小的值域区间. 模拟结果显示,该方法可减少查询所需的带宽,具有良好的查询准确度和可扩展性.  相似文献   

5.
针对基因间共调控关系的特点和现有共调控基因聚类分析方法的不足,提出一种基于广义信息论中二次互信息的广义相似性度量标准QMISM,并利用免疫遗传算法将高维样本映射到二维空间,进而实现动态模糊聚类和聚类结果可视化.对人工合成数据和真实的基因表达数据的实验结果表明,该算法能得到更好的聚类结果.  相似文献   

6.
高维数据聚类问题是当前聚类分析研究的重点。笔者提出了一种改进的基于超网络的高维数据聚类算法。首先,将高维数据映射到一个大规模带权超网络中;其次,定义超网络中边的权重;再次,采用优化的超图划分方法划分带权超网络;最后实现高维数据聚类。这样有效过滤掉聚类中的噪声数据,避免了传统聚类方法在降维过程中产生的弊端。实验证明,该算法具有较理想的有效性和精确度。  相似文献   

7.
现有的优秀的聚类算法大多是处理低维数据的,但是对于高维数据,由于其分布特性与低维情形有很大的差异,这些算法失效.为解决高维分类型数据聚类问题,提出了一种基于粗糙集的高维分类型数据子空间聚类算法,基于粗糙集的上、下近似集的类边界描述,确定了类边界范围,然后采用相容度来调整类边界,聚类的过程采用增长子空间的思想,从低维到高维迭代地搜子空间类簇.最后通过在soybean、zoo数据集上的对比实验,实验结果表明了算法不仅可行,而且精度高.  相似文献   

8.
高维聚类中的一种特征筛选方法   总被引:3,自引:0,他引:3       下载免费PDF全文
聚类分析是数据挖掘领域中一个基础而活跃的研究课题。由于大多数的聚类方法在处理高维数据时会出现高维失效问题,维简约成为高维聚类中一个非常重要的处理步骤。通过分析对象间相似性度量与原始数据分布间的关系,提出一种基于熵的特征筛选方法。该方法通过构造一个基于对象间相似度的熵度量,对原始特征集中的每个特征进行重要性评估,从而获得重要特征子集。实验结果显示,该方法可以有效剔除高维数据集中的不重要或噪声特征,改善聚类算法的性能和聚类结果的可理解性。  相似文献   

9.
针对当前广泛应用的BOVW模型存在精度不足问题,提出一种基于有序视觉词袋模型的相似性衡量方法.首先,对经过K-mean聚类得到的高维视觉单词,采用LLE(locally linear embedding)流形学习算法降至一维,对一维数据进行排序,并以此顺序对高维单词排序获得有序词袋库;其次,对样本图像的所有局部特征,以该特征在词袋中对应的有序单词索引号构建图像局部特征谱;最后,对训练样本和测试样本的局部特征谱作差求得残差,并以残差的1-范数衡量图像的相似性.KITTI数据集相似性衡量实验表明,有序BOVW模型相似性识别率明显高于无序BOVW模型.  相似文献   

10.
针对传统的随机森林算法(RF)在对高维特征数据集计算速度慢、聚类效果不佳的缺陷,提出了一种基于高维特征聚类的随机森林算法(HDFC-RF),首先用传统RF方法对初始高维数据集聚类后,使用K均值聚类(KM)和模糊C-均值(FCM)结合,计算样本相似度,并对聚类特征划分族群,最后通过计算DBI指标,并与相关性阈值δ比较和排序,得到最终的高维特征序列。将HDFC-RF算法应用于高维特征数据集Colon Tumor,与传统的RF和FSRF算法比较。实验结果表明,HDFC-RF算法对于高维特征的数据集具有更好的聚类效果、训练速度也更快,具备良好的可行性。  相似文献   

11.
提出一种基于单维分割的高维数据聚类算法HDCA_SDP, 该算法利用单维空间能划分数据的性质,对整个数据集进行逐维聚类,解决了传统聚类算法带来的维度困扰问题,对数据集大小和数据空间维数具有良好的可伸缩性,且聚类结果的精度比传统的高维聚类算法有较大的提高. 实验结果表明,该算法在处理高维大规模数据时是有效的.  相似文献   

12.
针对基于聚类的离群点检测算法在处理高维数据流时效率和精确度低的问题,提出一种高维数据流的聚类离群点检测(CODHD-Stream)算法。该算法首先采用滑动窗口技术对数据流划分,然后通过属性约简算法对高维数据集降维;其次运用基于距离的信息熵过滤机制的 K-means 聚类算法将数据集划分成微聚类,并检测微聚类的离群点。通过实验结果分析表明:该算法可以有效提高高维数据流中离群点检测的效率和准确度。  相似文献   

13.
基于加权的软子空间聚类是处理高维数据的一种有效手段,在原有的软子空间聚类算法基础上对目标函数进行改进,从而结出一种新的软子空间聚类算法.相较之原算法,此算法具有更高的抗噪性及聚类效率;通过与典型的软子空间聚类算法比较试验,结果表明可有效提高海量高维数据的聚类处理效率.  相似文献   

14.
针对传统聚类算法无法解决区间型数据聚类的问题,文章提出一种基于区间核的聚类算法(Clustering method based on interval kernel,IK-clustering,IK-C)。该方法首先求解区间型数据的区间中值和区间宽度,结合区间宽度和区间中值构造区间核,并采用平衡因子调节二者所占的比重,以有效衡量两个区间型样本的相似性,从而构造区间数据聚类算法。实验结果表明,文章提出的基于区间核的聚类算法在聚类均方差测度上比传统其他区间型数据聚类算法减小了0.019-0.132,说明本文提出的方法能够对区间型数据进行更为有效的聚类,得到了较好的聚类结果。  相似文献   

15.
针对高维数据下的聚类效果需要提高,提出一种基于期望最大化的k-means聚类改进算法.该算法在没有降维和破坏原有数据结构的情况下,把期望最大化算法和k-means算法相结合,用期望最大化算法选取k-means的算法的初始聚类中心.并针对高维数据提出一种新的距离算法,代替传统的距离算法.实验结果表明提出的算法的可行性,并且在处理高维数据时的有效性.  相似文献   

16.
为了解决以欧氏距离作为相似性准则的传统模糊聚类算法对多维数据处理不利的问题,采用马氏距离代替欧氏距离,对基于马氏距离的模糊聚类算法进行优化研究,以增强基于马氏距离的模糊聚类算法的聚类效果和能力。通过构造启发式搜索与k-means算法结合的初始优化方法,利用可以自动调节最佳聚类数的有效性函数,提出了一种优化算法KM-FCM,并将此新算法与FCM,FCM-M,M-FCM聚类算法在3个标准数据集上进行了实验。结果表明,KM-FCM算法有效,聚类精度比FCM,FCM-M,M-FCM高,对高维数据聚类识别能力强,具有全局优化作用,并且聚类个数无需提前设定。新算法可为基于马氏距离的模糊聚类算法的优化提供参考。  相似文献   

17.
基于局部线性嵌入的半监督仿射传播聚类算法   总被引:1,自引:0,他引:1  
针对运用半监督仿射传播聚类算法处理高维数据时聚类精度低和计算量大的问题,提出一种基于局部线性嵌入的半监督仿射传播聚类算法.该算法首先通过LLE算法将高维输入数据集映射到低维空间得到低维数据集,计算低维数据集的相似度矩阵,再用半监督算法调整相似度矩阵,最后用仿射传播聚类算法对低维数据进行聚类分析.仿真结果表明,本文提出的算法与半监督仿射传播聚类算法相比,在处理高维数据时聚类效果更好,精度更高,迭代次数更少.  相似文献   

18.
聚类是识别基因表达数据蕴含的关键基因调控模块的一种有效方法,基因表达谱的相似性度量是聚类的关键问题.然而,一般的相似性度量方法不能刻画时间序列基因表达谱数据所蕴含的时间延迟、反向相关和局部相关等复杂的基因调控关系.针对时间序列基因表达谱数据,提出一种基于近邻传播和动态规划的相似性度量方法和聚类算法.在大鼠再生肝细胞基因表达谱数据集上的聚类结果与基因功能富集分析结果高度一致,证明算法在时间序列基因表达谱数据聚类上的有效性.  相似文献   

19.
离群点检测在是数据挖掘的重要领域,广泛应用在信用卡欺诈检测、网络入侵检测等重要方面,文中在结合层次聚类和相似性,给出高维数据的相似度量函数与类密度的概念,并基于类密度重新定义高维数据的离群点,从而提出一种基于相似度量的离群点检测算法;实验表明:算法对高维数据中的离群点检测有一定的价值。  相似文献   

20.
高维数据受冗余数据和噪声数据的影响,聚类效率和准确率低,基于拉普拉斯矩阵的特征值和特征向量的特点,介绍了一种适用于高维数据的新的聚类中心选择算法,算法将拉普拉斯矩阵用于候选聚类中心选择前的数据降维处理,经过对数据进行降维处理,提高了候选聚类中心的准确性,增大了聚类准确率,扩大了聚类数据的种类范围.在10个包含不同数量样本、维度、类别数的数据集上进行了聚类分析,实验结果表明了基于拉普拉斯降维的新聚类中心选择方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号