首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
杨莉云  颜远海 《河南科学》2019,37(4):507-513
孤立点的存在使聚类中心的计算产生较大误差,影响K-means算法的聚类效果.针对该问题,引入谢林模型,使孤立点能够自动移动到其邻居所在位置,消除孤立点,同时,对K-means算法过程中的距离计算、初始聚类中心选取环节进行改进,提出基于孤立点自适应的K-means算法.该算法首先对原始数据进行归一化处理,以提高距离计算的准确性;然后,根据谢林模型的基本思想,将孤立点移动到其最近的多邻邻居;接着,由类簇的数目确定邻居样本的搜索范围,确定初始聚类中心;最后,根据移动后的数据集和初始聚类中心,进行K-means聚类.在UCI机器学习数据库中经典聚类数据集上的实验结果表明,该算法可显著提升聚类的精度,同时,簇的内聚性也比较好.  相似文献   

2.
数据聚类是一个功能强大的技术,它能够把数据特征相似的对象划分为一类,但是并不是所有的聚类算法的实现都能产生相同的聚类结果;并且K均值算法的结果很大程度上依赖它的初始中心的选择;提出了一种新颖的关于K均值初始中心选择的策略;该算法是基于反向最近邻(RNN)搜索,检索一个给定的数据集,其最近的邻居是一个给定的查询点中的所有点;使用这种方法计算初始聚类中心结果发现是非常接近聚类算法所需的迭代聚类中心;对提出的算法应用到K均值聚类中给予了证明;用几种流行的数据集的实验结果表明了该算法的优点。  相似文献   

3.
文中借鉴经典凸技术聚类算法中的全局线性降维算法PCA与LDA聚类算法思想,提出了一种改进型的PCA降维算法L-PCA,该算法在保证原有样本协方差结构不变的前提下,获取变换矩阵中最重要的主分量进行赋权,通过调节类内与类间离散矩阵,使得类内距离最小化、类间聚类最大化,来搜索一个合适的映射子空间来实现不同类别数据之间的划分。通过典型数据集下的实验结果很好的验证了L-PCA算法在一阶最近近邻分类器泛化误差、准确性以及目标数据表达连续性等方面的良好性能。  相似文献   

4.
基于PCA-KLFDA的小样本故障数据集降维方法   总被引:1,自引:0,他引:1  
针对小样本故障数据集降维问题,提出一种基于主元分析(PCA)和核局部费歇尔判别分析相结合的子空间降维方法.该方法首先应用PCA提取数据集中的关键信息并实施降维,然后将该子空间通过高斯核方法映射至高维线性空间,并在高维空间基于局部费歇尔判别分析训练出一个最有辨别力的低维分类特征集.用双跨转子实验台的一组故障特征数据集进行验证,结果表明:该方法能有效应对小样本的降维问题,达到增大不同故障样本集合间距离、使同类故障样本间的类内距离减小的效果,为基于数据驱动途径实现智能故障辨识技术中涉及的小样本故障数据集类别划分问题提供了一种新方法.  相似文献   

5.
一种鲁棒的子空间聚类算法   总被引:2,自引:1,他引:1  
针对聚类分析常面临的维数灾难和噪声污染问题,将样本加权思想与子空间聚类算法相结合,提出了一种鲁棒的子空间聚类算法.该算法结合现有子空间聚类方法,为每个类簇计算一个反映各维度聚类贡献程度的权矢量,并利用该权矢量对各维度加权组合,得到各类簇所处的子空间.此外,算法还为每个样本分配一个反映离群程度的尺度参数,以区分正常样本和离群点在聚类过程中的地位,保证算法的鲁棒性.在二维数据集、高维数据集以及基因数据集上的对比实验结果表明,对于具有不同噪声比例的各种维度数据集,该算法均能取得较高的聚类精度,表现出较好的鲁棒性.  相似文献   

6.
针对高维数据聚类分析中数据之间具有多种非线性特征关系,导致数据分布不均、传统相似性度量失效及结果类中心难以精准表征等问题,提出了一种基于核主元分析(KPCA)与密度聚类(DBSCAN)的高维非线性特征数据聚类分析技术。首先,为有效提取高维数据的非线性特征,利用KPCA理论将原始数据映射到更高维数据空间,利用主元分析获得数据变化的方向集合,并进行降维分析;然后,通过重新定义数据样本在主元空间的相似性距离对传统DBSCAN聚类方法进行改进,并利用3δ统计理论对各簇中心的进行表征,从而实现高维数据的精确分类与类中心知识表达。以实际高血压患者群体聚类问题为例对方法进行了有效性验证,实验表明,所提方法可以有效获取原始数据的非线性特征,实现患者个体特征群体的有效划分及簇类中心知识的表达,解决传统DBSCAN聚类方法对高维数据不适用的问题。  相似文献   

7.
合成生物学中标准化元件数量多、种类杂,使得构建生物设备时难以选择标准化元件,将这些元件可视化有助于提高生物设备构建效率。考虑生物元件为长度不一的基因短序列,文章通过结合编辑距离与高斯核函数构建生物元件距离矩阵,使用拉普拉斯特征映射方法将生物元件序列降为二维或三维数据;通过图形化展示,功能类似的生物元件可有效地聚类,功能差异大的元件可有效地区分,且对降维后数据聚类显示的二分类精度达到91.6%,三分类精度达到82.4%。实验结果表明,降维后的数据具有良好的区分度,通过降维可视化将显著提高标准化元件的选择效率。  相似文献   

8.
针对KNN算法在处理推荐系统由稀疏性问题所造成的计算复杂度较大以及评分估计值有误差等问题,本文提出了K-Means聚类中心最近邻推荐算法,首先对初始数据集进行聚类运算,然后找出数据集的聚类中心;其次寻找每个用户所属的聚类中心,将聚类中心代替目标用户放入KNN算法中寻找用户的最近邻;最后做出评分预测.同时又考虑到目标用户与聚类中心对预测评分值的影响,在KMeans聚类中心最近邻推荐算法的基础上进行改进,提出了加权的思想.算法在Movielens数据集上进行实验,实验结果表明,推荐算法评分预测的精确度得到显著提高,而且加权之后的改进算法达到了更好的精确度.  相似文献   

9.
提出一种基于子空间距离的局部切空间增量学习方法ISLTSA。首先采用基于划分的简化局部切空间排列算法SLTSA,把初始样本集划分为彼此重叠的多个局部最大线性片;然后引入向量到子空间的距离测度描述新数据点与局部最大线性片的接近程度,并将新数据点归入距离其最近的局部最大线性片中;最后,新数据点的全局低维坐标可由局部线性子空间与全局低维流形的仿射变换计算得出。对多个经典数据集的降维结果表明,ISLTSA算法能够保留数据集的局部几何性质,是一种有效的非线性增量学习方法。  相似文献   

10.
维数灾难是数据挖掘过程中的重要问题.为解决K均值聚类过程中的维数灾难问题,本文以欧式距离作为距离的计算方式,采用主成分(PCA)方法对数据源进行降维,实验获得在不同数据规模、特征下的K均值方法的聚类时间.设置对照组对时间、差异性、迭代次数三个方面进行比较.通过实验总结出,数据源的大小与维数共同影响降维聚类的时间效益:数据数量越大,降维聚类的时间收益越大,数据维数越大,降维聚类的时间收益越小;数据源的线性程度影响降维聚类与非降维聚类结果的差异大小:数据线性程度越高,两次聚类结果差异性越小.反之,差异性越大;K均值算法收敛速度很快,两次聚类都能在Sqrt(Row)次数内完成程序的收敛.  相似文献   

11.
反最近邻查询是在最近邻查询基础上提出的一种新的查询类型,是空间数据库的应用拓展,在不同维数下,根据不同的索引结构,反映出空间对象的反最近邻查询差异性较大,从不同索引结构的特性出发,分析了低维环境下基于R*-树的反最近邻查询优势,提出高维环境下一种新的基于SRdnn-树索引结构的空间对象反最近查询方法,优化了不同维数下空间对象的反最近查询性能,提高了查询效率.  相似文献   

12.
脑力负荷识别对提高作业操作人员工作效率,减少人因事故具有重要意义。然而,由于脑电( electroencephalogram,EEG) 信号的采集是由多通道脑电帽采集的,并且分布在各个频带上,因此经过特征提取得到的特征维度过高,造成后续识别模型复杂度过高。对此,通常使用主成分分析(principal component analysis,PCA)对高维特征向量进行降维处理,但是降维维度的取值很难确定。本文提出了一种基于主成分分析的自适应维度寻优方法,该方法利用实验数据集中高维特征通过分析主成分分析降维后在各个维度的分类精度表现,自适应地找到该实验数据集的最优降维维度,并将该维度应用到同实验的其他实验数据上进行脑力负荷识别。结果表明,该方法可以准确识别出在同实验数据集中通用的最优降维维度,有效提高识别效率。  相似文献   

13.
基于主元分析与支持向量机的人脸识别方法   总被引:27,自引:1,他引:27  
基于支持向量机(SVM)在处理小样本,高维数及泛化性能等强方面的优势,提出了一种基于主元分析(PCA)与SVM的人脸识别方法,利用PCA方法对人脸图像进行特征提取,再利用SVM与最近邻分类器相结合的策略对特征向量进行分类识别,剑桥ORL的人极数据库的仿真结构验证了本算法是有效的。  相似文献   

14.
针对采用物理建模刻画三元催化器故障演化精确性不足问题,提出一种基于尾气大数据的改进测度模糊C均值(FCM,fuzzy c-means),故障诊断方法。该方法包括分数阶傅里叶变换(FRFT,fractional fourier transform)下的故障特征提取与优化、核熵成分分析(KECA,kernel entropy component analysis)下的分形故障特征降维以及改进相似测度下的FCM故障特征聚类。首先,对不同工况的尾气数据进行FRFT处理,获取三元催化器从时域到频域的精细故障信息,同时利用粒子群算法(PSO,paticle swarm optimization)选取最优的FRFT特征,并由分形算子给出相应精细特征的分形维数;其次,借助KECA对候选的高维分形特征进行维数约简;最后,将获得的故障特征提交给改进测度的FCM故障分类器完成故障诊断。数值实验结果表明,较之采用欧式距离或余弦距离的FCM方法,研究方法的故障诊断精确度更高。  相似文献   

15.
针对工业过程中存在的动态特性和多模态特性问题,提出一种动态加权差分主成分分析法 (dynamic weighted differential principal component analysis, DWDPCA)。首先通过设置合理的时间窗描述系统的时序特性;其次对时间窗内的样本寻找第一近邻和第一近邻的近邻集,使用加权差分法对数据进行处理,解决数据中心漂移问题;最后利用处理好的数据建立主成分分析(principal component analysis,PCA)模型进行故障检测。该方法可解决数据动态、中心漂移问题。使用该方法对数值例子和田纳西-伊斯曼TE(tennessee eastman)过程进行故障检测验证所提出方法的有效性。  相似文献   

16.
虽然最邻近决策规则能很好地解决数据集的非线性和非平衡性问题,但其没有学习过程.在此基础上,提出了一种利用聚类方法来浓缩训练样本,再根据最近邻准则进行决策的方法——核最近表面分类方法.通过实验将其与几种常用的统计分类方法进行对比,结果表明,核最近表面分类方法具有决策速度快、存储空间需求小等优点,同时也能够很好地处理非平衡...  相似文献   

17.
为了提高大数据环境下高维非线性数据的处理速度和精确度,提出一种结合主成分分析(PCA)的基于t分布的随机近邻嵌入(t-SNE)算法.首先,通过主成分分析法对原始数据进行预处理,去除噪声点;然后,结合t-SNE算法,构建K最邻近(K-NN)图,以表示高维空间中数据的相似关系;最后,在Spark平台上进行并行化运算,并在BREAST CANCER,MNIST和CIFAR-10数据集上进行实验.结果表明:文中算法完成了高维数据至低维空间的有效映射,提升了算法的效率和精确度,可应用于大规模高维数据的降维.  相似文献   

18.
为迅速、准确、无过多人工干预的进行图像分割,提出了一种K最近邻算聚类方法并将其应用于图像处理。与经典K最近邻算法在样本库中寻找最近邻点不同,该算法在待分割图像的RGB空间中寻找每一个像素点的K个最近邻点,参考所有像素点同最近邻点之间的平均距离,引入聚类阈值并对像素点的归属进行判断。对火焰图像的分割实验结果表明,在分割精度相接近的情况下,该算法的分割速度要快于其它几种常见算法。  相似文献   

19.
针对粮仓害虫种类多、类别之间相似度比较高的特点,提出基于核Fisher判别分析的粮虫特征压缩方法.利用高斯径向基核函数,对特征选择后的10维原始数字特征进行核Fisher判别分析,即通过非线性变换将样本数据从输入空间映射到高维特征空间,然后在高维特征空间进行特征提取.从粮虫分类效果方面,将KFDA法与FDA法、PCA法和KPCA法3种方法进行了比较分析.应用KFDA法提取的前4个特征,由最近邻分类器对粮仓中常见的9类粮虫进行分类,验证集的识别率为93.33%.结果表明:KFDA法对粮虫特征的非线性比较敏感,在有效降低特征维数的同时,还提高了类别之间的可分性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号