首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
目前的高属性维稀疏数据算法大多面向二态数据,而且没有聚类结果的评价方法,给应用带来很大局限.针对这些问题,文中提出了一种基于知识粒度的高属性维聚类算法.首先通过设计面向数据稀疏特征的半模糊聚类算法对数据进行离散化,并基于此给出稀疏相似度和初始等价关系的定义;然后设计可变精度的二次聚类模型对初始聚类结果进行修正,使算法具有较强的抗噪声能力;最后结合应用领域定义一种新的聚类质量评价模型.实验证明,该算法可提供多粒度分析结果,准确度更高,得到的聚类结果能真实反映数据的特征.  相似文献   

2.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。  相似文献   

3.
层次聚类算法是运行复杂度较高的聚类算法,基于不相似性测度的层次聚类算法不适合稀疏高维数据.结合核函数特点,提出了一种基于核函数的层次聚类算法.利用该算法,对稀疏高维数据进行了层次聚类对比,实验结果表明,该算法提高了层次聚类的准确率.  相似文献   

4.
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文提出了一种新颖的词相似度定义,在词相似度的基础上,还首次给出了词集合相似度的定义.基于相似度,提出了一种自下而上的分层聚类算法,这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,因而提高聚类的使用效果.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.  相似文献   

5.
CABOSFV_C是一种针对分类属性高维数据的高效聚类算法,该算法采用集合稀疏差异度进行距离计算,并采用稀疏特征向量实现数据压缩。该算法的聚类效果受集合稀疏差异度上限参数的影响,而该参数的选取没有明确的指导。针对该问题提出基于集合稀疏差异度的启发式分类属性数据层次聚类算法( heuristic hierarchical clustering algorithm of categorical data based on sparse feature dissimilarity,HABOS),该方法从聚结型层次聚类思想的角度出发,在聚类数上限参数的约束下,应用新的内部聚类有效性评价指标( clustering validation index based on sparse feature dissimilarity, CVISFD)进行启发式度量,从而实现对聚类层次的自动选取。 UCI基准数据集的实验结果表明,HABOS有效地提高了聚类准确性和稳定性。  相似文献   

6.
定义了一种新的基于马氏距离的半监督模糊聚类算法,并推导出它的迭代公式.该算法能够提高聚类算法的运行效率.在人工数据集和真实数据集上的实验结果验证了这种方法的有效性.提取了黄瓜叶片7个色调特征,Fisher降维之后进行半监督聚类分析.对于已标识类别属性的叶片,聚类结果与已知属性的一致率达100%,而对于未标识数据,一致率也达到96%以上.  相似文献   

7.
针对高维数据出现的"维灾"、稀疏性问题及各属性维自身具有的特点,采用高斯混合模型定义的相关子空间,给出一种投影聚类分析算法.首先,采用KNN,得到各个数据对象的局部数据集LDS,并引入稀疏因子生成稀疏度矩阵,而后依据高斯混合模型和稀疏度矩阵,识别出相关子空间和不相关子空间;其次,根据相似性度量,剔除稀疏数据和无关属性维...  相似文献   

8.
针对传统的随机森林算法(RF)在对高维特征数据集计算速度慢、聚类效果不佳的缺陷,提出了一种基于高维特征聚类的随机森林算法(HDFC-RF),首先用传统RF方法对初始高维数据集聚类后,使用K均值聚类(KM)和模糊C-均值(FCM)结合,计算样本相似度,并对聚类特征划分族群,最后通过计算DBI指标,并与相关性阈值δ比较和排序,得到最终的高维特征序列。将HDFC-RF算法应用于高维特征数据集Colon Tumor,与传统的RF和FSRF算法比较。实验结果表明,HDFC-RF算法对于高维特征的数据集具有更好的聚类效果、训练速度也更快,具备良好的可行性。  相似文献   

9.
在现有的稀疏子空间聚类算法基础上提出了一个改进的稀疏子空间聚类算法。首先,利用高维数据可以通过同一子空间的低维数据稀疏地表示这一理论,建立一个稀疏最优化模型,获得稀疏矩阵。然后把稀疏矩阵应用到一个正则化谱聚类算法中,从而有效地把数据聚类到子空间中。最后,该算法应用到一个视频序列中,对每个视频帧里的运动物体进行识别,并与现有的子空间聚类算法相比较。实验结果表明,该算法能够有效地识别运动物体,具有良好的实时性和有效性。  相似文献   

10.
用k-means算法对二维数据进行聚类分析,并用C#语言实现了该算法。先按照样本点的距离进行初始划分,然后再按照各样本点和初始中点的距离远近进行聚类。结果表明,k-means算法对二维数据的聚类是有效的,实现该算法的程序对二维数据的聚类具有通用性。  相似文献   

11.
基于数据模式聚类算法的离群点检测   总被引:1,自引:0,他引:1  
针对传统模式挖掘算法在事务包含模式定义上未考虑模式间的包含关系而使聚类结果不够优良的问题, 提出一种新的基于模式聚类的离群点检测算法PCOT, 该算法适合于高维数据空间, 采用一种新的事务包含模式, 通过将模式表示成超图, 用超图分割方法对模式进行聚类. 实验与分析结果表明, 该算法能有效地在高维稀疏空间中发现离群点.  相似文献   

12.
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Movers Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。  相似文献   

13.
一种确定最佳聚类数的新算法   总被引:1,自引:0,他引:1  
针对K-均值聚类算法需要事先确定聚类数K的问题,将粒度计算引入样本相似度函数,定义了新的样本相似度,用模糊等价聚类确定数据集可能的最大类簇数Kmax.以Kmax为搜索上界,利用改进全局K-均值聚类算法,以BWP(Between-Within Proportion)为聚类有效性度量指标,提出确定最佳聚类数的一种新方法.通过UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明该算法不仅能有效确定数据集的最佳聚类数,而且适用于大规模数据集,但是会受到噪音点影响.  相似文献   

14.
覆盖聚类算法   总被引:9,自引:0,他引:9  
首先比较几类主要的聚类算法,给出每类算法的基本概念、原理、每类的代表性算法,及这些算法的主要特征。在此分析基础上,提出一种新的聚类算法———覆盖聚类算法,该算法采用覆盖的概念将比较集中的样本聚合在一起,从而发现隐含在样本集中的类,对于周围稀疏的样本结合最短距离法,获得聚类效果,并用实验数据对分层聚类方法、LBG方法与覆盖聚类算法进行比较,证明了覆盖聚类算法的可行性和有效性。最后给出了算法的研究方向。  相似文献   

15.
Traditional clustering method is easy to slow convergence speed because of high data dimension and setting random initial clustering center. To improve these problems, a novel method combining subtractive clustering with fuzzy C-means (FCM) clustering will be advanced. In the method, the initial cluster number and cluster center can be obtained using subtractive clustering. On this basis, clustering result will be further optimized with FCM. In addition, the data dimension will be reduced through the analytic hierarchy process (AHP) before clustering calculating. In order to verify the effectiveness of fusion algorithm, an example about enterprise credit evaluation will be carried out. The results show that the fusion clustering algorithm is suitable for classifying high-dimension data, and the algorithm also does well in running up processing speed and improving visibility of result. So the method is suitable to promote the use.  相似文献   

16.
谱聚类算法建立在谱图划分理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。然而,谱聚类算法涉及如何选取合适的尺度参数σ构造相似度矩阵的问题。并且,在处理大规模数据集时,聚类的过程需要较大的时间和内存开销。研究从构造相似度矩阵入手,以传统NJW算法为基础,提出一种基于K近邻的自适应谱聚类快速算法FA-SC。该算法能自动确定尺度参数σ;同时,对输入数据集分块处理,并用基于K近邻的稀疏相似度矩阵保存样本信息,减少计算的内存开销,提高了运行速度。通过实验,与传统谱聚类算法比较,FA-SC算法在人工数据集和UCI数据集上能够取得更好的聚类效果。  相似文献   

17.
为了抵御无线传感器网络内部的恶意攻击行为和故障节点的误操作行为对数据融合结果的影响,提出一种基于信任模型的多层不均匀分簇无线传感器网络安全数据融合算法.该算法基于多层不均匀的分簇网络拓扑实现安全数据融合能够有效均衡网络中节点的能耗.通过节点间的通信行为和数据相关性建立信任评估模型,并引入动态的信任整合机制和更新机制,实现簇内和簇间的信任评估,选择可信融合节点并将可信节点所收集的数据进行基于信任值加权的数据融合.仿真实验表明,该算法能够实现精确的信任评估,有效识别内部恶意攻击节点,得到的数据融合结果具有较高的精确度,实现了安全的数据融合.  相似文献   

18.
小世界邻域优化的局部线性嵌入算法   总被引:1,自引:0,他引:1  
通过分析稀疏数据或噪声数据,导出局部线性嵌入(LLE)算法出现失效的原因,由此提出了一种基于小世界邻域优化的局部线性嵌入(SLLE)算法.将复杂网络算法引入到流形学习中,利用小世界算法对LLE算法进行数据优化,并以最短路径和局部集群系数作为局部优化参数,解决了数据点不规则时以欧氏空间作为邻域判别标准在构建局部超平面造成嵌入结果扭曲的难题.通过3组标准测试数据集合比较了SLLE、LLE算法,结果表明SLLE算法的计算效果、鲁棒性、非理想数据的降维结果均优于LLE算法,且计算正确率至少提高10%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号