首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 693 毫秒
1.
在聚类算法和特征向量维数确定的模式样本集中,各样本的每一维表示一个对应特征;鉴于此在基于层次算法的基础上,提出了一种基于概率的快速聚类算法;该算法先对各个特征进行分类,然后按照概率准则,每个向量先自成一类,将其对应概率最大的特征向量合并,减少类别数,直至达到要求为止;用UCI中的Iris和Wine数据集对该算法进行仿真实验,实验数据表明:用该算法进行聚类,能获得较好的聚类结果,说明算法具有一定的有效性.  相似文献   

2.
在相似数据聚类过程中,由于数据相似性过高,造成特征冗余干扰,使数据中心很难确定.该文提出了一种基于倾斜概率的有效聚类数学模型,在计算聚类中心的过程中引入倾斜概率计算数据均值.在数据特征存在较大一致性冗余干扰时,计算分配到同一类簇的概率并建立约束,把这种概率约束运用到数据的类间相似性特征聚类中,可以有效地确定相似特征的初始聚类中心.实验证明该文模型能合理地选择出初始聚类中心,改进分类数学模型的分类效果,与k均值聚类模型相比,聚类结果更加紧致,鲁棒性更强.  相似文献   

3.
针对混合属性数据聚类难度高的问题,提出一种基于广义线性模型的混合属性数据聚类方法.首先,构建低阶多元广义线性模型处理海量数据聚类问题,考虑数据属性的时间特性,获取属性时间序列矩阵;然后,基于优化K-prototypes聚类方法处理混合属性数据时,考虑属性的时间序列矩阵;最后,在考虑样本同聚类中心距离基础上兼顾已知样本信息内容,采用优化方法计算数据相异度、样本与聚类集间距离,当聚类结果趋于平稳时终止运算,输出聚类结果.为验证基于广义线性模型的混合属性数据聚类方法的有效性展开实验分析.结果显示,该方法经过较少次迭代即可优化划分混合属性数据聚类集,聚类适应度值为0.88~0.94,适应度优,可准确体现样本间差异,是一种准确度高的混合属性数据聚类方法.  相似文献   

4.
在分析Chameleon聚类算法的基础上,提出了一种基于动态近邻选择模型的Chameleon算法(DNMC).新的算法考虑了回溯机制,有利于合并之后的分解.在标准数据集Wine和Iris上的实验表明,DNMC算法的fa指标优于M-Chameleon算法.通过计算各个属性的差异度,显示出一些属性的存在对于聚类结果影响很小,删除这些属性列可以降低时间复杂度.  相似文献   

5.
针对谱聚类算法在处理较大规模的样本时,在存储空间和计算时间上都存在瓶颈问题,文章分析了目前常见的两种解决方式,即基于稀疏化t近邻的谱聚类和基于Nystr9m矩阵低秩逼近的谱聚类方法.为了进一步提高这两种谱聚类算法的准确度,提出了采取基于信息熵属性赋权的欧式距离来计算样本间的相似度的方法.首先,计算样本各属性的权重;然后,计算样本间的相似度矩阵并应用到稀疏化t近邻的谱聚类和Nystr9m矩阵低秩逼近的谱聚类方法中;最后,在多个数据集上进行了验证.实验结果表明该方法在一些数据集上的聚类精确度要比原来谱聚类算法高,尤其在Pendigits数据集上,基于信息熵赋权的稀疏化t近邻谱聚类比稀疏化t近邻谱聚类方法精确度提高15.11%.  相似文献   

6.
文章提出基于语义相似度的Web文档聚类算法--WDCSS算法,依据文档关键词之间的相似度生成最小树,通过概率统计来确定最小树中相似度阚值,并对最小树中进行切割,同时对较小的子类进行划分合并.实验表明,WECSS不仅能为具有各种不同聚类形状的数据集准确地分析出数据中存在的合理聚类和例外样本,而且避免了用户参数选择所造成聚类质最降低问题.  相似文献   

7.
面向通用数据资源,研究聚类数据可视化方法与技术,旨在探索有效的数据处理方法,满足信息领域对高维数据处理的要求。通过对高维数据进行降维处理和可视化映射实现,建立K均值算法的聚类数据挖掘可视化系统模型,实现中间聚簇结果、聚类中心、收敛准则函数值三类要素的可视化。利用加利福利亚大学欧文分校(UCI)数据库中的Iris数据集、Wine数据集、Seeds数据集对可视化系统模型方法进行测试。结果表明,该模型实现了对数据集的有效聚类,能够将中间聚类、聚类中心、收敛准则函数值进行实时有效的可视化表达,达到了预期效果。  相似文献   

8.
苟和平 《科学技术与工程》2013,13(16):4720-4723
针对KNN算法在分类时的样本相似度计算开销大,在处理不均衡数据集时少数类分类误差大的问题,提出一种在不均衡数据集下基于密度的训练样本裁剪算法。对训练样本的各个样本类进行聚类,删除噪声数据并计算每个样本类的平均相似度和样本平均密度,以此获得样本类裁剪的相似度阈值,然后将样本类内相似度小于类相似度阈值的样本进行合并,减少训练样本总数。实验表明,此样本裁剪算法能够在保持KNN算法分类性能基本稳定的前提下,有效地减少分类计算开销,并能在一定程度上提高少数类的分类性能。  相似文献   

9.
将三支聚类思想和聚类集成思想相结合,提出一种基于样本相似度的三支聚类算法.首先,通过随机选择样本部分特征的方法生成一组基聚类成员,以此构造样本相似度,并在此基础上定义划分有效性指标,用以自动计算最优阈值;其次,使用投票法对基聚类成员集成得到初步的聚类结果;最后,利用最优阈值对聚类结果划分,得到每个类的核心域集合和边界域集合.UCI(University of California Irvine)数据集上的实验结果证明了所提出方法的有效性.  相似文献   

10.
一种确定最佳聚类数的新算法   总被引:1,自引:0,他引:1  
针对K-均值聚类算法需要事先确定聚类数K的问题,将粒度计算引入样本相似度函数,定义了新的样本相似度,用模糊等价聚类确定数据集可能的最大类簇数Kmax.以Kmax为搜索上界,利用改进全局K-均值聚类算法,以BWP(Between-Within Proportion)为聚类有效性度量指标,提出确定最佳聚类数的一种新方法.通过UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明该算法不仅能有效确定数据集的最佳聚类数,而且适用于大规模数据集,但是会受到噪音点影响.  相似文献   

11.
混合属性数据聚类融合算法   总被引:5,自引:0,他引:5  
混合属性数据集是现实世界特别是商业金融数据库中最普遍的数据集类型,但适用于这类数据集的聚类算法极少。该文根据聚类融合的方法体系,针对混合属性数据集的特点,提出了基于聚类融合的混合属性特征聚类算法(CEM C),建立了算法框架,列出了算法目标函数和算法主要步骤,并分析了算法复杂度。该算法可以有效处理混合属性海量数据集。用真实数据集验证了算法,并将此算法应用于实际的客户关系管理数据分析中,得到了较好效果。  相似文献   

12.
针对大部分现有视频人脸识别方法通常仅利用代表性范例或图像集而较少研究有效融合的问题,提出了一种基于聚类中心特征相似性融合方法。首先,使用局部线性嵌入从原始数据空间学习低维嵌入,并利用STHAC算法将投影划分为LLE特征空间聚类;然后,从基于局部外观的聚类中得到特征相似性,在贝叶斯最大后验概率分类框架中对范例点和聚类子空间进行相关相似性匹配;最后,借助于范例重要性概率完成人脸的识别。在视频人脸数据集CMU Mobo、Honda/UCSD和ChokePoint上的实验验证了所提方法的有效性,实验结果表明,相比几种传统的方法,所提方法取得了较高的识别精度和较低的计算复杂度。  相似文献   

13.
针对距离判别法在处理复杂数据时的不足,提出了一种新的判别方法.该方法通过对各个总体的特征识别,确定其特征个数,并结合动态聚类的方法确定各个总体的特征点.然后采用近邻原则建立判别模型,对样品的属类做出判别.实例表明,该方法的判别效果良好.  相似文献   

14.
针对传统SVR(Support Vector Regression)及其相关改进模型在不同时间阶段的能源消耗样本数据具有差异较大的不同函数规律或分布特征的条件下,难以进行合理预测这一问题,提出了基于优化AP(Affinity Propagation)聚类算法的AP-SVR模型。首先,在滚动预测的算法框架下建立了运用能源消耗累积规律进行预测的模型,并对AP聚类算法进行了优化;其次,结合优化AP聚类算法构建了最优化训练集,并运用SVR得到预测结果。算例分析表明,AP-SVR模型可有效识别样本训练集中能耗数据累积规律的差异,将聚类为同一类别数据作为训练集的条件下,SVR的拟合精度得到明显提升。通过多种模型计算效果的比较发现,剔除不同类型数据后的训练集明显更加适合于SVR模型的预测,在降低预测误差和改善预测结果可信度等方面优化了模型预测效果。  相似文献   

15.
用聚类支持向量机模型监测环保设备运行状态   总被引:2,自引:0,他引:2  
针对环保设备多状态监测与识别问题,提出了一种基于多分类聚类支持向量机的分类算法模型.该算法模型充分利用多个相关联被监测设备及其状态属性特征,采用神经网络聚类分析获得关联特征的聚类子空间,再对聚类子空间构造二叉树支持向量机进行多分类识别.该算法模型避免了盲目分类,与单纯的支持向量机算法比较具有更好的分类性能.通过对日本大晃船用污水处理装置实测样本的训练、检验表明,该算法具有98%以上的分类识别率.  相似文献   

16.
针对入侵检测中少数类异常数据的检测精度较低的问题,提出基于支持向量聚类的不平衡数据无监督检测算法.方法采用支持向量聚类对所有未知样本进行聚类,根据不同类别样本内在属性的差异,用改进的重抽样方法选择样本,平衡数据集的分布,对新的数据集进行学习.经过KDD99的测试表明,该方法能有效检测出少数类样本.  相似文献   

17.
针对微阵列芯片数据采集量大、 获取成本高的问题, 提出一种新的基于灰值区间的微阵列模拟数据生成算法. 该算法通过灰值度量的方式模拟微阵列数据中基因的差异表达属性, 结合聚类分析方法创建聚类隧道, 进而产生与原始数据具有相似数理分布及生物学意义的模拟数据. 采用模拟数据和真实生物数据对算法进行实验验 证与分析, 实验结果表明, 基于灰值区间理念与聚类隧道产生机制生成的模拟数据是有效且可靠的.  相似文献   

18.
为有效地分类出多个热门主题兴趣的作者群体,提出了一种基于综合特征和最大二元组的文本分类框架,该分类框架针对DBLP数据集.分类框架的核心是构建双边图和对标题进行准确分类.第一阶段从DBLP数据集中提取标题,为保证提取的标题和主题的正确映射,采用综合特征进行分类,即辨识特征和语义特征的结合;第二阶段构建双边图,生成多个"主题—作者"的最大二元组聚类,获得作者集合.与其他类似方法相比,本文的分类框架在准确率、召回率和F1测度方面具有更好的优势,能以较高精度识别出相似热门主题的最大聚类.  相似文献   

19.
针对现有入侵检测系统在模式建立与匹配方法中存在的不足,改进了一种入侵检测系统的模式建立与匹配方法.根据数据样本的数据属性特征,采用双层次聚类方法对数据样本进行分析,建立基于行为索引的系统安全模式,避免对数据属性进行分析时,造成数据关键信息的丢失,降低入侵检测系统的误报率和漏报率.  相似文献   

20.
为提高风险预测系统的易用性和可解释性,提出基于自组织映射网络(SOM)改进的即时学习(JITL)风险预测框架。首先,应用SOM对数据样本进行聚类,并对聚类特征进行解释。进而,通过基于聚类结果的样本选择算法构建待测数据的相似样本集,在线上调用作为基学习器的支持向量机(SVM)进行建模并输出风险预测结果。最后,采用一个交通事故数据集对风险模型的性能进行测试,检验其精度、易用性和可解释性。结果表明:采用SOM-JITL策略的SVM模型,受试者工作状况曲线面积指标达到0.720,相比不使用该策略的传统SVM模型提高17.5%,精度较高;SOM-JITL模型构建所需参数调节工作少,具有较好的易用性;此外,SOM聚类结果准确识别出处于交通拥堵等高风险场景,与现实场景一致,具有可解释性。综上,SOM-JITL策略能有效提高基学习器的性能,达到精度、可解释性和易用性的平衡,有助于以低成本大规模推广风险预测系统。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号