首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 359 毫秒
1.
传统的分类器对不均衡数据集的分类严重倾向于多数类。为了有效地提高不均衡数据集中少数类的分类性能,针对此问题提出了一种基于K-means聚类和遗传算法的少数类样本采样方法。通过K-means算法将少数类样本聚类分组,在每个聚类内使用遗传算法获取新样本并进行有效性验证,最后通过使用KNN和SVM分类器,在仿真实验中证明了方法的有效性。  相似文献   

2.
基于K-means聚类和遗传算法的少数类样本采样方法研究   总被引:1,自引:0,他引:1  
传统的分类器对不均衡数据集的分类严重倾向于多数类.为了有效地提高不均衡数据集中少数类的分类性能,针对此问题提出了一种基于K-means聚类和遗传算法的少数类样本采样方法.通过K-means算法将少数类样本聚类分组,在每个聚类内使用遗传算法获取新样本并进行有效性验证,最后通过使用KNN和SVM分类器,在仿真实验中证明了方法的有效性.  相似文献   

3.
利用K均值聚类和增量学习算法扩大训练样本规模,提出一种改进的mRMR SBC.一方面,利用K均值聚类预测测试样本的类标签,将已标记的测试样本添加到训练集中,并在属性选择过程中引入一个调节因子以降低K均值聚类误标记带来的风险.另一方面,从测试样本集中选择有助于提高当前分类器精度的实例,把它加入到训练集中,来增量地修正贝叶斯分类器的参数.实验结果表明,与mRMR SBC相比,所提方法具有较好的分类效果,适于解决高维且含有较少类标签的数据集分类问题.  相似文献   

4.
在属性均值聚类(AMC)与支持向量机(SVM)的基础上,提出了一个新的模式分类算法——基于(属性)聚类的属性支持向量机算法(AMC-ASVM)。主要思想是利用属性均值聚类网络得到的具有概率信息(权重)的样本,来训练属性支持向量机,从而得到分类器。这种方法结合了属性聚类的稳定性与属性支持向量机可以利用加权样本的优点,适合处理具有强噪声的数据。另外,该方法也可以看作是堆近邻分类法的自然推广。在实验部分,将其用于结肠癌基因表达数据的处理。实验结果显示了AMC-ASVM在一定程度上优于最近邻,Boosting,堆近邻,SVM等方法。  相似文献   

5.
在属性均值聚类(AMC)与支持向量机(SVM)的基础上,提出了一个新的模式分类算法——基于(属性)聚类的属性支持向量机算法(AMC-ASVM)。主要思想是利用属性均值聚类网络得到的具有概率信息(权重)的样本,来训练属性支持向量机,从而得到分类器。这种方法结合了属性聚类的稳定性与属性支持向量机可以利用加权样本的优点,适合处理具有强噪声的数据。另外,该方法也可以看作是堆近邻分类法的自然推广。在实验部分,将其用于结肠癌基因表达数据的处理。实验结果显示了AMC-ASVM在一定程度上优于最近邻, Boosting, 堆近邻, SVM等方法。  相似文献   

6.
【目的】针对标准协同训练中视图分割不充分冗余导致两个分类器误差累积加大,且两个分类器对同一个未标记样本分类不一致的问题,提出了结合信息增益率和K-means聚类的协同训练算法。【方法】该算法先根据有标记样本计算出数据中每一个特征的信息增益率,将信息增益率高的特征平均划分到两个视图,再在每次分类过程中应用K-means聚类确定标记不一致样本点的最终类别。【结果】通过在9个UCI数据集上的3组实验表明,与对比算法相比,所提算法中两视图分类器的平均正确率差值降低了2.9%,有效均衡了分类器性能,同时在分类准确率和算法稳定性上也有较大提升。【结论】利用信息增益率将关键特征均衡划分到两个视图,有效解决了视图分割不充分冗余问题;K-means聚类重新分类标记不一致的样本,降低了样本被误分类的概率。  相似文献   

7.
收集大量网站的包含30个特征属性的数据,用k-means属性聚类方法将特征属性划分为不同类别,利用不同类别中的属性数据训练基础分类器,通过集成各基础分类器的结果对未知网站进行预测.采用简单投票和贝叶斯投票对结果进行组合预测,结果表明,k-means属性聚类方法大大增加了基础分类器的差异性,提高了分类检测的精度,其中基于贝叶斯投票策略的集成模型具有很高的检测精度.  相似文献   

8.
目的探索同时确定K-means算法的最佳聚类数K和最佳初始聚类中心的方法,使K-means算法的聚类结果尽可能地收敛于全局最优解或近似全局最优解。方法以次胜者受罚竞争学习(Rival Penalized Competitive Learning,RPCL)作为K-means的预处理步骤,以其学习结果作为K-means的聚类数和初始聚类中心并依据数据集样本自然分布定义样本密度,将此密度引入RPCL的节点权值调整,以此密度RPCL的输出作为K-means的最佳聚类数K和最佳初始聚类中心。采用UCI机器学习数据库数据集以及随机生成的带有噪音点的人工模拟数据集进行实验测试,并用不同的聚类结果评价指标对聚类结果作了分析。结果提出的密度RPCL为K-means提供了最佳的类簇数和最佳的初始聚类中心。结论基于密度RPCL的K-means算法具有很好的聚类效果,对噪音数据有很强的抗干扰性能。  相似文献   

9.
针对贝叶斯网络分类器在处理多属性分类问题时,存在分类精度下降、算法运行时间过长等问题,提出一种判别类条件贝叶斯网络模型。该模型在类条件贝叶斯模型的基础上,将条件对数似然函数以对数形式重新参数化,并使用量子粒子群优化算法最大化目标函数。新模型采用判别参数学习方法,直接计算条件概率,对于分类问题更加高效。本研究将判别类条件贝叶斯网络模型与TAN分类器相结合,使用量子粒子群算法进行优化,用于对液体火箭发动机的故障诊断与分类中。针对某型号火箭的仿真数据进行故障诊断与分类,与传统的贝叶斯分类器相比,改进的分类器在处理分类问题时,准确率和学习效率更高。  相似文献   

10.
[目的]针对协同训练算法在视图分割时未考虑噪声影响和两视图分类器对无标记样本标注不一致问题,提出了基于加权主成分分析和改进密度峰值聚类的协同训练算法.[方法]首先引入加权主成分分析对数据进行预处理,通过寻求初始有标记样本中特征和类标记之间的依赖关系求得各特征加权系数,再对加权变换后的数据进行降维并提取高贡献度特征进行视图分割,这一策略能较好地过滤视图分割时引入的噪声,同时保证数据中的关键特征能均衡划分到两个视图,从而更好地实现两个分类器的协同作用;同时,在密度峰值聚类上提出一种"双拐点"法来自动选择聚类中心,利用改进后的密度峰值聚类来确定标记不一致样本的最终类别,以降低样本被误分类的概率.[结果]与对比算法相比,所提算法在分类准确率和算法稳定性上有较大提升.[结论]通过加权主成分分析能有效地过滤掉视图分割中的噪声特征,同时改进后的密度峰值聚类减少了样本被误标记的概率.  相似文献   

11.
In this paper, an adaptive spatial clustering method is presented for automatic brain MR image segmentation, which is based on a competitive learning algorithm – self-organizing map (SOM). We use a pattern recognition approach in terms of feature generation and classifier design. Firstly, a multi-dimensional feature vector is constructed using local spatial information. Then, an adaptive spatial growing hierarchical SOM (ASGHSOM) is proposed as the classifier, which is an extension of SOM, fusing multi-scale segmentation with the competitive learning clustering algorithm to overcome the problem of overlapping grey-scale intensities on boundary regions. Furthermore, an adaptive spatial distance is integrated with ASGHSOM, in which local spatial information is considered in the clustering process to reduce the noise effect and the classification ambiguity. Our proposed method is validated by extensive experiments using both simulated and real MR data with varying noise level, and is compared with the state-of-the-art algorithms.  相似文献   

12.
一种基于距离的聚类和孤立点检测算法   总被引:2,自引:0,他引:2  
提出了一种基于距离的聚类和孤立点检测算法(DBCOD),根据距离阈值对数据点进行聚类,在聚类过程中记录每个数据点的密度,并根据密度阈值确定数据点是否为孤立点.实验结果表明,该算法不仅能够对数据集进行正确的聚类,可以发现任意形状的聚类,算法执行效率优于DBSCAN,具有对噪音数据、数据输入顺序不敏感等优点,同时还能有效地进行孤立点检测.  相似文献   

13.
为实现双人场景下人体行为的识别,利用调频连续波(frequency modulated continuous wave, FMCW)雷达提出一种基于空间聚类的双人行为识别方法.该方法采用基于密度的DBSCAN(density-based spatial clustering of applications with noise)聚类算法将FMCW雷达采集到的坐标数据聚类成不同的聚类群,使得每一个聚类群对应于单一人体的行为,再对其进行数据处理、特征提取后分别采用机器学习方法分类,实现双人场景下人体行为的识别.文中分析行为特征量、动作关键点以及分类器对识别准确率的影响.实验结果表明,在两人场景中该方法对跌倒、坐下和行走的检测准确率分别可以达到100%、 93.8%和87.3%.  相似文献   

14.
一种基于密度和网格的高效聚类算法   总被引:1,自引:0,他引:1  
聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息.目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大.因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证.实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高.  相似文献   

15.
本文针对数据聚类分析和最优化问题的相似点,用模拟退火算法进行聚类分析。根据数据对象的特征,提出了基于模拟退火的产生函数和迭代方案。通过实例验证,表明该新算法能够有效地解决数据聚类分析问题。  相似文献   

16.
近年来,非负矩阵分解模型已经成为数据挖掘领域中最成功的模型之一。该模型能够自动从一组高维向量中提取隐含模式,从而被广泛应用于降维、无监督学习(图像处理、聚类和双聚类等)和预测当中。本文将从它的发展历史、数学表达形式、算法和热点应用等几个层面对非负矩阵分解模型进行综述。简言之,该模型具有较好的可解释性,模型简单,易于理解操作,可拓展性强,该模型和无监督学习领域中其它被广泛采用的模型关系紧密,且有广泛的应用空间,数值表现优异。同时作为一项新兴技术,该模型亦有许多有趣的问题值得进一步深入研究。  相似文献   

17.
聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息。目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大。因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证。实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高。  相似文献   

18.
基于势能的快速凝聚层次聚类算法使用一种全新的相似性度量准则,可以更高效地得到聚类结果。针对该算法无法有效处理含噪声的复杂流形数据的缺陷,提出噪声环境下复杂流形数据的势能层次聚类算法。通过势能递增曲线识别噪声点,在新定义的势能最大、最小2层数据上进行自动聚类,以确定类簇的大体框架,并在此基础上对整个数据集进行层次聚类。人工数据集上的实验表明,新算法可以有效处理噪声环境下复杂流形数据;真实数据集上的实验表明,新算法具有更优的聚类效果。  相似文献   

19.
核聚类算法及其在模式识别中的应用   总被引:1,自引:2,他引:1  
将核学习方法的思想和可能性聚类算法相结合,提出一种基于核的可能性聚类算法,使其能够对非超球体、含有噪音和孤立点的数据进行有效的聚类。将该方法用于模式识别中,仿真实验表明,基于核的可能性聚类算法比模糊C-均值算法以及可能性聚类算法具有更好的聚类效果,且算法能够很快地收敛。  相似文献   

20.
基于粗集理论的数据离散化技术研究   总被引:3,自引:0,他引:3  
信息系统连续型属性值的离散化对决策规则或决策树的学习具有非常重要的意义。它能够提高系统对样本的聚类能力,增强系统抗数据噪音的能力,减少机器学习算法的时间和空间开销,提高其学习精度。粗集是有效的数据离散化工具。对基于粗集理论的数据离散化方法进行了深入研究,分析其特征,评述其研究进展,并通过仿真实验研究了几种典型的启发式离散化算法的性能。其结果对发展新的离散化技术或为特定应用选择合适算法都有参考价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号