首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
针对大数据分类中的不平衡问题,本文提出一种基于边界条件生成式对抗网络(Boundary Conditional Gener-ative Adversarial Networks,BCGAN)的不平衡大数据模糊分类算法,通过在多数类数据和少数类数据的决策边界附近引入一个边界少数类到过样本,生成更合适的少数类数据来提高分类...  相似文献   

2.
一种不平衡数据的分类方法   总被引:1,自引:0,他引:1  
针对一个球的模式分类(SSPC)方法没有考虑样本分布不平衡的问题,提出一种不平衡数据的分类方法.该方法引入类权重因子和样本权重因子,通过一个超球面将两类数据以最大分离比率分离,从而提高不平衡数据对正类分类和预测的性能.实验结果表明,该方法可以有效提高不平衡数据的分类性能.  相似文献   

3.
关系朴素贝叶斯分类算法对于目标关系表和背景关系表中不同的记录关联方式采用不同的策略,灵活运用连接和元组ID传播技术,高效地实现了将背景关系表中的信息加入到目标关系表中一起考虑来进行分类,提高了分类正确率。该算法采用关系数据库的数据表示方式,解决了传统的朴素贝叶斯算法不能支持关系数据库的问题。  相似文献   

4.
针对目前不平衡大数据分类算法分类效果较差的问题,提出基于随机森林模型的不平衡大数据分类算法。首先采用SVM(Support Vector Machine)支持向量机算法对不平衡大数据进行信息过滤,然后利用反k近邻法检测并消除离群点,通过增量主成分分析法去掉不平衡大数据中协方差矩阵存在的奇异性,并依据熵值法对其展开权重解析,进而提取不平衡大数据特征信息。将CART(Classification and Regression Trees)决策树当作不平衡大数据的基分类器,进而构建随机森林决策树分类器,最后将提取的不平衡大数据特征信息输入分类器中,实现不平衡大数据分类。实验结果表明,该算法对不平衡大数据的采样效果较好,并且分类精准度、稳定性和性能都较高。  相似文献   

5.
不平衡数据的分类是机器学习的热点问题.传统的分类方法在分类时会倾向于多数类而使得分类精度不高.对不平衡数据集的分类,提出一种基于FCM结合KFDA方法,首先采用FCM算法对样本数据进行聚类,将数据聚类后的样本数据映射到特征空间里,再采用KFDA算法对数据进行分类,可以克服不平衡数据对分类性能的影响.对UCI数据集进行仿真实验,结果表明FCM-KFDA算法可以有效地提高数据识别率.  相似文献   

6.
针对基于内容的文本分类问题,提出了一种Agent与朴素贝叶斯分类(Naive Bayes)相融合的反馈分类模型和算法(Agent-NB).朴素贝叶斯分类是一种简单而有效的文本分类方法,然而有限大小的训练样本集,一般不具备良好的数据完备性,难以一次性构造出高性能的分类模型.基于Agent-NB的反馈分类模型,可结合Age...  相似文献   

7.
在不平衡数据集中,多数类不一定是最优的,这一问题将会影响决策树的生成效果和分类预测的准确性,提出类置信度比例决策树算法,这种算法对类的大小不敏感.通过实验验证,这种算法比传统的决策树算法更具有优越性.  相似文献   

8.
针对kNN分类算法对不平衡数据进行分类可能偏向多数类的问题,提出了象限壳近邻分类算法。该算法仅选择测试样本象限方向上的最近邻的训练样本来判断其所属类别,从而有效地避免了kNN算法对选取k个最近邻训练样本时可能产生偏向多数类的问题。通过在UCI真实不平衡数据集上的实验,该文提出的分类算法在Recall、F-value和G-mean等评价标准明显优于传统的kNN分类算法。  相似文献   

9.
空间分类既要考虑待分类对象的非空间属性,还要考虑其空间邻接对象非空间属性对分类的影响.提出一种基于多关系的朴素贝叶斯空间分类算法,算法将多关系分类方法用于空间分类,考虑了不同近邻对象的非空间属性对分类产生的影响,其分类准确率高于单关系朴素贝叶斯空间分类算法.算法可以用于空间数据库中的大数据集,不需要复杂的数据预处理.  相似文献   

10.
提出一种改进随机子空间与C4.5决策树算法相结合的分类算法.以C4.5算法构建决策树作为集成学习的基分类器,每次迭代初始,将SMOTE采样技术与随机子空间方法相结合,生成在特征空间和数据分布上差异明显的合成样例,为基分类器提供多样化的平衡训练数据集,采用绝大多数投票方法进行最终决策的融合输出.实验结果表明,该方法对少数类和多数类均具有较高的识别率.  相似文献   

11.
Nowadays aviation accidents have become one of the major causes of severe injuries and fatalities around the world. This attracts the research community to look into aviation safety by applying data analysis techniques based on an advanced machine learning algorithm. An ensemble classification model based on Aviation Safety Reporting System(ASRS) has been proposed to analyze aviation safety targeting the people injured in the system.The ensemble classification model shall contain two modules: the data-driven module consisting of data cleaning, feature selection,and imbalanced data division and reorganization, and the modeldriven module stacked by Random Forest(RF), XGBoost(XGB),and Light Gradient Boosting Machine(LGBM) separately. The results indicate that the ensemble model could solve the data imbalance while vastly improving accuracy. LGBM illustrates higher accuracy and faster run in the analysis of a single model of the ASRS-based imbalanced data, while the ensemble model has the best performance in classification at the same time. The ensemble model proposed for imbalanced data classification can provide a certain reference for similar data processing while improving the safety of civil aviation.  相似文献   

12.
在数据流分类学习过程中,类不平衡和概念漂移是两大挑战问题.在分析传统特征选择算法和代价敏感学习方法的基础上,将代价敏感学习算法的思想引入特征选择算法中,设计并实现了一种基于代价敏感的Relief F剪枝的数据流分类算法,不仅能删除冗余的特征,而且适应动态变化的数据流环境.与经典的算法进行分析比较,结果表明所提算法可显著提升分类效果.  相似文献   

13.
黄富幸  韩文花 《科学技术与工程》2023,23(27):11698-11705
针对传统分类模型在实际应用中对提取到的不平衡数据特征进行分类时分类结果精度低的问题,提出使用蜉蝣算法(Mayfly Algorithm, MA)优化的BP神经网络分类模型。同时为了提升算法前期全局搜索能力和后期局部搜索能力,引入阻尼比系数和非线性惯性权重因子,构建出改进蜉蝣算法(Improved Mayfly Algorithm, IMA)优化的BP神经网络(IMA-BP)分类器。根据该分类器分类具有随机的特点,引入集成学习中的投票(Voting)机制,将IMA-BP作为弱分类器,将各弱分类器的分类结果通过软投票方法融合,构成了一个Voting机制的IMA-BP分类模型。为验证分类模型的性能,使用UCI 数据库中的数据集将该模型与其他的模型进行比较,结果表明Voting机制的IMA-BP分类模型对4个数据集的分类准确率分别为88.67%、96.67%、91.25%、93.52%,都要高于其他模型,说明该分类模型具有较好准确性和可行性,对一些分类任务具有较强的指导作用和应用价值。  相似文献   

14.
随着数据存储规模的海量增长,降低存储系统的总拥有成本,提高数据访问效率是海量数据分级存储系统的关键.在分析了两种典型的数据分级算法后,结合两种算法的优点对算法进行了改良,提出了基于数据访问频率和数据设备依赖度的自动分级算法,实验结果验证了算法的有效性和数据分级算法具有较高的准确率.  相似文献   

15.
朴素贝叶斯分类在数据挖掘中的应用   总被引:1,自引:0,他引:1  
数据库信息分类中,朴素贝叶斯分类模型是一种简单有效的分类方法,它理论基础好,分类精度高.本文运用朴素贝叶斯分类的方法,对所给数据进行分类和预测,通过一个实例给出了该算法对于预测数据进行分类的详细过程.  相似文献   

16.
朴素贝叶斯分类算法以其简单、高效等优点一直是分类算法的研究热点之一。但是它的条件独立性假设不能很好的表现多数现实应用中变量之间存在的依赖关系,从而影响它的分类效果。针对这一问题,提出了一种改进算法,该算法通过基于协方差和卡方拟合统计量的思想来确定权重系数。实验结果表明,与朴素贝叶斯算法相比,对于分类正确率有一定的提高。  相似文献   

17.
针对传统的SMOTE方法在类别区域重合的数据集应用时,可能产生多个更接近多数类的人工样例,甚至突破类别边界,从而影响整体分类性能的情况,提出了一种最近三角区域的SMOTE方法,使合成的人工样例只出现在少数类样例的最近三角区域内部,并且删除掉距离多数类更近的合成样例,从而使生成的样例更接近少数类,且不突破原始的类别边界。实验分别在人工数据集和改进的UCI数据集上进行,并和原始的SMOTE方法分别在G-mean和F-value的评价指标上进行了对比,实验结果验证了改进的SMOTE方法在类别区域有重合的数据集上要优于原始SMOTE方法。  相似文献   

18.
在大数据环境下,由于隐私保护、数据丢失等原因,数据普遍存在不确定性;数据流系统中数据不断地到达系统,只扫描一遍且不能一次性全部获得;所以要构建一个增量分类模型来处理不确定数据流分类.本文基于VFDT算法提出了WBVFDTu算法,该算法在学习和分类阶段都可快速而有效地分析不确定信息.在学习期间,采用Hoeffding分解定理构造决策树模型;在分类期间,在决策树的叶子节点利用加权贝叶斯分类算法提高模型的分类准确率和算法的执行效率.最终证明该算法能够非常快速地学习不确定数据流,提高分类的准确率.  相似文献   

19.
数据挖掘分类算法研究综述   总被引:1,自引:0,他引:1  
随着数据库应用的不断深化,数据库的规模急剧膨胀,数据挖掘已成为当今研究的热点;特别是其中的分类问题,由于其使用的广泛性,现已引起了越来越多的关注。对数据挖掘分类问题的研究现状进行了综述:首先对研究比较多的基于判定树的归纳分类、基于人工神经网络的分类和基于统计的贝叶斯分类作了详细的讨论;然后对目前新提出的几种算法作了简要分析;最后根据数据挖掘的发展现状和研究重点对数据挖掘分类算法的发展趋势作了展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号