共查询到20条相似文献,搜索用时 15 毫秒
1.
在数据流分类学习过程中,类不平衡和概念漂移是两大挑战问题.在分析传统特征选择算法和代价敏感学习方法的基础上,将代价敏感学习算法的思想引入特征选择算法中,设计并实现了一种基于代价敏感的Relief F剪枝的数据流分类算法,不仅能删除冗余的特征,而且适应动态变化的数据流环境.与经典的算法进行分析比较,结果表明所提算法可显著提升分类效果. 相似文献
2.
《河南大学学报(自然科学版)》2017,(4)
针对非平衡数据的半监督分类问题,提出了一种基于Biased-SVM的非平衡半监督分类算法.该方法首先利用初始的标记样本集训练处理不平衡数据的Biased-SVM模型,然后用训练好的Biased-SVM模型为未标记样本加上标签,再把新标记样本加入到初始标记样本集中,重新训练Biased-SVM模型,最后在测试集上进行测试.选取公共数据库里的一些数据集进行实验,首先在两类不平衡数据集上实验的结果表明,在标记样本所占比例为20%~80%时,所提方法能够在不降低数据集整体G-mean值的基础上,提高小类的F-value值并具有较高的稳定性;然后在多类不平衡数据集上实验的结果表明,在标记样本所占比例为20%~80%时,所提方法能够在不降低数据集整体的EG-mean值的基础上,提高小类识别率并具有较高的稳定性. 相似文献
3.
基于支持向量机的不平衡数据分类的改进欠采样方法 总被引:3,自引:0,他引:3
支持向量机作为一种有监督分类算法,具有小样本,非线性等独特优势,但其在处理不平衡数据分类时效果不够理想.欠采样是一类常用的数据重构方法,它被广泛用于解决不平衡数据的分类问题,然而,传统的随机欠采样方法受随机性影响,稳定性较差.提出一种改进的欠采样方法,并应用在支持向量机上进行分类对比实验.实验结果表明,相比传统随机欠采样方法,该方法的稳定性更好,且在许多情况下可以提高支持向量机对不平衡数据的分类性能. 相似文献
4.
Piyaphol Phoungphol 《清华大学学报》2012,(6):619-628
Imbalanced data is a common and serious problem in many biomedical classification tasks. It causes a bias on the training of classifiers and results in lower accuracy of minority classes prediction. This problem has attracted a lot of research interests in the past decade. Unfortunately, most research efforts only concentrate on 2-class problems. In this paper, we study a new method of formulating a multiclass Support Vector Machine (SVM) problem for imbalanced biomedical data to improve the classification performance. The proposed method applies cost-sensitive approach and ramp loss function to the Crammer and Singer multiclass SVM formulation. Experimental results on multiple biomedical datasets show that the proposed solution can effectively cure the problem when the datasets are noisy and highly imbalanced. 相似文献
5.
针对kNN分类算法对不平衡数据进行分类可能偏向多数类的问题,提出了象限壳近邻分类算法。该算法仅选择测试样本象限方向上的最近邻的训练样本来判断其所属类别,从而有效地避免了kNN算法对选取k个最近邻训练样本时可能产生偏向多数类的问题。通过在UCI真实不平衡数据集上的实验,该文提出的分类算法在Recall、F-value和G-mean等评价标准明显优于传统的kNN分类算法。 相似文献
6.
7.
为了解决单个SVM可能产生的泛化能力恶化问题以及当SVM采用一对多组合策略解决多类分类时可能产生的误差无界情况,本文采用Bagging方法构造了一个基于SVM的多类分类集成模型,利用MIT KDD 99数据集进行仿真实验,通过实验探讨了其中的两个参数——训练样本数和单分类器个数对集成学习效果的影响,并将其与采用全部样本进行训练及部分样本进行训练的单分类器检测进行了比较。结果表明:集成学习算法能够有效降低采用全部样本进行训练所带来的计算复杂性,提高检测精度,而且也能够避免基于采样学习带来检测的不稳定性和低精度。 相似文献
8.
网页分类需要使用标记网页对分类算法进行训练,然而,对网页进行标记的过程既费时又费力.随着web的快速发展,获得未标记网页已经变得相对容易.为了有效地利用未标记网页来提高网页分类的性能,提出了一种基于集成学习的网页分类算法,迭代运行支持向量机、中心分类器和朴素贝叶斯分类器,并对各分类器的预测进行集成,不断地从未标记集中对网页进行标记后用于训练.实验结果表明.提出的算法有效地提高了网页分类的性能. 相似文献
9.
《西安交通大学学报》2015,(8)
针对传统集成学习方法运用到木马流量检测中存在对训练样本要求较高、分类精度难以提升、泛化能力差等问题,提出了一种木马流量检测集成分类模型。对木马通信和正常通信反映在流量统计特征上的差别进行区分,提取行为统计特征构建训练集。通过引入均值化的方法对旋转森林算法中的主成分变换进行改进,并采用改进后的旋转森林算法对原始训练样本进行旋转处理,选取朴素贝叶斯、C4.5决策树和支持向量机3种差异性较大的分类算法构建基分类器,采用基于实例动态选择的加权投票策略实现集成并产生木马流量检测规则。实验结果表明:该模型充分利用了不同训练集之间的差异性以及异构分类器之间的互补性,在误报率不超过4.21%时检测率达到了96.30%,提高了木马流量检测的准确度和泛化能力。 相似文献
10.
殷士勇 《重庆工商大学学报(自然科学版)》2010,27(5)
近年来,面向不平衡数据集的分类器学习与推广问题越来越受到人们的关注,在此以机器学习数据库、美国邮政编码、2维元音等国际上典型的分类问题为应用背景,重点研究如何用线性分类器解决样本数不平衡的问题;对Fisher、伪逆和单层感知器等3种典型的线性分类器做了深入的研究,并将这3种线性分类方法应用到不平衡数据集的分类中;通过实验及分析,这些新方法对平衡数据集的线性分类起到了良好的分类效果。 相似文献
11.
基于软件测试数据,提出了一种具有变点的非完全排错软件安全性模型,并给出了具有多种错误类型时的软件安全性均值函数模型。 相似文献
12.
非平衡数据分析是数据领域的重要问题之一,其类间分布的巨大差异给聚类方法带来严峻挑战.围绕非平衡数据聚类问题,分析了非平衡数据对模糊聚类方法的影响,提出了基于密度感知的模糊聚类方法.方法将数据分布密度特征嵌入模糊聚类初始化过程中,用于定位初始聚类中心点,避免了少数类中心点位置的消失,在此基础上进一步设计了基于密度的模糊聚类优化更新方法.经数据集分析验证,本研究方法能够有效解决非平衡数据分类中少数类消失问题,并且在聚类算法性能上比传统方法有明显提高. 相似文献
13.
为了检测车辆实时状态和预防交通事故,应采取相应的措施减小交通事故的危害.该文通过物联网与大数据技术,利用Arduino+传感器实现数据整理和采集、MQTT协议+中国移动OneNET云平台消息服务、后端数据处理与感知数据库以及前端实时可视化等技术,对大数据进行数据的清洗及多维度归类,从而达到集预警、报警、分析为一体的服务框架,实现自动预警并发送至用户. 相似文献
14.
具有不平衡类分布的数据集在许多实际应用中是很常见的,但由于类分布不平衡,给那些已有的分类算法带来了很多问题。一种为处理不平衡类问题而开发的基于决策树和人工神经网络的有效组合方法被讨论。它基于数据抽样的方法构建组合分类器,并利用ROC曲线(Receiver Operating Characteristic curve)作为评价挖掘性能的分析工具,最后在PAKDD2007竞赛活动提供的实际数据上进行了有效性验证。 相似文献
15.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出基于局部密度改进的SVM不平衡数据集分类算法.该算法先将多数类划分成多个子类,并依据子类内每个样本的局部密度选出边界区域、靠近边界区域的与少数类数目相等的样本,与少数类完成SVM初始分类;用所得的支持向量机和剩余的多数类样本对初始分类器进行迭代优化.结果表明,与WSVM,ALSMOTE-SVM和基本SVM算法相比,该算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能. 相似文献
16.
针对现有入侵检测系统在处理大量数据时,挖掘速度慢,自适应能力差的缺点,引入了数据挖掘技术使其能从大量数据中发现入侵特征和模式,提出了一种基于数据挖掘技术的入侵检测系统模型,并研究了建模过程中用到的算法. 相似文献
17.
为保证三维体视化图像能较准确地表达组织,以人脑磁共振图像为例,提出了基于小波域隐马尔科夫模型的体数据分类算法,首先采用EM算法进行HMT模型参数估计,然后通过小波分解,得到近似初始分类数和各类在小波空间中的特征量,这在以往体数据分类中需要事先对体数据进行大量的训练才能得到.分类结果采用ICM(iterated conditional mode)方法获得.其结果表明,该方法在运算时间和分类效果上都优于以往的多分辨率分类方法. 相似文献
18.
入侵检测是保障网络安全的一种重要手段。提出了网络安全中基于多传感器数据融合技术的入侵检测模型,并对入侵检测系统的体系结构进行了详细介绍。 相似文献
19.
中医药领域不完整的数据普遍存在,而数据的不完整很大程度地降低分类模型的学习效果。大多数已有的处理不完整数据的分类算法只关注在其学习阶段处理不完整数据,而对于不完整数据出现在分类阶段则不能处理或效果不好。文章提出一种新的分类算法用于处理不完整数据的分类问题。首先给出一个新的用于处理不完整数据的决策树算法,并针对传统的Boosting算法在迭代过程中使用确定性决策方法而没有充分考虑到数据集中的不完整数据,进一步提出改进的Boosting算法,在迭代过程中对每一个假设使用模糊决策方法,权重的更新机制是增加错误分类样本的权重和减少正确分类样本的权重,最终使用加权投票的方式得出最优的分类结果。最后,通过两组实验证明提出的算法策略在处理不完整数据问题时的优越性。 相似文献