共查询到20条相似文献,搜索用时 15 毫秒
1.
针对传统的SMOTE方法在类别区域重合的数据集应用时,可能产生多个更接近多数类的人工样例,甚至突破类别边界,从而影响整体分类性能的情况,提出了一种最近三角区域的SMOTE方法,使合成的人工样例只出现在少数类样例的最近三角区域内部,并且删除掉距离多数类更近的合成样例,从而使生成的样例更接近少数类,且不突破原始的类别边界。实验分别在人工数据集和改进的UCI数据集上进行,并和原始的SMOTE方法分别在G-mean和F-value的评价指标上进行了对比,实验结果验证了改进的SMOTE方法在类别区域有重合的数据集上要优于原始SMOTE方法。 相似文献
2.
针对传统的合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)在类别区域重合的数据集应用时,可能产生多个更接近多数类的人工样例,甚至突破类别边界,从而影响整体分类性能的情况,提出了一种最近三角区域的SMOTE方法,使合成的人工样例只出现在少数类样例的最近三角区域内部,并且删除掉距离多数类更近的合成样例,从而使生成的样例更接近少数类,且不突破原始的类别边界。实验分别在人工数据集和改进的UCI数据集上进行,并和原始的SMOTE方法分别在G-mean和F-value的评价指标上进行了对比。实验结果验证了改进的SMOTE方法在类别区域有重合的数据集上要优于原始SMOTE方法。 相似文献
3.
《广西师范大学学报(自然科学版)》2020,(2)
在处理不平衡数据集时,为了降低类重叠对分类效果的影响,避免过采样造成的过拟合现象,以及欠采样造成的信息丢失问题,本文提出一种基于欠采样与属性选择的多决策树方法UAMDT(multi-decision tree based on under-sampling and attribute selection)。其首先利用Tomek link欠采样与集成欠采样两种技术相结合对数据进行处理,并获得多个平衡子集;然后在每个平衡子集上构建单决策树,采用结合信息增益和基尼指数的混合属性度量作为属性选择标准,选择最优属性作为每棵单决策树的根节点的分裂属性;最后将单决策树进行集成构建多决策树。通过对10个不平衡数据集的多个评估指标进行实验,验证了本文算法的有效性和可行性。 相似文献
4.
针对文本分类存在的高维文本问题,提出文档频率(DF)-卡方统计量特征提取方式,对特征项进行有效约减,降低文本维度,提高分类精度.在K最近邻(KNN)算法的基础上,针对待分类文本需要和大量训练集样本进行相似度计算的问题,提出一种基于分组中心向量的KNN算法,对类别内的样本集分组求出各组中心向量,使其重新代表训练库计算相似度,降低计算复杂度,提升算法的分类性能.通过实验表明:相较传统KNN算法,改进的算法在准确率、召回率及F值方面都有提升,与其他分类算法相比,具有一定的优势. 相似文献
5.
吴昊 《广西大学学报(自然科学版)》2012,37(6)
提出一种最近邻分类的改良模型,综合考虑待分类数据的k近邻、所属的簇和整个训练数据集的类分布,充分利用局部、部分和全局三种类分布信息,从而具有抗噪声的性能.实验表明,提出的最近邻分类改良模型具有较好的抗噪声鲁棒性,而且分类的准确率明显高于传统的kNN分类算法. 相似文献
6.
研究了在最近邻预测中如何选择最近邻的阶数的问题。考虑了两种根据训练样本来确定近邻阶数kn与kn的方法。还证明了使用这些近邻阶数来进行预测可以达到最优预测以及进行了随机模拟计算,计算结果与文中理论相当吻合,并且揭示了最优近邻阶数k0n与样本量n之间关系。 相似文献
7.
《山东科技大学学报(自然科学版)》2015,(3)
两层最近邻(TLNN)分类算法通过在有限训练样本条件下最小化错误率的平均绝对误差,能够产生比k-最近邻(kNN)算法更好的分类结果,但其精度易受噪声影响。针对这个问题,提出一种基于最佳距离度量的两层最近邻分类算法(ODM-TLNN),提高对噪声数据的鲁棒性。算法分为两层,下层使用最佳距离度量来确定一个未标记样本的局部子空间,上层采用AdaBoost在子空间进行信息提取。基于UCI数据集的实验结果表明,该算法能充分降低分类错误率,并且在噪声数据下具有较好的稳定性。 相似文献
8.
变分高斯过程分类器是最近提出的一种较有效的面向大规模数据的快速核分类算法,其在处理类不平衡问题时,对少数类样本的预测精度通常会较低.针对此问题,通过在似然函数中引入指数权重系数和构造包含相同数目正负类样本的诱导子集解决原始算法的分类面向少数类偏移的问题,建立了一种可以有效处理大规模类不平衡问题的改进变分高斯过程分类算法.在10个大规模UCI数据集上的实验结果表明,改进算法在类不平衡问题上的精度较原始算法得到大幅提高. 相似文献
9.
针对传统K最近邻(KNN)分类法执行效率低的问题,提出一种改进的K最近邻分类法。先采用最短距离聚类法分别对训练样本和测试样本进行聚类,生成一些小簇和孤立点,再对小簇或孤立点使用改进的K最近邻方法进行分类。改进后的方法能极大地缩小分类样本的规模,降低计算成本,提高分类效率。 相似文献
10.
随着数据收集、存储和传输技术的快速发展,数据流的挖掘处理技术正在成为机器学习中的一个热点问题。在许多情形下,持续到达的数据之间可能会呈现出不平衡的态势,甚至是动态不平衡,这给许多机器学习算法造成了困难。文中提出面向动态不平衡数据流的集成超限学习机算法,设计了数据流中不平衡率变化的快速监测方法,修正了历史数据不平衡率的计算方式,使其更接近不平衡率的实时变化,并结合超限学习机的特点,将增量学习与集成学习结合。定期剔除权重低的基分类器,利用新到达的数据更新集成中的基分类器和训练新的基分类器。该方法针对动态不平衡数据流设计,具有很好的学习能力,同时也能适用于静态或者平衡的数据流的分类。实验中,将该方法与其他几种常用的方法在一些不同类型的数据流上进行了比较,结果表明,文中方法的分类性能更好。 相似文献
11.
在现实生活中很多应用都包含了对不平衡数据集的分类.由于不平衡数据集中多数类与稀有类的数量相差较大,所以大多数分类算法都不能够很好地对稀有类样本进行分类,而通常稀有类才是我们首要关心的,这就给不平衡数据的分类提出了挑战,为了更好地处理不平衡数据集的分类问题,本文提出了一种以基分类器的ROC曲线下面积(AUC面积)为分类权重的AUCBoost分类算法. 相似文献
12.
以Tr Adaboost算法为基础,提出了一个针对不平衡数据的二分类迁移学习算法Unbalanced Tr Adaboost(UBTA).UBTA算法利用不同类别的Precision-Recall曲线下的面积auprc(the Area Under the Precision-Recall Curve)计算弱分类器权重,对不同类别的样本采取不同的权重更新策略;AUC指标对数据分布变化不敏感,结合G-mean和BER能更准确地评估不平衡分类算法的性能.实验结果表明,UBTA具有较好的分类性能,既能提升对少数类的关注,又能保持多数类的分类准确度. 相似文献
13.
带概念漂移不平衡流数据分类研究是机器学习和现实应用领域的一个难点和热点.针对带概念漂移不平衡流数据的动态性和不平衡性,本文中提出了随机平衡采样算法用于再平衡不平衡数据流.之后,在随机平衡采样算法的基础上提出了一种新的处理带概念漂移的不平衡流数据集成分类算法用于抵抗流数据的概念漂移和不平衡性.理论和实验表明本文中提出的集成分类算法对处理带概念漂移的不平衡流数据较强的多样性和泛化能力. 相似文献
14.
《贵州大学学报(自然科学版)》2017,(6)
不平衡数据广泛存在于现实世界中,严重影响了传统分类器的分类性能。本文提出了随机平衡采样算法(random balance sampling,RBS),并以此为基础提出了随机平衡采样bagging算法(RBSBagging)用于解决不平衡数据集的分类问题。最后,采用6组UCI数据集对提出的分类算法进行验证,结果表明本文提出的RBSBagging算法可以较好地解决不平衡数据集的分类问题。 相似文献
15.
殷士勇 《重庆工商大学学报(自然科学版)》2010,27(5)
近年来,面向不平衡数据集的分类器学习与推广问题越来越受到人们的关注,在此以机器学习数据库、美国邮政编码、2维元音等国际上典型的分类问题为应用背景,重点研究如何用线性分类器解决样本数不平衡的问题;对Fisher、伪逆和单层感知器等3种典型的线性分类器做了深入的研究,并将这3种线性分类方法应用到不平衡数据集的分类中;通过实验及分析,这些新方法对平衡数据集的线性分类起到了良好的分类效果。 相似文献
16.
在数据流分类学习过程中,类不平衡和概念漂移是两大挑战问题.在分析传统特征选择算法和代价敏感学习方法的基础上,将代价敏感学习算法的思想引入特征选择算法中,设计并实现了一种基于代价敏感的Relief F剪枝的数据流分类算法,不仅能删除冗余的特征,而且适应动态变化的数据流环境.与经典的算法进行分析比较,结果表明所提算法可显著提升分类效果. 相似文献
17.
提出一种基于稀疏表示的时间序列最近邻分类模型,旨在通过提取时间序列的关键特征,去除冗余信息,达到减少噪声干扰的目的.该模型首先求解时序数据基于过完备字典的稀疏表示,然后利用非零系数及其对应的原子重构原始序列,最后利用基于距离的分类器进行分类.在18个时间序列公开数据集上的实验结果表明,最近邻分类模型能够提高传统的最近邻分类器的分类准确率. 相似文献
18.
依托欧拉距离,使用杂合距离算法改进Minkowski距离公式,使得最近邻算法能够针对不同实际需要计算两事例距离,适用到属性是混合型的情形,也能避免时序列中出现的错误计算问题。 相似文献
19.
《信阳师范学院学报(自然科学版)》2016,(2):274-278
针对不平衡分类问题,提出了逻辑判别式算法.该算法使用拟牛顿法迭代求解模型参数,考虑模型的准确率和召回率,构造了新损失函数(Likelihood Estimation and Recall Metric,LERM);设计了用于不平衡类问题的逻辑判别式算法(Logistic Discrimination Algorithms for Imbalance,LDAI).16个数据集上的实验结果表明,与传统的逻辑判别式、基于过采样和欠采样的逻辑判别式相比,LDAI模型在召回率、f-measure、g-mean等指标上都表现出明显优势. 相似文献
20.
《阜阳师范学院学报(自然科学版)》2016,(3)
实际数据流中许多数据是无标签的,且其中隐含着不同类型的概念漂移。为此,本文提出了一种面向不完全标记数据流的集成分类算法,该算法利用K均值聚类算法标记无标签实例,利用Hoeffding Bounds不等式确定的双阈值检测概念漂移,同时动态地更新分类模型以适应数据流环境的变化。实验结果表明,本文提出的算法能够在类传播过程中具有较高标记正确率,又能从噪音中识别出不同类型的概念漂移。 相似文献