首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
为了克服传统的多视角分类器无法充分最小化结构风险的不足,提出了基于权重的多视角全局和局部结构风险最小化分类器。该分类器利用特征和视角的权重,使得分类器更符合数据集的分布,从而提高分类器的性能,更有利于最小化结构风险。在Mfeat、Reuters、Corel3个多视角数据集上的实验表明,通过引入某一数据集中每个样本的视角和特征权重,可以使得该分类器对数据集的分类性能更好。  相似文献   

2.
电信客户流失预测是电信运营商客户关系管理系统的一个重要问题,其目的是预测具有较高流失风险的客户.电信客户流失预测模型的构建过程包括数据预处理、不均衡处理、特征选择和分类器的训练与评估.针对电信数据集中存在的特征维度过高问题,结合过滤式特征选择和嵌入式特征选择方法的优点,提出了一种基于Fisher比率和预测风险准则的分步特征提取方法.结合真实数据集的实验结果表明,该方法能够减少特征维度,提高分类器的预测效果.  相似文献   

3.
近年来,数据流作为一种特殊的数据形态,广泛出现于金融、互联网、科学研究等各个领域,引起了数据挖掘界极大的兴趣。其数据量无穷,数据概念随时间变化,对问题要求快速响应等特点给研究工作带来了极大的挑战。该文聚焦于数据流分类问题,提出了一种基于演变的规则知识库的数据流分类模型:SCBA(streamclass ification based on assoc iation ru les)。该模型随着数据流的到达,从动态维护的规则知识库中挑选适应当前数据概念的规则,构建单个分类器。与目前流行的数据流分类模型相比,SCBA具有如下特点:与层次结构的决策树相比,分类器的更新更为灵活并易于实现;与倾向“平均”的组合分类器相比,单个的分类器有利于规避“小模式问题”,并能加快对数据流概念变化的调整速度和对应用的响应速度。  相似文献   

4.
针对多分类器系统差异性评价中无法直接处理模糊数据的问题,提出了一种采用互补信息熵的分类器集成差异性度量(CIE)方法。首先利用训练数据生成一系列基分类器,并对测试数据进行分类,将分类结果依次组合生成分类数据空间;然后采用模糊关系条件下的互补信息熵度量分类数据空间蕴含的不确定信息量,据此信息量判断基分类器间的差异性;最后以加入基分类器后数据空间差异性增加为选择分类器的基本准则,构建集成分类器系统,用于验证CIE差异性度量与集成分类精度之间的关系。实验结果表明,与Q统计方法相比,利用CIE方法进行分类器集成,平均集成分类精度提高了2.03%,分类器系统集成规模降低约17%,而且提高了集成系统处理多样化数据的能力。  相似文献   

5.
为了充分利用数据信息进而提高分类正确率,提出一种证据神经网络的分类器,并据此构造了多分类器系统。首先将训练数据中的含混数据视为新类别——混合类,将原始的训练数据重组成含有混合类的训练数据,然后使用证据神经网络分类器系统用重组后含混合类的训练数据进行训练,对分类输出进行证据建模,并使用多种不同的证据组合规则实现多分类器融合。采用人工数据集和UCI数据集进行对比实验,结果表明:与其他采用神经网络的多分类器系统相比,采用证据神经网络的多分类器系统能有效提高分类正确率;在数据集Magic 04和Waveform2上,采用提出的多分类器系统比采用投票法的神经网络多分类器系统的分类正确率分别提高了6%和10%左右。  相似文献   

6.
主要介绍了贝叶斯网络分类器中的TAN分类器的模型、构造方法及分类方法.通过对参加2006年6月大学英语四级考试同学的学习情况及考试成绩的问卷调查获得数据,采用Hold-out检测方法,即取出其中2/3的数据集作为训练集,另外1/3数据集作为测试集,构造TAN分类器,检验分类器的分类效果.并通过与朴素贝叶斯分类器分类效果的对比实验,证明TAN分类器是分类效果较好的分类器.  相似文献   

7.
以L1范数为例,设计了一个L1范数的大间隔分类器L1MMC(L1-norm Maximum Margin Classifier),主要特点如下:(1)间隔由L1范数的点到平面距离解析表示;(2)该分类器与SVM一样,通过最大化L1间隔,达到同时最小化经验风险和结构风险的目的;(3)只需要通过线性规划进行求解,避免了SVM的二次规划问题;(4)分类精度达到甚至超过SVM.最后,在人工数据和国际标准UCI数据集上,验证了该方法的有效性.  相似文献   

8.
Tri-training算法是半监督协同算法里的经典算法,该文针对算法中分类器的使用做了一些改进,由原先单一的分类器换成两个不同分类器的组合。使用SVM分类器和最大熵分类器的不同组合作为Tri-training算法里的三个分类器构成分类器模型,然后分别对稀疏型数据、密集型数据与原始Tri-training算法进行实验比较,从而验证改进的有效性。  相似文献   

9.
【目的】机器学习中不同算法适用于具有不同分布特征的数据集。在用整个训练集上训练得到的单个分类器预测新样本类别时,由于缺少对局部区域样本的针对性,可能导致分类器对某一区域数据的预测能力较差而产生错误分类。为了解决这个问题,提出基于k-means+ +的多分类器选择算法。【方法】首先用3种分类综合性能较好的算法———Ada-Boost、SVM、随机森林(RF)在训练集上分别训练得到3个分类器作为候选基分类器,然后利用k-means++算法将训练数据集分为k个簇,用3个候选分类器分别对每个簇进行分类测试,选择对这一簇中数据分类精度最高的分类器作为与它的数据相似数据的分类器。在对新样本进行类别预测时,首先判定样本属于哪个簇,然后用它的分类器进行分类预测。【结果】实验结果表明,新算法在9个UCI数据集上优于单个分类算法。【结论】基于局部区域动态选择最优分类器可以提高模型分类准确性。
  相似文献   

10.
针对贝叶斯分类器分类强关联属性导致分类准确率下降的问题,提一种完全贝叶斯分类器合理利用属性间的依赖关系优化贝叶斯分类器,对参数进行动态调整组合,同时合理剔除无关属性.采用国内外知名数据库提供的数据,通过与其他分类器的对比实验,证明了完全贝叶斯分类器在宏观与微观经济数据分类中都获得了较好的分类效果.  相似文献   

11.
提出了一种基于粗网格与模式搜索相结合的支持向量机分类器模型参数优化方法,采用Jaakkola-Haussler误差上界作为模型选择的评价标准.以黎曼几何为理论依据,提出了一种新的保角变换,对核函数进行数据依赖性改进,进一步提高分类器泛化能力.在研究人工非线性分类问题的基础上,将该方法应用于手写相似汉字识别,实验结果表明分类精度得到了明显提高.  相似文献   

12.
引入图的误分类代价矩阵,选取以最小误分类代价为目标的加权子图作为图样本的特征属性,建立起图的决策树桩分类器,进行集成学习,得到一个对新图进行分类的判别函数.在生成候选子图时,利用子图的超图增益值具有上界的性质来裁剪增益值比较小的候选子图,从而减少候选子图数量,提高算法效率.实验结果表明,所提算法比其他图分类算法的误分类代价更小.  相似文献   

13.
通过提取芯片图像中暗点、边缘、块数、面积和亮点等5种与芯片位置无关而且相互独立、易于提取的图像特征,建立正态分布模型,利用新识别出的损坏或缺陷芯片自动修正模型参数,提高模型的准确度.基于最小风险贝叶斯模式识别构造出各种损坏和缺陷芯片的分类器,对污损、烧蚀、碎裂和电极缺失芯片的正确识别率可以达到90%以上.  相似文献   

14.
电信客户信用风险等级评估是对电信客户的信用风险进行等级分类. 针对建立客户信用风险等级分类模型时,大量带有类标注数据难以获得的问题,提出了基于主动学习的分类器建模方法,并对基于QBC(委员会投票选择)的主动学习算法进行改进以提高分类器的预测精度. 通过对实际电信客户数据进行信用风险等级建模实验,结果表明:应用新算法,分类器使用了较少的带类标签样本数据,达到了与被动学习相同的精度,大大降低了信用专家评估数据的工作量.  相似文献   

15.
彭柏程  张安勤  张挺 《广西科学》2023,30(1):121-131
随着信用卡和个人贷款业务在金融业的快速增长,如何在信息有限的情况下检测潜在违约或坏账业务已经变得极其重要。信用评分领域面临的主要困难是样本不平衡以及分类器性能不佳,为此本研究首先提出了一种基于表格数据的生成对抗网络Tab-GAN,从原始数据中生成足够的违约样本;随后设计了一种基于CNN-LSTM的混合深度学习模型用于特征提取,该模型包含卷积神经网络(Convolutional Neural Networks,CNN)和长短期记忆神经网络(Long Short-Term Memory,LSTM)两个子模型,分别从用户数据中提取静态局部特征和动态时间特征,并加入时空注意力模块对模型的输出进行重要度计算,从而抽取更关键的信息;最后在分类器层面引入焦点损失函数改进轻量级梯度提升机(Light Gradient Boosting Machine,LightGBM)分类器,实现违约风险的概率输出。在两个真实世界数据集中验证风险预测模型,实验结果表明生成对抗网络可以有效解决样本不平衡问题,CNN-LSTM+LightGBM模型在各项分类评价指标上均优于信用评分领域的其他先进算法,证明了该模型在信用评分领域的有效性和可移植性。  相似文献   

16.
在利率具有二阶自回归相依结构的假设下,研究了一类考虑保费、理赔支付时间的离散时间风险模型的破产概率上界的估计,通过鞅方法导出了破产概率的上界,并与经典离散时间风险模型导出的破产概率上界作了比较和随机模拟分析.  相似文献   

17.
一类离散时间风险模型破产概率上界的估计   总被引:1,自引:0,他引:1  
通过鞅方法导出一类利率具有一阶自回归相依结构的离散时间风险模型的破产概率的上界,进一步证明了所导出上界优于经典模型导出的上界,显示了利率对破产概率上界的影响,即利率的存在降低了破产的概率.  相似文献   

18.
利用K均值聚类和增量学习算法扩大训练样本规模,提出一种改进的mRMR SBC.一方面,利用K均值聚类预测测试样本的类标签,将已标记的测试样本添加到训练集中,并在属性选择过程中引入一个调节因子以降低K均值聚类误标记带来的风险.另一方面,从测试样本集中选择有助于提高当前分类器精度的实例,把它加入到训练集中,来增量地修正贝叶斯分类器的参数.实验结果表明,与mRMR SBC相比,所提方法具有较好的分类效果,适于解决高维且含有较少类标签的数据集分类问题.  相似文献   

19.
基于Boosting的支持向量机组合分类器   总被引:3,自引:0,他引:3  
Boosting是一种有效的分类器组合的方法,文章提出用一个改进的Boosting方法对支持向量机分类器进行集成学习,得到Boosting-MultiSVM分类器;试验结果表明,基于Boosting的支持向量机训练是一个收敛过程,相比标准的支持向量机分类器,Boosting-MultiSVM分类器的泛化性能有不同程度的提高。  相似文献   

20.
主要探讨先验概率未知情况下的分类器设计问题。为了解决传统的最小最大分类器性能有限的不足,提出了基于分段线性化的分类器设计方法。方法不仅是最小最大准则的改进,而且也是最优贝叶斯分类器的更好近似。通过说话人识别的应用,验证了所提出算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号