首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 657 毫秒
1.
提出一种基于聚类的启发式选择性集成学习算法.集成学习通过组合多个弱分类器获得比单一分类器更好的学习效果,把多个弱分类器提升为一个强分类器.理论上来说弱分类器的个数越多,组合的模型效果越好,但是随着弱分类器的增多,模型的训练时间和复杂度也随之递增.通过聚类的方法去除相似的弱分类器,一方面有效降低模型的复杂度,另一方面选出差异性较大的弱分类器作为候选集合.之后采用启发式的选择性集成算法,对弱分类器进行有效的组合,从而提升模型的分类性能.同时采用并行的集成策略,提高集成学习选取最优分类器子集效率,可以有效地减少模型的训练时间.实验结果表明,该算法较传统方法在多项指标上都有着一定的提升.  相似文献   

2.
结合优化文档频和变精度粗糙集的特征选择方法   总被引:1,自引:0,他引:1  
在文本分类中,特征空间的维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍的现象.为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,必须使用特征选择算法.首先给出了一个基于最小词频的文档频方法,然后把变精度粗糙集引入进来并提出了一个基于信息熵的属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择算法.该综合算法首先利用基于最小词频的文档频方法进行特征选择,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,该算法比最好的3种经典特征选择方法"互信息"和"统计量"以及文档频都要好.  相似文献   

3.
针对短文本的文本特点,提出一种基于词模型索引的短文本在线过滤方法.采用词模型索引存储已知类别的短文本.在线训练时,把新增加的语料增量更新到索引结构中;在线分类时,通过短文本中的词汇查询索引结构,检索出那些和当前短文本最相关的标注语料,用它们快速训练出的分类模型预测当前短文本.在真实手机短信过滤上的实验结果,说明本方法能够增强训练集的内容内聚性,使模型更加精细;集成多个精细模型的分类结果能够提高过滤性能.  相似文献   

4.
研究了一种基于改进贝叶斯算法的短信分类方法。对中文文本短信,采用文档频度(DF)的特征项提取方法,借助自建短信语料库对改进的贝叶斯分类器进行了实验测试。实验结果表明:改进的分类器可以提高正常短信的通过率,并可以根据新的训练集训练出个性化的分类器,适应短信变化,满足用户的个性化需求,还结合黑白名单过滤机制实现对短信的过滤...  相似文献   

5.
在文本分类中,当两个多属性类别发生属性重叠时,采用传统的文本分类算法m acro F1值仅为45%左右.为了提高文本分类算法的m acro F1值,提出了基于结果修剪的方法.在该方法中,分类器由多个子分类器组成.每个子分类器对应于类别中的一个属性;在每一个阶段中,每一个子分类器将不属于该属性的文本剔出.当所有子分类器运行结束后,留下的文本即属于该分类的文本.实验数据表明,基于结果修剪的文本分类方法在解决属性重叠问题时能够将m acro F1值提高到65%左右.  相似文献   

6.
目前,传统文本分类算法都是脱离自然语言语意的.该文使用信息抽取进行了中文文本分类的研究,提出了补偿式信息抽取的主题文本分类算法(CIETC),通过分类补偿文档属性,达到行业文档分类的目的.实验中,以将关于一个人名的所有网络文档自动分类为例,验证了这种面向行业的CIETC分类器的分类性能.结果表明该方法的分类准确率要优于Bayes方法,与KNN方法相当;该方法是一种可行的面向行业细分文本分类方法.  相似文献   

7.
针对垃圾信息过滤的问题,提出了一种基于支持向量机(SVM)算法的垃圾信息过滤方法. 利用文本分类和信息检索领域所常用的性能评价指标,建立了垃圾信息过滤的评价体系,针对仿真实验获得的实验数据,利用所建立的垃圾信息过滤评价体系对实验数据评价结果,选取了适合的核函数及其参数,构建了SVM分类器,同时也通过仿真实验和评价体系对SVM分类器和传统贝叶斯分类器进行了测试和评估. 结果表明,基于SVM算法的分类器提高了信息过滤的准确性,同时也验证了SVM算法在垃圾信息过滤中的有效性.   相似文献   

8.
集成学习是分类多变量时间序列的有效方法.然而集成学习对基分类器性能要求较高,基分类器组合算法优劣对分类效果影响较大.为此,提出一种基于Shapelets的多变量D-S(Dempster/Shafer)证据加权集成分类方法.首先,在单变量时间序列上学习得到基分类器Shapelets,基分类器的分类准确率确定为其在多分类器...  相似文献   

9.
探讨了如何有效地利用互联网上大规模的图像和文本信息以数据驱动的方式来实现图像的自动标注,并提出了一种基于语义相关区域搜索的图像自动标注框架.该框架首先利用人工建立的视觉和文本知识库Image-Net来训练一组弱分类器;然后将学习好的弱分类器作用于分割后的图像区域块生成Region-level的语义特征表示用以在大规模的图像数据库中进行相关图像区域的搜索,最后从搜索结果的文本描述中通过聚类挖掘的方式产生最终的图像标注结果.对比于image-level的底层特征表示,基于分类学习的区域模块具有更强的语义表达能力和更好的鲁棒性,更容易抓住图像本身包含的多个目标的多重语义;从而使得该框架兼具了大规模数据驱动和传统基于分类算法的优点.大量web图像和公认的测试数据集上进行的实验结果证明了本文提出框架的有效性.  相似文献   

10.
张燕 《河南科学》2018,(1):11-16
针对网络行为数据的不均衡、数量大、更新快的问题,结合均衡化、增量学习、分类器集成思想提出一种用于网络入侵检测的协同增量支持向量机算法,该算法利用多个分类器的协同工作,提高算法速度,每个子分类器依据类样本的空间分布计算类样本错分代价,避免分类超平面偏移,对多个子分类器进行加权集成获得最终分类器,提高最终分类器在不均衡数据集下的分类性能.最后,在KDDCUP1999数据集上的仿真实验结果表明,该算法对整体准确率、少数类及未知攻击都有较高的检测准确率.  相似文献   

11.
基于内容的垃圾邮件过滤本质上是文本分类问题,支持向量机分类器非常适合于垃圾邮件过滤这一二分类问题,但标准的支持向量机是基于分类精度进行优化的,对两类邮件的重要性未以区别,造成了邮件分类时虽然整体精度较高,但对正常邮件的误判率也较高.据此笔者提出了一种基于加权支持向量机的垃圾邮件过滤算法,通过增加两类邮件的类别权重及反映每封邮件重要性的权重,对支持向量机分类器进行训练,在保证分类精度的同时,尽可能地降低对正常邮件的误判率.实验表明该算法取得了很好的过滤效果.  相似文献   

12.
集成学习是提高分类精度的一种有效途径,已在许多领域显示出其优于单个分类器的良好性能。观察学习是一种基于社会学习理论的集成学习方法,以往对其研究集中于同构模式。在此提出了基于异构模式的观察学习策略,通过训练、观察、再训练三个阶段完成学习。在UCI标准数据集上对异构环境下的观察学习算法进行了实验研究。结果表明,该方法优于多数投票法和单个分类算法,其对弱分类器组成的分类器集合尤其有效。从偏差/方差分解的角度对观察学习提高分类性能的原因进行了论证,结果表明,观察学习算法既可以降低偏差,也可以降低方差。  相似文献   

13.
潜在语义索引作为一种公认有效的矩阵降维技术,在关键词检索、文本分类等多种基于统计的机器文本学习任务中被广泛应用.基于专业文献的文本分类任务,结合严格分类体系下同类与不同类文本的特点,以专利文献分类为例,提出了一种基于类别信息优化的潜在语义分析分类技术.该方法根据分类文本各类别的特征信息,将原始文档分解为多种伪文档,强化不同分类的专属特征出现频率,进而优化构建潜在语义空间,提升模型分类性能.实验结果证明,专利文本分类任务结合该方法时,可以有效地提高分类的准确性.  相似文献   

14.
一种改进的BP-Adaboost算法及在雷达多目标分类上的应用   总被引:1,自引:0,他引:1  
基于BP-Adaboost的目标分类算法用于雷达目标分类具有良好的效果.随着训练样本以及测试样本数增加,经典"一对多(One vs.Rest,OvR)"BP-Adaboost算法所需用时也随之增加.提出一种改进的多分类BP-Adaboost算法应用在雷达多目标分类上,在提高分类准确率的同时,有效地解决经典算法在多分类上时间开销过大的问题.该方法采用二进制方法重新表示样本数据类别,使用Adaboost算法将多个BP神经网络弱分类器集成起来学习,通过修改经典算法中的损失函数连续调整训练样本分布和弱分类器的权重,最终形成一个强分类器.对雷达高分辨率距离像(High Resolution Range Profile,HRRP)数据集进行分类仿真结果表明,相比于单个BP神经网络基学习器,所提算法的分类准确率提高了5%~10%,相比于经典的"一对多"BP-Adaboost算法,该算法所需用时仅为传统算法的1/2~1/3.  相似文献   

15.
基于样本的社会关系, 提出一种新的半监督学习方法, 创建一种基于文档?词及社会关系的二部图模型, 并根据标签传播算法将未标注样本加入到分类器的构建中。实验结果表明, 加入社会关系网络的半监督情感分类方法明显优于传统的仅利用评论文本信息的半监督情感分类方法。  相似文献   

16.
针对基于决策树和神经网络的增量学习算法的过量匹配和分类精度有限的缺点,提出了一种基于贝叶斯分类器集成的增量学习方法.综合朴素贝叶斯的增量分类和集成的增量学习方法,采用随机属性选择训练初始SBC(simple Bayesian classifiers),通过判断是否带有类别标签,将增量样本自动分组,并利用遗传算法对结果进行优化.实验结果表明,贝叶斯分类器集成的增量学习方法有效.  相似文献   

17.
基于关联规则的中文文本分类算法的改进   总被引:4,自引:1,他引:4  
随着中文电子刊物和Web文档数量的飞速增加,中文文本自动分类工作变得日益重要.将文档视为事务,将关键词视为项,文本预处理时提出特征权重阈值,用构造的分类器对未知文档分类时,采用了CDD(Class Differen-tiate Degree)改进算法,对基于关联规则挖掘的中文文本自动分类方法进行了改进.实验结果表明,该算法能较快地获得可理解的规则并且具有较好的宏平均和微平均值.  相似文献   

18.
低时空复杂度始终是多类别文本分类算法希望达到的性能。新闻文档集中Token频率分布的研究再次验证了Token频率分布普遍服从幂律。据此设计了一种新的多类别Token频率索引数据结构,并基于该数据结构提出了一种低时空复杂度的多类别文本分类算法。在TanCorp数据集上的实验结果表明该算法在多类别新闻文档分类应用中是时空高效的。  相似文献   

19.
一种基于潜在语义结构的文本分类模型   总被引:19,自引:1,他引:19  
潜在语义索引(LSI)模型能在一定程度上解决一词多义和多词一义问题,并能过滤一部分文档噪音.然而在LSI模型中,一些对分类贡献大的特征,由于其对应的特征值小而被滤掉.针对这一问题,文中提出了一种扩展LSI模型的文本分类模型.该模型在尽量保留文档信息的同时,增加考虑了文档的类别信息,从而能比LSI模型更好地表示原始文档空间中的潜在语义结构.  相似文献   

20.
提出了一种基于自适应游程平滑算法和基于改进的最小张树聚类的文本行分割算法,该算法基于图的集成聚类的框架用以进一步解决文本行分割的问题,该框架可以很容易地推广到对更多的单一算法进行融合.在该融合框架中,由对应于连通部件的顶点以及顶点对之间的边构成文档图,边上的权值由两个单一文本行分割算法的结果决定.于是,文本行分割的任务就转化为如何以最小代价对文档图进行划分的问题.该融合算法在哈尔滨工业大学多人手写数据库上取得了较好的效果,召回率为99.31%,错误率为0.94%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号