首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
朴素贝叶斯分类器是当前流行的一种文本分类算法,但是它的属性独立性假设使其无法表达文本词语之间的依赖关系,TAN(Tree Augmented NaIeve Bayes)在许多情况下优于朴素贝叶斯分类器。然而,由于学习TAN所需的空间是数据属性个数的二次项级,限制了TAN对高维数据(如:文本数据)的分类,本文介绍了TAN模型及其一般的构造算法,提出一种新的TAN构造算法ITAN,该算法的空间复杂度是数据属性个数的线性级,最后将该算法用于文本分类,实验比较了朴素贝叶斯分类器和TAN分类器,实验结果表明:该方法具有较好的分类性能。  相似文献   

2.
集成学习是分类多变量时间序列的有效方法.然而集成学习对基分类器性能要求较高,基分类器组合算法优劣对分类效果影响较大.为此,提出一种基于Shapelets的多变量D-S(Dempster/Shafer)证据加权集成分类方法.首先,在单变量时间序列上学习得到基分类器Shapelets,基分类器的分类准确率确定为其在多分类器...  相似文献   

3.
在数据挖掘和机器学习的过程中,分类器的主要任务是提高数据分类的精确度和降低数据分类的费用开销,本文针对传统分类器只考虑了如何提高数据分类的精确度而没有考虑到如何降低数据分类的开销缺陷,提出了一种基于属性开销约束的矩阵属性约简算法,定义了一种新的函数作为属性约简的启发信息,探讨了基于矩阵方法计算等价关系矩阵的增量更新机制.该算法缩短了粗糙集属性约简的计算时间,保证了属性约简的实时性,并通过实例进一步验证了所提出方法的有效性和正确性.  相似文献   

4.
最大相关最小冗余限定性贝叶斯网络分类器学习算法   总被引:2,自引:1,他引:1  
朴素贝叶斯分类器 (naive bayes) 是一种简单而有效的基于贝叶斯思想的分类方法,但它的属性条件独立性假设并不符合实际,影响了它的分类性能。BAN (bayesian network augmented naive bayes) 分类器扩展了朴素贝叶斯分类器,使其表示属性之间依赖关系的能力增强,但是其学习算法需要大量的高维计算,在小采样数据集上,影响BAN分类器的分类性能。基于改进的最大相关最小冗余特征选择技术,提出限定性贝叶斯网络分类器学习算法 (k-BAN)。本算法使用改进的最大相关最小冗余特征选择技术,通过选择属性结点的连接关系集合建立属性之间的依赖性关系。将该分类方法与NB,TAN和BAN分类器进行实验比较。实验结果表明,在小采样数据集上,本算法获得的限定性贝叶斯网络分类器具有更高的分类准确性。  相似文献   

5.
一种改进的朴素贝叶斯分类器在文本分类中的应用研究   总被引:1,自引:0,他引:1  
文本分类是数据挖掘领域中重要的研究分支.通过对自适应遗传算法和朴素贝叶斯分类器的研究,提出一种基于自适应遗传算法的朴素贝叶斯分类算法.将该算法应用于中文文本分类中,可以生成最优贝叶斯分类器及最优属性集合,提高分类精度.  相似文献   

6.
基于最小描述长度和遗传算法的属性选择方法   总被引:1,自引:1,他引:0  
为了提高使用属性选择方法后分类器的分类效果,减少分类器的分类错误率,提出了一种基于最小描述长度和遗传算法结合的属性选择方法GA+MDL算法.通过与weka平台上已经实现的两种属性选择方法GeneticSearch + CfsSubsetEval方法以及BestFirst + CfsSubsetEval方法进行比较,证明该方法能够从一定程度上提高属性选择算法的效果.  相似文献   

7.
为了提高分类的精确度,提出一种基于粗糙集理论的增强学习型分类器。采用分割算法对训练数据集中连续的属性进行离散处理;利用粗糙集理论获取约简集,从中选择一个能提供最高分类精确度的约简。对于不同的测试数据,由于离散属性值的变化,相同的约简可能达不到最高的分类精确度。为克服此问题,改进了Q学习算法,使其全面系统地解决离散化和特征选择问题,因此不同的属性可以学习到最佳的分割值,使相应的约简产生最大分类精确度。实验结果表明.该分类器能达到98%的精确度.与其它分类器相比.表现出较好的性能。  相似文献   

8.
针对朴素贝叶斯分类器忽略属性间依赖关系造成分类准确性降低的问题,提出了基于贪婪选择算法的半朴素贝叶斯分类器分组改进算法.改进过程中依据不同参数的调整和属性选择技术衍生出3种分组方法,获得不同的改进方式,建立了贪婪选择半朴素贝叶斯分类器,实验采用UCI数据库中选取的数据进行分类.结果表明,改进的分类器具有良好的分类准确率.  相似文献   

9.
在文本分类中,当两个多属性类别发生属性重叠时,采用传统的文本分类算法m acro F1值仅为45%左右.为了提高文本分类算法的m acro F1值,提出了基于结果修剪的方法.在该方法中,分类器由多个子分类器组成.每个子分类器对应于类别中的一个属性;在每一个阶段中,每一个子分类器将不属于该属性的文本剔出.当所有子分类器运行结束后,留下的文本即属于该分类的文本.实验数据表明,基于结果修剪的文本分类方法在解决属性重叠问题时能够将m acro F1值提高到65%左右.  相似文献   

10.
朴素贝叶斯分类器是一种简单、高效的分类算法,它以贝叶斯定理和最大后验假设为理论基础,然而朴素贝叶斯分类器属性之间相互独立的假设,影响了朴素贝叶斯分类器的性能.提出先使用基于相关的属性选择算法进行属性选择,然后在选择的属性集上,用朴素贝叶斯分类器对数据集进行分类.实验证明,与未使用属性选择的实验结果相比,使用基于相关的属性选择算法进行属性选择后,朴素贝叶斯分类器平均分类正确率提高,分类效率显著提升.  相似文献   

11.
一种基于粗糙集的朴素贝叶斯分类算法   总被引:3,自引:0,他引:3  
朴素贝叶斯分类器的计算过程只有在完全数据库中才成立,而基于相似关系的粗糙集模型具有处理空值的功能,并且提供了属性离散化和约简技术,可以改善属性间的依赖关系。因此,将两种不同的软计算方法相结合,利用粗糙集合理论先把决策表补齐,再对数据进行约简,然后结合朴素贝叶斯分类器,得出分类结果。实验证明这种方法不仅简化了数据和模型的规模,也具有对不完全数据的分类能力。  相似文献   

12.
主动学习是机器学习领域的重要研究方向.现有主动学习方法通常选择不确定性的或具有代表性的样本供专家打标,然后添加到已标记的数据集中供分类器学习,但没能充分利用数据的分布信息,并且在野点采集问题上有待改进.结合邻域粗糙集理论,提出了一种基于邻域粗糙集的主动学习方法(neighhbor rough set active learn-ing,NRS-AL).实验结果表明,在加州大学数据集(university of CaliforniaIrvine,UCI)上,该算法充分利用了数据的分布信息,同时结合样本的不确定性和代表性计算,处理了野点的选择,是一种能有效解决主动学习样本选择问题的算法,在accuracy,受试者工作特征(receiver operating characteristic curve,ROC)曲线下面的面积(area under curve,AUC)指标上优于文献中的主动学习算法.  相似文献   

13.
洪月华  徐霜  梁家荣 《广西科学》2013,20(2):128-131,136
为了实现对无线传感器网络监测得到的高维冗余且不确定的数据进行分类识别,提出一种由遗传算法和粗糙集进行优化的BP神经网络数据分类器模型,并形成了数据挖掘分类算法。该模型通过粗糙集理论的属性约简算法删除训练样本的冗余属性,利用遗传算法对神经网络的权值和阈值进行优化,并进行神经网络学习。数据挖掘分类算法学习速度快,能够有效提高无线传感器网络中数据的分类效率。  相似文献   

14.
Rough集在乳腺癌辅助诊断中的应用   总被引:1,自引:0,他引:1  
目的研究Rough集在乳腺癌辅助诊断中的应用。方法采用基于Rough集的属性约简算法,利用决策树算法对乳腺癌图像数据进行分类,辅助医疗诊断。结果实现了基于Rough集的属性约简算法,对乳腺癌数据进行处理,获得了分类的实验结果。结论该模型系统达到了较高的分类准确率,证明Rough集在辅助医疗诊断中有着广泛的应用前景。  相似文献   

15.
基于代表的邻域覆盖粗糙集分类算法,在某些数据集上表现良好,数据的类别不平衡问题严重影响算法的分类精度.为尽量消除类别不平衡问题的影响,在k折交叉验证方法的基础上,针对基于代表的邻域覆盖粗糙集分类算法,提出了3种集成策略.策略1依靠k折交叉验证,获得对应的k个基分类器,所有的基分类器组成委员会对未分类样本分类;在策略1的基础上,策略2选择分类精度相对较高的基分类器组成委员会,对未分类的样本进行分类;策略3在前2种策略的基础上,利用主动学习的思想,对训练集进行扩充,得到新的分类器再对未分类样本分类.实验所用数据集为UCI标准数据集,且对k的取值做了对比实验.结果显示,3种策略均有不同程度的提升,且k取5时总能取得较好的提升效果.对于不同数据集,应选择相适应的改进策略.  相似文献   

16.
基于镜像学习和复合二次距离的手写汉字识别   总被引:3,自引:0,他引:3  
为解决手写汉字识别中的相似字混淆问题,提出了一种基于镜像学习和复合二次距离的识别算法,提高现有的二次分类器对相似汉字的鉴别能力。该算法为识别置信度较低的训练样本生成镜像虚拟样本,通过迭代训练来调整易混淆字符类别间的分类界面,并对二次分类器给出的候选字使用复合二次距离进行两两鉴别,以减少识别错误。在HCL 2000样本库上的实验表明,该算法能有效提高手写汉字识别的性能,测试集上的误识率下降了20%。  相似文献   

17.
高金兰 《科学技术与工程》2011,11(23):5564-5568
将思维进化算法、粗糙集和神经网络相结合,提出一种基于MEA的粗糙集神经网络,用于变压器故障诊断。此模型采用思维进化算法全局寻优的特点,搜索粗糙集属性约简离散断点的位置以及神经网络的连接权值和阈值,避免了常规粗糙集属性约简时复杂的手工试凑以及BP神经网络收敛速度慢、精度不高等缺点,有利于更快地收敛于全局最优解,提高系统的诊断速度和准确率。仿真结果表明了方法的有效性。  相似文献   

18.
胡婧  刘伟  马凯 《科学技术与工程》2019,19(33):296-301
为了探讨中文病历文本预处理后高维稀疏性的特点,导致文本分类精度低、算法模型收敛速度慢等性能问题,提出一种基于粗糙集的词袋(BOW)模型结合支持向量机(SVM)的文本分类算法(BOW+SVM)。该算法首先采用BOW模型对特征词提取构建高维度文本空间向量,然后利用粗糙集的属性约简算法对文本特征处理,把模糊的、冗余的属性从决策规则中清除,降低空间向量维数,最后利用所提纯的特征与SVM分类器交叉结合进行文本分类。在Python+TensorFlow环境中设计六种交叉结合的算法仿真对比实验,结果表明:基于BOW+SVM高血压病历文本分类模型精准度可达97%。可见改进后的模型,能够解决样本分部不均,克服高维度稀疏特征空间的问题,有效改善病案管理工作流程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号