首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
基于k-近邻方法的渐进式中文文本分类技术   总被引:3,自引:0,他引:3  
针对k-近邻方法分类准确率较高、但分类效率较低的特性,提出了一种基于k近邻方法的渐进式中文文本分类技术,利用文本的标题、摘要、关键词、重点段落进行渐进式的分类处理.这样,不用分析全文就能将部分待分类文本成功分类,从而提高了文本分类的效率.实验结果表明,该方法在保证分类准确率的基础上能够有效地提高分类效率.  相似文献   

2.
在指纹数据库规模不断增大的情况下,指纹分类对于提高指纹识别的速度和准确率十分重要.本文提出一种利用指纹纹理信息的方法将指纹分为五大类.该方法利用指纹的中心点将指纹模式区分为四个部分并求取每一部分的局部二值模式方差,然后利用K近邻分类器进行分类.实验证明该方法具有良好的分类性能.  相似文献   

3.
文中针对当下愈发泛滥的垃圾邮件,分别使用朴素贝叶斯分类和支持向量机分类法对当前日益泛滥的垃圾邮件进行识别、分类,将"词频-筛"混合特征选择方法应用于分类器模型中,以提高分类器的识别性能.同时,通过考虑更全面的分类概率情况,改进朴素贝叶斯分类模型,进一步提升朴素贝叶斯分类器的识别性能.最后通过实验得到了该垃圾邮件识别系统的准确率、召回率和F1值等分类识别性能指标.实验结果表明,"词频-筛"混合特征选择方法能有效提高垃圾邮件分类器的识别性能,而且使用成本敏感方法的分类输出调节模块也能大大降低分类器将正常邮件误判为垃圾邮件的概率,因此,文中设计的垃圾邮件识别系统具有较强的实用性,可以在实际工作、生活中使用.  相似文献   

4.
针对贝叶斯分类器分类强关联属性导致分类准确率下降的问题,提一种完全贝叶斯分类器合理利用属性间的依赖关系优化贝叶斯分类器,对参数进行动态调整组合,同时合理剔除无关属性.采用国内外知名数据库提供的数据,通过与其他分类器的对比实验,证明了完全贝叶斯分类器在宏观与微观经济数据分类中都获得了较好的分类效果.  相似文献   

5.
改进贝叶斯分类算法在DDoS攻击检测系统中的研究   总被引:1,自引:0,他引:1  
本文在朴素贝叶斯分类算法的基础上,提出了一种利用未标记数据提高贝叶斯分类器性能的方法。该方法从被监控网络采集的数据中提取网络流量特征设计检测系统,较好的解决了网络流量分析中数值属性特征的分类问题。实验表明,该方法能够提高攻击检测系统准确率和效率。  相似文献   

6.
针对朴素贝叶斯分类器忽略属性间依赖关系造成分类准确性降低的问题,提出了基于贪婪选择算法的半朴素贝叶斯分类器分组改进算法.改进过程中依据不同参数的调整和属性选择技术衍生出3种分组方法,获得不同的改进方式,建立了贪婪选择半朴素贝叶斯分类器,实验采用UCI数据库中选取的数据进行分类.结果表明,改进的分类器具有良好的分类准确率.  相似文献   

7.
为解决数据流分类中概念漂移和噪声问题,提出一种基于互近邻的多源迁移学习方法。该方法存储多源领域上训练得到的分类器,求出目标领域数据块中每个样本的互近邻样本集合,然后计算源领域分类器对目标领域数据块中每个样本的互近邻样本集合的局部分类精度,最后将局部分类精度最高的源领域分类器和目标领域分类器进行加权集成,从而将多个源领域的知识迁移到目标领域。在仿真数据集上的实验结果表明,该方法能够有效避免伪近邻现象,与基于K-近邻的多源在线迁移学习方法相比,具有更好的分类准确率和抗噪稳定性。  相似文献   

8.
基于一类SVM的贝叶斯分类算法   总被引:1,自引:0,他引:1  
提出一种基于一类支持向量机(one-class SVM)的贝叶斯分类算法,该算法用一类SVM对类条件概率密度进行估计以构造贝叶斯分类器. 证明采用高斯核的一类SVM,其解可以归一化为密度函数,并把该密度函数看作类条件概率密度的平滑估计,构造贝叶斯分类器. 实际数据集上的实验结果表明,提出的分类算法测试准确率高于简单贝叶斯分类器与贝叶斯网络分类器,不低于传统二类SVM;比传统二类SVM需要计算的核矩阵规模更小,训练时间更短.  相似文献   

9.
本文提出了一种基于主机行为模式的流分类方法,该方法以朴素贝叶斯分类方法为理论依据。利用该方法在Weka环境中实现了分类器的设计。实验证明,该分类器能够准确识别出出现的各类P2P流,平均准确率高达96.5%。  相似文献   

10.
为了提高网络入侵检测模型的准确率与泛化性,提出基于随机k-近邻集成算法的网络流量入侵检测模型。首先,该模型提出一种集成赋权距离,来提高预测精度;其次,采用一种随机策略的集成方法对k-近邻模型进行集成,从而提高了其在异常检测过程中的全局和局部优化能力;然后,利用并行计算的方法提高了算法运行的效率;最后,构建了基于随机k-近邻集成算法的网络入侵检测模型,并采用KDD99数据集进行实验。实验结果表明,基于随机k-近邻集成算法相对于其他模型具有更好的检测效果,准确率和召回率分别达到99.05%和91.96%。  相似文献   

11.
 空间分类是空间数据挖掘的重要分支,寻找高效的空间分类算法是空间分类研究的重要方向.在空间对象的邻接图及朴素贝叶斯分类法的基础上提出一个新的空间分类算法,该算法对空间对象进行分类时,既考虑了待分类对象的属性对分类的影响,又考虑了其空间邻接对象对它分类的影响.该算法的计算复杂度不高,分类的正确性好.  相似文献   

12.
提升是一种有效的分类器组合方法,它能够提高不稳定学习算法的分类性能,但对稳定的学习算法效果不明显.BAN(BN augmented Nave-Bayes)是一种增强的贝叶斯网络分类器,通过提升很容易提高其分类性能.文中比较了GBN(general BN)和BAN的打包分类器Wrapping-BAN-GBN与基于提升的BAN组合分类器Boosting-BAN,最后通过实验结果显示了在大多数实验数据上,Boosting-BAN分类器显示出较高的分类正确率.  相似文献   

13.
通过对朴素贝叶斯分类器的讨论, 提出将贝叶斯方法应用于医学图像分割后的图像分类思想. 给出一种基于朴素贝叶斯分类器的图像分类方法, 对从尿沉渣图像中识别出的微粒进行正确分割及特征提取与选择, 并利用朴素贝叶斯分类器进行分类. 实验结果表明, 所提出的方法用于解决图像分类有效.  相似文献   

14.
朴素贝叶斯分类作为一种统计分类的方法,简单高效,但它是建立在属性独立性假设的基础上,有一定的局限性,影响了它的分类效果.x2统计是一种度量属性相关性的方法,通过属性相关的分析,可以对属性进行约简,去除冗余和无关属性,达到简化朴素贝叶斯分类器的目的.朴素贝叶斯分类器的扩展方法是在非类父子结点之间添加扩展弧,表示相关属性间的依赖关系,从而扩展朴素贝叶斯分类器的结构.在数据集上的实验结果显示,KEANBC分类器优于NBC分类器,提高了分类正确率.  相似文献   

15.
为了解决传统方法不能按照训练样本量设计最优网络模型,集成效率低的弊端,通过机器学习方法研究数据库小数据集并行集成方法。机器学习选用朴素贝叶斯算法,依据条件独立性假设,通过计算目标先验概率,采用贝叶斯定理求出其后验概率,对后验概率进行比较,完成决策分类,对基分类器进行训练,把不同朴素贝叶斯基分类器当成集成分类器,在原始数据库上对基分类器进行训练,依据分类结果对数据库中小数据集样本分布进行调整,将其当成新数据集对基分类器进行训练,按照基分类器的表现,通过加权将其组合在一起,产生强分类器,实现对数据库小数据集的集成处理。通过MapReduce并行处理完成并行数据集成,输出并行集成结果。通过仿真实验与实例分析验证所提方法的有效性,结果表明:所提方法在训练样本规模相同的情况下有最高的分类精度和最小的波动,在不同集成规模下的分类精度一直最高,波动最小;所提方法可达到数据的最优集成,数据失效比降低,合成比提高。可见所提方法集成精度高,计算稳定性强,集成效果好,效率优。  相似文献   

16.
朴素贝叶斯分类器是一种简单而高效的分类器,但它的条件独立性假设使其无法将属性间的依赖关系表达出来,影响了它分类的正确率,加权朴素贝叶斯是对它的一种扩展.基于强属性限定的贝叶斯分类器SANBC,通过在强弱属性之间添加增强弧以弱化朴素贝叶斯的独立性假设,扩展了朴素贝叶斯分类器的结构;结合加权朴素贝叶斯和基于强属性限定的贝叶斯分类器SANBC的优点,提出一种基于强属性限定的加权贝叶斯分类器WSANBC;实验结果表明,WSANBC分类器具有较高的分类正确率.  相似文献   

17.
采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低.  相似文献   

18.
基于云模型理论对朴素贝叶斯分类器进行了改进,使得分类器能够处理语言中的一些模糊值,扩展了朴素贝叶斯分类器的应用范围.使用UCI鸢尾花数据集对算法进行了实验仿真和结果分析.结果表明,改进后的分类算法在一定程度上提高了分类精度.  相似文献   

19.
采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低.  相似文献   

20.
针对网络流量协议标注比较困难的问题,提出一种基于贝叶斯网络的半监督学习模型,以提高Inter-net协议的识别精度.该模型首先使用少量的标注样本训练贝叶斯网络分类模型,并对未标注样本进行初始分类,然后从未标注样本中挑选分类损失最小的样本加入到训练集中并重复训练分类模型,经过多次循环训练出最终的分类器.该模型可以使用未标注样本和标注样本共同训练分类模型,非常适合于标注比较困难的Internet应用协议的识别.实验结果表明:在标注样本较少的情况下,该模型的识别精度和稳定性均优于朴素贝叶斯模型和贝叶斯网络模型,对于提高Internet协议的识别精度是有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号