首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 265 毫秒
1.
针对朴素贝叶斯分类器不能有效利用属性之间依赖信息的问题,在将连续属性条件互信息计算、条件密度计算与通过建立类约束属性最大权重跨度树的父结点选择相结合的基础上,提出了连续属性朴素贝叶斯分类器选择性树结构依赖扩展方法.通过对比实验和分析,证实了扩展后分类器的分类准确率得到明显的改进.  相似文献   

2.
基于互信息的多关系朴素贝叶斯分类器   总被引:1,自引:0,他引:1  
为进一步提高多关系朴素贝叶斯方法的分类准确率,分析了已有的剪枝方法,并扩展互信息标准到多关系情况下.基于元组号传播方法和面向元组的统计计数方法,给出了基于扩展互信息标准进行属性选择的方法和步骤,并建立了一种基于扩展互信息的多关系朴素贝叶斯分类器.标准数据集上的实验显示,基于扩展互信息标准进行属性选择,可以在不增加算法时间复杂度的前提下,找到与分类属性最相关的属性,并在仅有极少属性参与分类时,得到较高的分类准确率.Mutagenesis数据集上的实验则显示,这种属性选择可以使多关系问题退化为单关系问题,大大降低了分类代价.  相似文献   

3.
朴素贝叶斯在处理分类问题上简单高效,通常它假设属性间是条件独立的,且各属性变量对类变量的影响程度是相同的,但在实际应用中这些都难以被满足,从而使得其分类性能降低.因此,提出基于属性约简的加权朴素贝叶斯分类算法,该算法首先根据各属性不同取值的分类能力及属性间的对称不确定性大小,去除了无关属性和冗余属性,使得筛选后的属性之间具有较低的关联度和较强的分类能力;然后再结合属性与类变量及属性间的相关性对各属性进行加权;最后对待判样本进行分类.经实验结果表明,该算法有效地提升了朴素贝叶斯的分类性能.  相似文献   

4.
聚类是数据挖掘中重要的功能算法,其主要的功能是发现数据中潜在的知识.目前文献发表的聚类算法多数仅限于处理单一数值型数据或者分类型数据,其主要原因是含有多种类型的混合型数据间的相似性很难度量.本文提出了一种混合数据相似性度量方法:对于分类型属性,利用互信息构建贝叶斯信念网络,利用贝叶斯信念网络构建关系层次,继而为层次附上距离,形成关系层次距离,而对于数值型属性则利用标准化的曼哈顿距离来度量其相似性,最后结合分类型属性与数值型属性来对整个数据集进行相似性的度量.在此基础上,设计实现了用于混合型数据聚类算法CRHD,并通过UCI中的多个数据集和已有算法进行仿真实验对比,证明了CRHD算法的有效性.  相似文献   

5.
借鉴邻域粗糙集处理连续型数据的优势,为解决传统谱聚类算法需要人工选取参数的问题,提出基于自适应邻域互信息与谱聚类的特征选择算法。首先,定义各对象在属性下的标准差集合与自适应邻域集,给出自适应邻域熵、平均邻域熵、联合熵、邻域条件熵、邻域互信息等不确定性度量,利用自适应邻域互信息对特征与标签的相关性进行排序。然后,结合共享近邻自适应谱聚类算法,将相关性强的特征聚到同一特征簇内,使不同特征簇内的特征强相异。最后,使用最小冗余最大相关技术设计特征选择算法。在10个数据集上选择特征个数与分类精度的实验结果,验证了所提算法的有效性。  相似文献   

6.
基于改进互信息的特征提取的文本分类系统   总被引:2,自引:0,他引:2  
文章提出并实现了一种改进互信息的特征提取和支持朴素贝叶斯的文本分类系统,改进的互信息算法加强了负值单词的互信息值,弥补了原来互信息预处理算法的不足,从而提高了分类精度.实验结果表明本算法和系统具有较高的分类准确率。  相似文献   

7.
朴素贝叶斯算法在给定输出类别的情况下,需假设属性之间相互独立,然而现实中这个假设一般不成立,导致在属性个数较多或者属性之间相关性较大时,分类效果不是很理想。为了解决这个问题,本文采用优化的模糊C均值聚类及权重计算方法改进朴素贝叶斯算法。首先,基于JS散度构造类别个数的自适应函数优化模糊聚类算法,利用优化后的算法将文本分类整理。然后,采用词频因子优化的TF-IDF算法计算分类后各样本的特征权重,结合样本权重与贝叶斯公式,进行分类计算。最后,为了体现改进的朴素贝叶斯算法的有效性和优越性,将其与原始朴素贝叶斯算法以及其他改进算法进行对比实验。实验结果表明,改进后的算法有效地降低了朴素贝叶斯模型对特征项独立性的要求,提高了分类决策的准确率,且在分类性能和效率上具有一定的优越性。  相似文献   

8.
朴素贝叶斯分类器是一种简单、高效的分类算法,它以贝叶斯定理和最大后验假设为理论基础,然而朴素贝叶斯分类器属性之间相互独立的假设,影响了朴素贝叶斯分类器的性能.提出先使用基于相关的属性选择算法进行属性选择,然后在选择的属性集上,用朴素贝叶斯分类器对数据集进行分类.实验证明,与未使用属性选择的实验结果相比,使用基于相关的属性选择算法进行属性选择后,朴素贝叶斯分类器平均分类正确率提高,分类效率显著提升.  相似文献   

9.
基于特征相关的改进加权朴素贝叶斯分类算法   总被引:1,自引:0,他引:1  
朴素贝叶斯分类算法的特征项间强独立性的假设在现实中是很难满足的.为了在一定程度上放松这一假设,提出了基于特征相关的改进加权朴素贝叶斯分类算法,该算法采用一种新的权重计算方法,这种权重计算方法是在传统词频反文档频率(TF-IDF)权重计算基础上,考虑到特征项在类内和类间的分布情况,另外还结合特征项间的相关度,调整权重计算值,加大最能代表所属类的特征项的权重,将它称之为TF-IDF-FC权重计算.与基于传统TF-IDF权重的加权朴素贝叶斯分类算法和其他常用加权朴素贝叶斯分类算法比较,如基于属性加权的朴素贝叶斯分类算法,这种算法的分类效果均有一定的提高.  相似文献   

10.
针对朴素贝叶斯算法在处理不平衡数据时准确率不高的问题,提出类权重和属性值权重相结合的双重加权朴素贝叶斯算法.双重加权可降低算法的属性独立假设对分类结果的影响,提升少数类对分类过程的作用.乳腺癌患者复发率预测结果表明,双重加权朴素贝叶斯算法相对于传统的朴素贝叶斯算法、属性值加权的朴素贝叶斯、K最近邻分类算法、支持向量机分类算法、随机森林算法,准确率上分别从0.72,0.79,0.77,0.80,0.81提升至0.84,精确率和召回率均有不同程度的提升.  相似文献   

11.
根据排序问题的单调先验知识,无监督学习问题中的观测属性之间也具备单调关系;否则该属性与排序无关,为冗余属性.基于排序互信息反应的两属性之间的单调关系,提出用每个属性与其他属性之间的平均互信息,来衡量每个属性与排序学习的相关程度,具有最高的平均互信息即为排序最相关的属性.  相似文献   

12.
ID3算法是决策树归纳中普遍而有效的启发式算法.本文针对ID3算法的不足,给出了一个改进版本,它在选择测试属性时不仅要求该属性和类的交互信息较大,而且要求和祖先结点使用过的属性之间的交互性息尽可能小,从而避免了对冗余属性的选择,实现信息熵的真正减少.在生成树的过程中,设定分类阈值,对树进行剪枝,以避免数据子集过小,使进一步划分失去统计意义.实验结果表明,该算法能构造出比ID3算法更优的决策树.  相似文献   

13.
一种基于互信息的粗糙集知识约简算法   总被引:2,自引:0,他引:2  
针对粗糙集理论核心内容之一的知识约简问题,该文提出了一种改进的互信息的属性约简算法。该算法结合信息论中信息熵与互信息的概念定义了粗糙集里的一种新的属性重要度,并以此属性重要度为启发式信息进行属性约简。实验分析表明:在大多数情况下,该种算法都能够得到决策表的最小约简。  相似文献   

14.
为了提高入侵检测的准确度和速度,针对入侵规则属性相关性的特点,将属性与类间的互信息与属性间的互信息结合,提出了一种新的混合互信息的决策树分类算法.在对此算法进行了算法设计和分析的基础上,将由此算法构造的决策树分类方法对入侵规则进行组织,改变了传统的入侵规则逐条串行检测,以增加预处理时间为代价,提高了数据包的过滤速度和准确度.实验分析表明,应用该算法的入侵检测系统比使用传统方法具有更高的准确率和速度.  相似文献   

15.
基于属性间交互信息的模糊ID3算法的扩展   总被引:4,自引:0,他引:4  
模糊ID3算法是模糊决策树归纳中比较普遍和有效的启发式算法.以模糊ID3算法为例,分析了属性之间的冗余信息对构建模糊决策树的影响,并提出一个扩展算法,要求所选择的测试属性不仅和类的交互信息较大,而且和祖先节点上用过的属性之间的交互信息较小.实验结果表明:扩展算法优于模糊ID3算法  相似文献   

16.
基于相关系数的加权朴素贝叶斯分类算法   总被引:7,自引:0,他引:7  
朴素贝叶斯分类算法的条件独立性假设在很少情况下能够满足,为了克服该问题,提出了一种基于相关系数的加权朴素贝叶斯分类模型.通过计算条件属性和决策属性之间的相关系数,对不同的条件属性赋予不同的权重,从而在保持简单性的基础上有效地提高了朴素贝叶斯算法的分类性能.首先给出了基于相关系数的属性权值求解方法,然后描述了相应的算法,并对算法原理进行了分析与证明.通过在中医小儿肺炎病例数据集和UCI数据集上的仿真实验,验证了该方法的有效性.  相似文献   

17.
介绍了一种基于贝叶斯定理的文本分类模型“树桩网络(stump network)”。将该方法与朴素贝叶斯文本分类器和TAN(tree augmented naive bayes)文本分类器进行实验比较。结果表明,在大多数数据集上该文本分类方法具有较好的分类正确率。  相似文献   

18.
将信息熵引入形式背景中,研究对象导出三支概念格的熵属性约简. 首先,定义对象导出三支概念格的信息熵、条件熵和互信息等概念;其次,根据属性在约简过程中的重要性探讨核心属性和非核心属性的熵判定条件,并得出对象导出三支概念格的熵协调集等价于OEG协调集(对象导出三支概念格的粒协调集),对象导出三支概念格的熵约简集等价于OEG约简集;最后,给出决策形式背景中对象导出三支概念格的熵协调和熵约简等概念,并给出启发式熵约简的方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号