首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
一种改进的互信息特征选取预处理算法   总被引:4,自引:1,他引:3  
讨论了基于互信息的特征选取算法在文本分类中的性能问题,分析了利用这种特征选取算法存在分类精度不高的原因,认为互信息为负值的特征在分类中具有很重要的作用.在此基础上提出了一种基于互信息特征选取的改进算法,该算法加强了互信息为负值的特征在分类中的作用.实验结果表明,改进后的算法可以有效地提高文本分类精度。  相似文献   

2.
为了提高入侵检测的准确度和速度,针对入侵规则属性相关性的特点,将属性与类间的互信息与属性间的互信息结合,提出了一种新的混合互信息的决策树分类算法.在对此算法进行了算法设计和分析的基础上,将由此算法构造的决策树分类方法对入侵规则进行组织,改变了传统的入侵规则逐条串行检测,以增加预处理时间为代价,提高了数据包的过滤速度和准确度.实验分析表明,应用该算法的入侵检测系统比使用传统方法具有更高的准确率和速度.  相似文献   

3.
基于条件互信息下聚类的朴素贝叶斯分类算法   总被引:1,自引:0,他引:1  
 采用条件互信息来度量任意2个条件属性之间的关联程度,采用互信息度量各条件属性与类属性间的关联程度,以此作为将各条件属性进行聚类的准则,提出一种新的将条件属性进行聚类的分组技术.同时,结合朴素贝叶斯分类算法,构造了改进的朴素贝叶斯分类模型.通过仿真实验表明该文提出的算法具有较好的分类性能.  相似文献   

4.
首先介绍了几种常见的特征选择和特征抽取方法,并结合K-近邻分类算法对4种特征选择方法进行了分类测试,同时通过测试分析,提出了一些改进的、可行的互信息评价函数.  相似文献   

5.
一种组合型中文文本分类特征选择方法   总被引:1,自引:1,他引:1  
根据基于频数分布和基于互信息的特征选择模式的特点,将传统的tf-idf因子以及基于互信息的特征选择方法分别进行了改进,并在此基础上提出了一种新的组合型特征选择方法。试验结果表明,该算法提高了文本分类的准确率。  相似文献   

6.
分析了传统的互信息特征选择算法的不足,针对可能赋予低频特征词过高权重的问题,利用词频、集中度这两个强信息特征指标对算法进行改进,提出了一种基于词频和文本类别的互信息改进算法(Improved Mutual Infonnation Algodthm based on Word Frequency and Text Category,简称改进的MIFC)。实验结果表明,改进的MIFC算法提取的特征空间比传统的互信息算法有更高的精确度。  相似文献   

7.
数据降维就是将数据集从高维特征空间向低维特征空间的映射.传统的主成分分析(PCA)算法是一种常用的线性数据降维算法.但是耗时太长,降维结果不够好,同时不能满足实际分类要求.为此,通过引入互信息可信度,提出了一种基于互信息综合可信度的主成分分析(MIS-PCA)数据降维算法.该算法首先介绍互信息(MI)、相对互信息可信度(MIR)和绝对互信息可信度(MIA)的思想;然后根据MIA和MIR求解互信息综合可信度(MIS),利用互信息综合可信度进行特征筛选;最后再运用PCA算法对处理后的数据进行降维,并将降维后的数据采用KNN、SVM算法进行分类.对比PCA、E-PCA算法,通过试验表明该方法的降维结果较好、分类精确度较高.  相似文献   

8.
基于互信息和文化基因算法的网络流量特征选择   总被引:1,自引:0,他引:1  
利用文化基因框架的引导,提出一种结合了封装和过滤的混合型特征选择算法.该算法在传统的遗传算法中采用了基于互信息的局部搜索算法,全局搜索以分类器精度为适应度函数,保证得到全局最优解;局部搜索以联合互信息为评价指标,加快了寻找最优特征子集的收敛速度.实验表明,与现有算法相比,该算法在特征数量和计算复杂度上有显著改进,采用该算法的网络流量识别方法能以更少的特征获得更高的分类精度.  相似文献   

9.
一种基于改进互信息的文本分类方法   总被引:1,自引:0,他引:1  
用改进的互信息公式进行特征选择,通过三种文本分类方法验证了改进的公式具有较高的准确率、召回率和F1值,从而证明改进的互信息公式的有效性.  相似文献   

10.
在向量空间模型的中文文本分类系统中,多数传统的特征选择算法忽视低频单词对分类的正面贡献,互信息特征选择过分放大低频单词对分类的贡献。针对这一问题,通过引入对数似然比统计量,提出对数似然比特征选择算法。与互信息算法相比,低频单词对分类的贡献没有过分放大;与卡方算法相比,低频单词对分类的贡献计算更为准确。算法在考虑低频单词对分类结果产生正面影响的同时,能较好地控制其对分类产生的负面影响。采用KNN(K Nearest Neighbor)分类方法,特征选择选取对数似然比和传统特征选择算法,实验结果表明,对数似然比特征选择算法能够提高分类器的总体性能。  相似文献   

11.
镜头边界检测是基于内容视频检索的基础环节。由于视频类型与内容众多,目前镜头边界检测中存在阈值选取困难、查全率和查准率不高等问题。针对以上问题提出一种改进的基于互信息量的镜头边界检测算法,在字幕检测定位算法有效定位字幕区域的基础上,通过比较非字幕、非四角区域HSV空间直方图求取的相邻帧间互信息量的差异程度,实现镜头边界检测。实验表明,与当前应用最广泛且比较有效的双阈值算法相比,突变镜头检测综合性能平均提高12.4%,渐变镜头检测综合性能平均提高8.2%,通过自适应阈值的选取,有效解决了阈值依赖人工经验选取的问题;与当前已提出的基于互信息量的镜头边界检测算法相比,该算法降低了计算复杂度、几乎能检测所有的淡入淡出镜头边界,并使得镜头边界检测具有较高的查全率与查准率。  相似文献   

12.
最大熵方法中特征选择算法的改进与纠错排歧   总被引:2,自引:0,他引:2  
对应用最大熵原理建立语言模型的特征选取方法作了改进.用特征模板从训练样本中获得候选特征集,应用频次与平均互信息相结合的方法从候选特征集中选取特征.在选择有效特征时,对候选特征集中出现频次大于某一限值的特征或平均互信息很大的特征直接加入有效特征集,且不是每选一个特征都调用参数的求解过程,从而加快了特征选择的速度.将改进的算法应用于文本纠错建议的排歧,实验证明,所改进的特征选择算法有效.  相似文献   

13.
文本分类中的特征选取算法   总被引:3,自引:0,他引:3  
分析了常用的几种特征选取方法,提出了改进互信息算法。实验结果显示改进的互信息算法是可行的。  相似文献   

14.
针对离散制造业质量管理系统中维度高,且存在较多一致性数据的情形,设计了一种基于信息论中的信息熵,即互信息的改进聚类算法。通过实验分析,采用改进的聚类算法可有效提高聚类的正确率,并且通过演化聚类理论和方法的应用可对离散制造业质量管理提供有效的决策参考信息。  相似文献   

15.
提出了基于互信息的EAA(Extraction of Available Area有效区域提取)算法的配准方法。此方法根据人体脑部医学图像特点,首先通过图像的灰度差异,对图像进行预处理,并利用区域生长法,提取互信息的有效区域——病灶的可疑区域和颅骨轮廓,然后只将此区域做为配准的有效信息,寻找配准参数,使两幅图像的互信息最大。仿真时采用MR-PET图像,进行了22组对比实验。结果表明,此方法一定程度上消除了图像中无效区域的影响,在配准精度及配准时间上有一定的优势。  相似文献   

16.
Text categorization plays an important role in data mining. Feature selection is the most important process of text categorization. Focused on feature selection, we present an improved text frequency method for filtering of low frequency features to deal with the data preprocessing, propose an improved mutual information algorithm for feature selection, and develop an improved tf.idf method for characteristic weights evaluation. The proposed method is applied to the benchmark test set Reuters-21578 Top10 to examine its effectiveness. Numerical results show that the precision, the recall and the value of F1 of the proposed method are all superior to those of existing conventional methods.  相似文献   

17.
Text categorization plays an important role in data mining. Feature selection is the most important process of text categorization. Focused on feature selection, we present an improved text frequency method for filtering of low frequency features to deal with the data preprocessing, propose an improved mutual information algorithm for feature selection, and develop an improved tf.idf method for characteristic weights evaluation. The proposed method is applied to the benchmark test set Reuters-21578 Top10 to examine its effectiveness. Numerical results show that the precision, the recall and the value of F1 of the proposed method are all superior to those of existing conventional methods.  相似文献   

18.
为获得正确的节点次序,提高K2算法的执行效率和精确度,提出一种构建基因调控网络的IE-K2算法.基于两个节点互信息构建无向图,通过引入联合信息熵来获得最佳的节点次序.在Alarm网络中的实验结果表明,其预测的准确率优于爬山算法和随机节点顺序的K2算法;将IE-K2算法用于构建酿酒酵母的基因调控网络,通过现有文献证明了调控关系的正确性,结果显示了该算法的有效性.  相似文献   

19.
由于网络信息的激增,如何充分利用大量的信息,并有效地为Web用户服务成为一个急需解决的问题。相关研究表明利用Web文档聚类的方法可以缩小信息检索的范围,提高查询准确率。通过分析Web文档的特征以及常用Web文档聚类方法的优缺点,提出了一种基于互信息理论的Web文档聚类的方法。在聚类的过程中,计算特征词之间的互信息值,根据阈值判断特征词是否属于同一类别。实验结果表明,该方法与K-Means聚类算法相比较,在准确率和召回率方面均有提高。  相似文献   

20.
基于灰度共生矩阵和梯度相位互信息的医学图像检索   总被引:3,自引:0,他引:3  
结合灰度共生矩阵特征和梯度相位互信息,提出了一种面向临床实际应用的两步匹配医学图像检索算法.该算法在提供良好分类性能的灰度共生矩阵特征的基础上,通过精化检索进一步提高了检索精度,以及检索算法的整体鲁棒性.使用该算法对包含有6种不同解剖部位的CT图像库进行检索实验.实验结果表明该算法在达到良好的检索准确性的同时,具有接近实时的查询响应速度.对该算法进行适当扩展,能容易地推广到实际医学检索应用中.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号