共查询到10条相似文献,搜索用时 31 毫秒
1.
文本分类技术是文本信息处理的核心技术之一,主要包括文本的向量模型表示、文本特征选择和分类器训练三大过程.本文提出了一种混合(EIBA+DHChi2)特征选择算法,并将所获取的特征作为软集合理论中的参数集进行文本分类,从而建立了一种新的基于软集合理论的文本分类技术.实验表明查准率与查全率比原有算法都有所提高,说明新的基于... 相似文献
2.
提出了一种由遗传算法和改进互信息公式相结合的特征选择方法.将遗传算法中的特征评价函数换为改进互信息公式来对特征进行选择,结合了过滤式和封装式这2种特征选择方法的优点.实验部分采用另外2种特征选择算法与本文所提方法分别进行特征选择,将这3种方法所得到的特征子集用于概率神经网络、BP神经网络分类器上,通过比较对应的分类精度,检验各种特征选择方法的效果. 实验结果显示,所提出的特征选择方法能更为有效的实现特征选择,所取得的特征子集具有更好的泛化特性. 相似文献
3.
基于基因算法的信息免疫模型 总被引:1,自引:0,他引:1
研究Web信息过载的问题,提出一种新的基于基因算法的信息免疫模型(IIM).根据免疫细胞的特异性,利用IIM不同的染色体描述用户需求,并专注于对无关信息的处理,使用户免于该类信息的入侵,并引入了特征选择和信息熵,阈值的选择也是可变的.通过实验与Rocchio方法进行了对比,结果表明,IIM的查准率比Rocchio的高27.5%,查全率比Rocchio的高47.7%. 相似文献
4.
针对图像的纹理特征和形状特征提出了一种基于内容的图像二次检索新方法,该方法可以从图像库中快速、准确、有效地检索出大量相似图像.经实验表明,具有较高的查全率和查准率. 相似文献
5.
为了解决机械故障诊断中的特征选择问题,利用免疫克隆选择算法,提出了一种结合交叠区异点统计和相关性分析的免疫克隆特征选择方法,可有效地去除不相关特征和冗余特征.基于空间分布的交叠区异点,设计了交叠区异点统计的优化指标;基于J散度距离,设计了一种冗余特征的评估指标;基于免疫克隆选择算法,结合交叠区异点统计优化指标和冗余特征评估指标,提出了一种免疫克隆特征选择新算法.仿真和实际工程应用的结果表明:文中提出的方法比常用的特征选择方法更加有效,选出的特征分类精度更高,特征子集更小,更能满足故障诊断的需求. 相似文献
6.
为文本情感分类提出一种改进的机器学习算法。在分析当前主要文本特征选择方法后,把词频和词语情感表现程度融入到信息增益特征选择方法中,从全局和局部2个方面进行特征权重衡量,使用特征空间向量模型对文本进行统一表示,然后利用SVM算法进行训练学习。通过实验发现该算法的查准率和查全率比传统的机器学习算法有所提高,并且得到的分类器具有较好的泛化能力。 相似文献
7.
文本分类中特征选择方法的比较和改进 总被引:1,自引:1,他引:1
考察了文档频率DF、互信息MI、CHI统计、CC统计四种不同的特征选择方法,并结合K近邻算法进行分类精度上的比较.为消除MI对低频词的倚重,提出一种DF与MI结合的特征评价函数,并验证了这种组合特征选择方法的有效性. 相似文献
8.
查全率和查准率是评价文献检索效果的两项重要指标,本文通过对影响查全率和查准率的因素分析,从检索途径、数据库选择等方面探讨了提高查全率和查准率的方法。 相似文献
9.
在信息检索领域,查全率与查准率是一对相互制约的指标.为了研究文本分类领域查全率和查准率的关系,在此从理论和实验两方面分析查全率及测试集对查准率的影响.理论分析与实验结果一致得出,在文本分类中查全率和查准率是两个一致的指标.另外,在查全率确定的情况下,测试集中各类别文档比例的变化也会导致查准率的变化. 相似文献