首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
特征权值的选择是文本分类技术的基础环节.在详细分析文本分类技术特点的基础上,基于信息熵理论建立了TF_IDF的改进算法模型;并根据实际工程数据,验证了算法模型的有效性.理论分析和实例验证表明该算法弥补了传统TFIDF算法没有考虑词条文本类间分布的不足,能更好的体现特征词条的权重,从而能有效提高分类的精确度.  相似文献   

2.
针对社区问答系统问句相似度计算问题,提出了一种改进的TFIDF算法.按照用户的查询意图对问句进行分类,根据特征词在类别中的分布对权值进行调整;将问句的主题词归入特征项进行TFIDF计算.实验结果表明,本文改进的TFIDF算法的P@3比传统的TFIDF算法提高了7.66%,比TFIDF-IG算法提高了5.31%,而且P@5和P@10也有不同程度的提高,与传统TFIDF算法和参考改进算法相比,该算法明显提高了检索性能.   相似文献   

3.
从人工分类的角度看,标题、摘要及关键词中的词条对于文本分类具有更重要的作用,在特征选取中低DF值的词条可能更能代表文本的类别信息。针对以上两个问题,本文提出了基于类别核心词的特征选取方法。首先,从标题、摘要及关键词中提取类别核心词;然后。通过加权方式,强化它们在特征选取中的作用;最后在朴素贝叶斯分类方法上进行实验。实验结果表明,提出的方法能够有效提高中文文本的分类准确率。  相似文献   

4.
用于文本挖掘的特征选择方法TFIDF及其改进   总被引:11,自引:0,他引:11  
文章使用TFIDF特征选择方法对数据源进行预处理,建立了空间矢量模型,为文本分类提供了便利的数据结构.通过分类结果测试该特征选择方法的精确度.根据实验结果分析TFIDF的优缺点,并提出改进的方法.  相似文献   

5.
根据词条聚合和决策树原理,提出了一种文本分类的新方法.决策树分类方法具有出色的数据分析效率和容易抽取易于理解的分类规则等优势,但只能应用于维数较低的特征空间.本方法将与各个类别相关程度相似的词条聚合为一个特征,有效地降低了向量空间的维数,然后再使用决策树进行分类,从而既保证了分类精度又获得了决策树易于抽取分类规则的优势.  相似文献   

6.
一种基于朴素贝叶斯分类的特征选择方法   总被引:11,自引:0,他引:11  
由于朴素贝叶斯文本分类中的独立假设前提,使得在特征选择步骤能否准确有效地选出能代表文本的特征显得尤为重要,而特征选择标准中的MI标准与TFIDF标准其优缺正好互补,因此在用朴素贝叶斯文本分类方法中的多项式模型实现了一个web页面分类系统-WEBCAT的基础上,提出将MI标准与TFIDF标准结合进行特征选择.实验显示:用改进的方法可以更准确地选出能代表文本的特征,文本分类结果也比单独使用TFIDF标准或单独使用MI标准进行特征选择的分类结果更加精确.  相似文献   

7.
基于朴素贝叶斯的垃圾邮件分类系统的设计   总被引:1,自引:0,他引:1  
结合垃圾邮件分类系统的具体要求,在传统规则分类方法的基础上引入机器学习的知识,给出了系统体系结构和特征提取算法,试验了一种对新邮件计算所属类别后验概率的方法,并详细讨论了一个基于朴素贝叶斯方法的个性化垃圾邮件分类系统的设计。提出的分TFIDF特征子集提取算法和朴素贝叶斯方法对邮件进行分类具有较好的分类精度,应用朴素贝叶斯方法在新邮件到达的同时对其进行分类,具有较好的分类速度。  相似文献   

8.
基于类别相关性和交叉熵的特征选择方法   总被引:1,自引:0,他引:1  
文本分类首先要解决的一个问题就是特征选择.简单分析了几种经典的特征选择方法,总结了它们的不足,提出了一个类别相关性方法,把交叉熵引入粗糙集并提出了一个基于交叉熵的属性约简算法,把该属性约简算法同类别相关性方法结合起来,提出了一个综合的特征选择方法.该方法首先利用类别相关性方法进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,此特征选择方法效果良好.  相似文献   

9.
为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法 .该方法通过引入信息熵及修正因子,缓解了数据不平衡对分类准确率及召回率造成的不良影响.实验结果表明:所提出的分类方法在准确率及召回率上与word2vec均值模型相比,分别提高7.3%及10.5%.  相似文献   

10.
文本分类中特征选择、权重计算及分类算法三个阶段中都存在一些经典方法,在实际的中文文本分类任务中,如何从各阶段不同方法的组合中找到一个好的组合成为值得研究的问题。比较研究中文文本分类中各阶段经典方法的不同组合对分类效果的影响结果表明:采用CHI特征选择方法、TFIDF权重计算方法及SVM分类方法的组合为最佳组合。  相似文献   

11.
该文在类别区分词特征选择方法的基础上,针对维吾尔文中的生气、高兴、难过、惊讶等句子的情感类别提出了类别区分词与情感词典相结合的方法,进行了句子情感分类研究。结合维吾尔语文本句子中的情感表达特点,利用类别区分词特征选择方法,提取了最有类别区分能力的特征词,并进行了情感分类。通过人工抽取方法收集了维吾尔文句子中能表达情感的关键词,并建立了一个基础情感词典。将该词典与类别区分词结合在一起作为特征,对维吾尔文句子的情感类型有效地进行了分类。实验结果表明类别区分词与情感词典相结合方法的分类效率优于只用类别区分词特征选择方法。  相似文献   

12.
基于多向量模型,给出一种将话题主题信息与话题文本信息相结合的多向量话题表示方式,使用较低的维度来准确表示一个话题.针对传统TFIDF方法在文本分类问题中对特征项在各个类中分布情况考虑不充分的问题,给出了一种TFIDF改进方法.在TDT4的中文语料上,与传统向量空间模型进行了对比实验.实验结果表明,给出的话题表示方法和TFIDF改进算法能够在较低的维度上,使聚类的准确率得到较大提升.  相似文献   

13.
在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间。特征选择是文本分类的一个核心研究课题。提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法。该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明该方法有较好的准确率和召回率。  相似文献   

14.
在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间.特征选择是文本分类的一个核心研究课题.提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法.该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该方法有较好的准确率和召回率.  相似文献   

15.
基于特征贡献度的特征选择方法在文本分类中应用   总被引:1,自引:0,他引:1  
在目前的文本分类问题中,特征选择方法被认为是提高分类精度和效率的一种有效方法.提出了一种基于特征贡献度FCD(feature contribution degree)的特征选择方法,本方法将某个特征对于类别之间区分能力的贡献度大小作为该特征被选取的条件,特征对于某一类别的FCD值为特征在该类中出现的文档数与在所有类别中出现的文档数的比值.对该方法进行了实验,并与一些常用的特征选择方法进行了比较,实验结果表明该方法具有更好的分类效果.  相似文献   

16.
针对三维模型的分类问题,提出了一种基于核主成分分析(Kernel-Principal Components Analysis,K-PCA)的三维模型分类算法。该算法首先选择形状直径函数(Shape Diameter Function,SDF)作为特征描述符来提取三维模型的特征向量;然后使用核函数将原始特征向量映射到高维空间中并在该空间上进行PCA得到新的特征向量;最后使用KNN算法并计算未知模型与已知类别的k个模型之间的l2范数以实现模型的分类,确定未知模型的类别。实验结果表明,该算法能够很好的识别三维模型的几何特征,能准确的区分不同类别的三维模型,具有较高的分类准确率。  相似文献   

17.
阐述了词条匹配系统的设计思路、系统的总体架构及实现的技术方法,在现有理论基础上,借助盘古分词技术对特征来源文本进行分词与去噪,通过计算关键词的特征权重使得特征词条选取最优;运用先进的特征匹配算法对系统进行了详细设计和实践开发.对实验数据的分析结果表明,该系统对图书辅助分类校验具有一定的实际应用价值.  相似文献   

18.
文中针对大规模Web文本信息的结构与内容特征提出一种高效的Web文本分类方法。该方法主要包含3个模块:(1)针对Web长文本提出一种基于复杂网络的特征选择方法,网络中的节点对应于文本中的词条,通过节点的度与聚集系数来衡量对应词条的重要性从而选择特征词;(2)对于Web长文本,提出基于k NN的SVM决策树分类方法,将支持向量机与k最近邻相结合,并构建决策树实现层次化分类;(3)对于短文本,通过构建长文本各类别的主题词集合来引导短文本的分类,将短文本的归类问题转化为基于主题的检索问题。实验结果表明该方法在处理大规模Web文本时表现出了较好的性能。  相似文献   

19.
通过对甘肃省档案局数据资源的分析研究,并与朴素贝叶斯分类算法相结合,实现对档案资源分类应用的研究.根据档案数据的特征,选用TFIDF(term frequency-inverse document frequency)算法进行选取符合档案文本主题的属性.样本实验结果证明,该分类模型适用于档案文本资源的分类,实现了档案资源自动分类的功能.相较于传统朴素贝叶斯分类方法,所提出的分类模型针对档案资源的分类效率提高了1%~2%.  相似文献   

20.
基于类别共生矩阵的纹理疵点检测方法   总被引:8,自引:0,他引:8  
根据有规则纹理的特点,提出了基于类别的共生矩阵来描述纹理特征,从而很好地将正常纹理与疵点区分开.分析了传统的灰度共生矩阵在计算纹理特征时计算量大,且分辨能力差的缺点.为了克服灰度共生矩阵在计算量和分辨能力上的缺点,定义了类别共生矩阵.在类别共生矩阵的算法中,首先学习纹理的一些基本特征以确定类别共生矩阵的一些关键参数,如纹理的概率密度分布、纹理的主方向和周期,以及分类准则等重要参数,然后计算类别共生矩阵并提取白疵点增强、黑疵点增强和一致度等三个特征,最后采用异常点检测的方法即可很好地区分正常纹理和疵点.实验证明,该方法比已有的灰度共生矩阵计算量小,并具有更突出的分辨纹理和疵点的能力.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号