首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 111 毫秒
1.
针对当前电力文本分类方法中因忽视类别标签之间潜在语义关联关系而导致分类性能低效的问题,提出一种基于层次化分类模型的电力文本分类方法.首先,利用采集的电力成果非结构化文档,采用自动化信息提取技术和标注技术,构建电力文本多标签分类训练集,并结合领域知识分析,构建类别标签之间的层次化关系.然后,提出基于类别结构和标签语义混合...  相似文献   

2.
基于类别核心词的朴素贝叶斯中文文本分类   总被引:5,自引:0,他引:5  
摘要及关键词中提取类别核心词,通过加权方式,强化它们在文本分类中的作用. 基于朴素贝叶斯分类方法的实验表明,提出的方法能够有效提高中文文本的分类准确率.  相似文献   

3.
基于LSI和Rough集的文本分类研究   总被引:2,自引:0,他引:2  
针对传统的基于VSM的文本分类算法未能考虑到VSM中各特征向量间相互影响关系,构成VSM的词条集合并不能完全、准确地反映文本的内容,分类精度不是很理想的问题,提出了一种基于LSI和Rough集的文本分类方法.在构造VSM的过程中引入了LSI理论,将语义关系体现在VSM中,从而减少了向量空间的维数,然后再运用粗糙集理论中规则推理方法,建立文本分类的规则库,对于任意一个未知文本,只需要将其条件属性与规则库中的规则进行相似匹配,即可完成分类.实验表明,该方法在文本分类的精度和效率方面比传统的基于VSM的文本分类方法均有10%以上的提高.  相似文献   

4.
采用类别相似度聚合的关联文本分类方法   总被引:1,自引:0,他引:1  
针对基于关联规则的分类方法在分类时仅考虑规则的置信度并使用规则修剪技术,导致分类器的分类精度难以进一步提高的问题,提出了一种基于类别相似度聚合的关联文本分类方法.该方法采用修改的χ2统计技术提取各类别的特征词;为保证规则匹配的精度和速度,使用CR-tree存储分类规则,并给出了CR-tree的构建与匹配算法;采用向量内积来计算文本类别分量与类别标志向量的相似度,进而使用规则置信度和类别相似度的聚合值作为文本分类的依据.基于实际网络文本的实验表明,该方法仅需提取30个特征词,分类结果的微平均值即可达到92.42%,优于未经剪枝的ARC-BC分类器及KNN、Bayes分类器;在分类耗时方面,该方法与未经剪枝的ARC-BC分类器持平,表明该方法引入的相似度与聚合值的计算开销在可接受的范围内.  相似文献   

5.
针对传统的基于VSM的文本分类算法未能考虑到VSM中各特征向量间相互影响关系,构成VSM的词条集合并不能完全、准确地反映文本的内容,分类精度不是很理想的问题,提出了一种基于LSI和Rough集的文本分类方法.在构造VSM的过程中引入了LSI理论,将语义关系体现在VSM中,从而减少了向量空间的维数,然后再运用粗糙集理论中规则推理方法,建立文本分类的规则库,对于任意一个未知文本,只需要将其条件属性与规则库中的规则进行相似匹配,即可完成分类.实验表明,该方法在文本分类的精度和效率方面比传统的基于VSM的文本分类方法均有10%以上的提高.  相似文献   

6.
在实时文本分类任务中经常会有新类别出现,传统的文本分类方法通常难以利用实时的小规模样本学习新类别的模型。提出了一种基于迁移学习的新类别模型训练方法。首先将迁移学习技术和LS -SVM 算法结合,设计正则化项以控制源模型的迁移量及新模型与源模型的相似度,达到增量迁移。其次具体讨论了正则化项的学习方法。实验结果显示该方法相对同类算法有更好的分类性能,可以更高效地完成各种实时文本分类任务。  相似文献   

7.
低时空复杂度始终是多类别文本分类算法希望达到的性能。新闻文档集中Token频率分布的研究再次验证了Token频率分布普遍服从幂律。据此设计了一种新的多类别Token频率索引数据结构,并基于该数据结构提出了一种低时空复杂度的多类别文本分类算法。在TanCorp数据集上的实验结果表明该算法在多类别新闻文档分类应用中是时空高效的。  相似文献   

8.
基于类别层次结构的多层文本分类样本扩展策略   总被引:1,自引:0,他引:1  
针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题, 提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略, 即利用类别层次体系中蕴含的类别名称、描述以及类别间的层次结构关系, 从内涵和外延两方面入手构造或扩展类别训练样本。在首次大规模中文新闻信息多层分类评测数据集上, 基于外延的局部样本扩展策略取得较好的性能。参测系统在第一级类别和第二级类别上宏平均F1分别为0.8413和0.7139, 在10个参赛系统中位列第二。  相似文献   

9.
随着网络普及应用,Web内容安全问题已经引起人们的高度重视,对Web内容安全的分类监控已成为研究热点。在分析Web内容安全问题的基础上,提出一种"需求模型",该模型结合向量空间模型(VSM),利用Vague集改进的特征提取策略,扩充原有文档特征表示模型。通过对来自真实网络网页中等规模的语料实验证明,这种"需求模型"可以提高网页内容安全的文本分类效果,分类效果优于采用传统特征的方法。  相似文献   

10.
分类集及极大分类集的计数   总被引:1,自引:0,他引:1  
M是(1,2,…,n)的一些子集合的集合。若M中任意两个子集,或者它们无共同元素,或者一个是另一个的子集,这样的M称为分类集。若不存在(1,2,…,n)的一个分类集包含M,称M为极大分类集。给出分类集及极大分类集个数tn及Tn的计算,并由Tn的两个递推关系式得到一些组合恒等式。  相似文献   

11.
Comparison of text categorization algorithms   总被引:3,自引:0,他引:3  
This paper summarizes several automatic text categorization algorithms in common use recently, analyzes and compares their advantages and disadvantages. It provides clues for making use of appropriate automatic classifying algorithms in different fields. Finally some evaluations and summaries of these algorithms are discussed, and directions to further research have been pointed out.  相似文献   

12.
基于演化超网络的中文文本分类方法   总被引:2,自引:0,他引:2  
为了提高中文文本的分类效果,提出了一种基于演化超网络的中文文本分类方法.采用中国科学院计算技术研究所的汉语词法分析系统对中文文本进行分词,保留文本中的名词、动词和形容词作为特征;以X2统计方法进行特征选择;利用布尔权重计算特征权值.经处理后的特征向量作为系统的训练集和测试集数据.运用超边替代策略训练超网络分类模型,并实现对测试集特征向量的分类.对不同阶数设定下的演化超网络模型进行了性能分析,并将其与传统的KNN和SVM算法进行了比较.结果表明,本方法对复旦大学语料和搜狐语料可获得87.2%和72.5%的宏识别率、86.9%和70.5%的宏召回率、87.0%和71.5%的宏F1,接近或优于KNN和SVM分类方法.所提出的方法是一种有效的中文文本分类手段.  相似文献   

13.
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。如何快速地整理海量信息,对不同的文本进行有效分类,已成为获取有价值信息的瓶颈。本文用模糊聚类分析的方法对文本进行分类,较好地解决了信息的实时分类问题,在实践中收到了良好的效果。  相似文献   

14.
文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.其中基于支持向量机的文本分类方法的研究是信息检索领域的一个重要分支.本文首先讨论了该领域的研究状况,接着阐述并分析了在该领域中的主要研究方法以及实例, 最后对该领域研究中存在的问题和方向进行了分析.  相似文献   

15.
基于机器学习的文本分类方法综述   总被引:1,自引:0,他引:1  
文本分类是信息检索与数据挖掘领域的核心技术,是机器学习领域新的研究热点。本文对现有的基于机器学习的文本分类方法进行了详细的介绍,分析了各种方法的优缺点,并阐述了文本分类方法未来的发展趋势。  相似文献   

16.
基于最大熵模型的文本分类算法对不同测试文档的训练结果相差较大.利用Boosting机制改进基于最大熵模型的分类算法,以提高该分类算法的稳定性.实验结果表明,该改进方法可以有效改善基于最大熵模型分类算法的稳定性,且分类精度也有一定的提高.  相似文献   

17.
对目前比较流行的4种中文文本分类器(Rocchio、KNN、Naive Bayes、最大熵)进行评价,其中,Naive Bayes和最大熵是基于概率统计的方法,而Rocchio和KNN是基于向量的相似度计算的方法。选用X2作为文本特征选取方法,对一个中文文本分类语料库进行分类评测。实验结果表明,最大熵和Naive Bayes的分类性能十分接近,处于较好水平,而KNN和Rocchio分类性能稍差一些。  相似文献   

18.
对目前比较流行的4种中文文本分类器(Rocchio、KNN、NaiveBayes、最大熵)进行评价,其中,NaiveBayes和最大熵是基于概率统计的方法,而Rocchio和KNN是基于向量的相似度计算的方法。选用χ2作为文本特征选取方法,对一个中文文本分类语料库进行分类评测。实验结果表明,最大熵和NaiveBayes的分类性能十分接近,处于较好水平,而KNN和Rocchio分类性能稍差一些。  相似文献   

19.
对目前比较流行的4种中文文本分类器(Rocchio、KNN、Naive Bayes、最大熵)进行评价,其中,Naive Bayes和最大熵是基于概率统计的方法,而Rocchio和KNN是基于向量的相似度计算的方法.选用χ2作为文本特征选取方法,对一个中文文本分类语料库进行分类评测.实验结果表明,最大熵和Naive Bayes的分类性能十分接近,处于较好水平,而KNN和Rocchio分类性能稍差一些.  相似文献   

20.
短文本具有不同于普通文本的独有特点,例如文本长度较短,特征选择分散不一,这使得短文本文类需要处理这些特殊的问题.本文使用了基于主题本体的特征扩展方法,考虑了特征之间的语义关联,达到了较好的分类性能.同时,通过GC(扩展能力)算法使用了案例维护学习,在K-近邻算法中减少样例个数,从而可以提高搜索近邻样例的效率.数值型实验证明了这种学习算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号