首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
基于领域知识的文本分类   总被引:3,自引:0,他引:3  
提出了一种基于知识的文本分类方法,其中引入领域知识,利用领域特征作为文本特征,增强文本表示能力,将文本分类过程看作集聚计算过程.文本索引过程采用了改进型特征选取和权重计算方法.提出了一种基于互信息的学习算法,从训练语料中自动学习领域特征集聚计算公式.实验结果显示基于领域知识的文本分类技术总体性能优于传统的贝叶斯分类模型,领域知识的应用能够有效改善对相似主题和相反主题的分类性能.  相似文献   

2.
对数字化科技论文的自动分类研究   总被引:1,自引:0,他引:1  
针对科技论文具有半结构化的特点,提出利用科技论文的元数据的多层次分类模型. 这里元数据包含论文的标题、关键词集合和摘要等信息. 实验证明,若只利用元数据,可以取得与传统的基于全文信息分类方法近似的分类精度;若基于领域知识所产生的分类法, 先利用元数据进行粗分类,然后再进行全文分类,所得到的分类精度要高于已知最好算法. 因元数据的尺寸远远小于论文全文的尺寸,而粗分类后每类的论文数要远远小于全体论文数,故在分类类别数目较多且分类文本分布较为平均的情况下,可极大地缩短分类的时间.  相似文献   

3.
针对当前电力文本分类方法中因忽视类别标签之间潜在语义关联关系而导致分类性能低效的问题,提出一种基于层次化分类模型的电力文本分类方法.首先,利用采集的电力成果非结构化文档,采用自动化信息提取技术和标注技术,构建电力文本多标签分类训练集,并结合领域知识分析,构建类别标签之间的层次化关系.然后,提出基于类别结构和标签语义混合...  相似文献   

4.
针对科技论文具有半结构化的特点,提出利用科技论文的元数据的多层次分类模型.这里元数据包含论文的标题、关键词集合和摘要等信息.实验证明,若只利用元数据,可以取得与传统的基于全文信息分类方法近似的分类精度;若基于领域知识所产生的分类法。先利用元数据进行粗分类,然后再进行全文分类,所得到的分类精度要高于已知最好算法.因元数据的尺寸远远小于论文全文的尺寸,而粗分类后每类的论文数要远远小于全体论文数,故在分类类别数目较多且分类文本分布较为平均的情况下,可极大地缩短分类的时间.  相似文献   

5.
基于Web的新闻文本分类技术的研究   总被引:1,自引:0,他引:1  
从Web新闻网页中挖掘出有用的知识是当前研究的热点问题,将Web新闻网页进行解析,在此基础上进行Web新闻文本分类处理,可在一定程度上解决此问题.针对Web新闻网页的结构特点,提出了基于Web的新闻文本分类系统的实现框架.实验结果表明,基于KNN算法的分类系统具有较好的分类效果.  相似文献   

6.
文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.其中基于支持向量机的文本分类方法的研究是信息检索领域的一个重要分支.本文首先讨论了该领域的研究状况,接着阐述并分析了在该领域中的主要研究方法以及实例, 最后对该领域研究中存在的问题和方向进行了分析.  相似文献   

7.
多标签文本分类是自然语言处理领域的重要任务之一.文本的标签语义信息与文本的文档内容有紧密的联系,而传统的多标签文本分类方法存在忽略标签的语义信息以及标签的语义信息不足等问题.针对以上问题,提出一种融合标签嵌入和知识感知的多标签文本分类方法 LEKA (Label Embedding and Knowledge-Aware).该方法依赖于文档文本以及相应的多个标签,通过标签嵌入来获取与标签相关的注意力.考虑标签的语义信息,建立标签与文档内容的联系,将标签应用到文本分类中.另外,为了增强标签的语义信息,通过知识图谱嵌入引入外部感知知识,对标签文本进行语义扩展.在AAPD和RCV1-V2公开数据集上与其他分类模型进行了对比,实验结果表明,与LCFA (Label Combination and Fusion of Attentions)模型相比,LEKA的F1分别提高了3.5%和2.1%.  相似文献   

8.
基于命名实体的Web新闻文本分类方法   总被引:1,自引:0,他引:1  
文章对Web新闻领域的文本自动分类问题进行了研究,提出一种基于新闻实体要素的分类方法;在应用空间向量模型的基础上,充分考虑命名实体对Web新闻文本分类的特殊作用,并进行了实验.实验结果表明,以新闻实体要素为特征的文本分类系统可得到较高的分类精度,该方法具有一定的实用价值.  相似文献   

9.
分析了文本自动分类的关键理论及技术,给出一个已实现的基于向量空间模型(VSM)的文本自动分类系统的框架模型,重点描述此系统的实现算法.此算法在训练阶段通过部分训练集确定向量的特征提取维数,并提出一种"平均值"匹配阈值调整方法,从而在精度和效率方面优于传统的分类算法.实验表明此系统查准率为91.8%,查全率为85%.  相似文献   

10.
基于机器学习的文本分类方法综述   总被引:1,自引:0,他引:1  
文本分类是信息检索与数据挖掘领域的核心技术,是机器学习领域新的研究热点。本文对现有的基于机器学习的文本分类方法进行了详细的介绍,分析了各种方法的优缺点,并阐述了文本分类方法未来的发展趋势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号