首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
低时空复杂度始终是多类别文本分类算法希望达到的性能。新闻文档集中Token频率分布的研究再次验证了Token频率分布普遍服从幂律。据此设计了一种新的多类别Token频率索引数据结构,并基于该数据结构提出了一种低时空复杂度的多类别文本分类算法。在TanCorp数据集上的实验结果表明该算法在多类别新闻文档分类应用中是时空高效的。  相似文献   

2.
在实时文本分类任务中经常会有新类别出现,传统的文本分类方法通常难以利用实时的小规模样本学习新类别的模型。提出了一种基于迁移学习的新类别模型训练方法。首先将迁移学习技术和LS -SVM 算法结合,设计正则化项以控制源模型的迁移量及新模型与源模型的相似度,达到增量迁移。其次具体讨论了正则化项的学习方法。实验结果显示该方法相对同类算法有更好的分类性能,可以更高效地完成各种实时文本分类任务。  相似文献   

3.
基于中文新闻信息分类体系,探索了中文新闻信息分类与代码的自动分类方法.根据中文新闻信息分类与代码的特点以及初始主题词满足的规则获得分类的初始主题词,利用获得的初始主题词构建中文新闻信息分类与代码体系的特征向量,将文本按该体系进行自动分类,分类结果采用人工抽样分析,一级类目的正确率为72%.  相似文献   

4.
针对当前电力文本分类方法中因忽视类别标签之间潜在语义关联关系而导致分类性能低效的问题,提出一种基于层次化分类模型的电力文本分类方法.首先,利用采集的电力成果非结构化文档,采用自动化信息提取技术和标注技术,构建电力文本多标签分类训练集,并结合领域知识分析,构建类别标签之间的层次化关系.然后,提出基于类别结构和标签语义混合...  相似文献   

5.
基于类别核心词的朴素贝叶斯中文文本分类   总被引:5,自引:0,他引:5  
摘要及关键词中提取类别核心词,通过加权方式,强化它们在文本分类中的作用. 基于朴素贝叶斯分类方法的实验表明,提出的方法能够有效提高中文文本的分类准确率.  相似文献   

6.
训练集类别分布对文本分类的影响   总被引:11,自引:0,他引:11  
为了减小训练集中各类别资源分布不均衡对分类性能造成的影响,该文对原始训练集使用类别均衡法,即对原始训练集以类为单位进行重新组合,使得重组后的训练集类别分布尽可能均衡,从而可以在均衡的类别上进行训练和分类,以降低在训练过程中对小类别的不公平待遇.在复旦大学语料库上使用类别均衡法,分别用Naive Bayes和Rocchio方法分类,前者的宏平均F1从48.62%提高到了80.99%,后者的宏平均F1从64.58%提高到80.26%,微平均F1从73.99%提高到80.47%.实验结果显示,类别均衡法显著提高了分类性能.  相似文献   

7.
深层分类模型是一种解决大规模文本层次分类问题的有效范式。本文基于该范式提出一种改进型模型,首先将一种新方法用于单独评价搜索阶段的效果;然后利用类别和文档信息共同选择候选类别;最后基于类中心训练Rocchio分类器,同时利用相关类别的分类结果确定最终类别。在ODP数据集上的实验表明,相对于最新型的深层分类方法,该模型具有一定优势。  相似文献   

8.
文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.其中基于支持向量机的文本分类方法的研究是信息检索领域的一个重要分支.本文首先讨论了该领域的研究状况,接着阐述并分析了在该领域中的主要研究方法以及实例, 最后对该领域研究中存在的问题和方向进行了分析.  相似文献   

9.
采用类别相似度聚合的关联文本分类方法   总被引:1,自引:0,他引:1  
针对基于关联规则的分类方法在分类时仅考虑规则的置信度并使用规则修剪技术,导致分类器的分类精度难以进一步提高的问题,提出了一种基于类别相似度聚合的关联文本分类方法.该方法采用修改的χ2统计技术提取各类别的特征词;为保证规则匹配的精度和速度,使用CR-tree存储分类规则,并给出了CR-tree的构建与匹配算法;采用向量内积来计算文本类别分量与类别标志向量的相似度,进而使用规则置信度和类别相似度的聚合值作为文本分类的依据.基于实际网络文本的实验表明,该方法仅需提取30个特征词,分类结果的微平均值即可达到92.42%,优于未经剪枝的ARC-BC分类器及KNN、Bayes分类器;在分类耗时方面,该方法与未经剪枝的ARC-BC分类器持平,表明该方法引入的相似度与聚合值的计算开销在可接受的范围内.  相似文献   

10.
11.
特征加权是一种依据特征在分类中起到的作用为特征赋予相应权重的过程,是为了提高分类性能而为特征标记权重的策略.基于类空间密度提出了两个新的特征加权算法:tf* ICSDF和ICSDF-based.实验中,在RCV1-4和20 Newsgroups数据集上,采用支持向量机分类器将提出的方法进行了验证.实验结果显示,该方法相比传统的特征加权方法(prob-based、tf*icf和icf-based)可以有效地提升文本分类性能.  相似文献   

12.
Chinese text categorization differs from English text categorization due to its much larger term set (of words or character n-grams),which results in very slow training and working of modern high-performance classifiers.This study assumes that this high-dimensionality problem is related to the redundancy in the term set,which cannot be solved by traditional term selection methods.A greedy algorithm framework named "non-independent term selection" is presented,which reduces the redundancy according to string-level correlations.Several preliminary implementations of this idea are demonstrated.Experiment results show that a good tradeoff can be reached between the performance and the size of the term set.  相似文献   

13.
基于多类特征池化的文本分类算法   总被引:2,自引:0,他引:2  
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤、网页分类等领域有着广泛的应用价值。目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法。在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息。通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明本文所给出的多种特征池化方法能够提高文本分类的准确率,说明了本文算法的有效性。  相似文献   

14.
基于汉字字频向量的中文文本自动分类系统   总被引:1,自引:0,他引:1  
提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计(LinearLeastSquareFil,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类  相似文献   

15.
人名、机构名在基于概念的文本分类中的应用研究   总被引:1,自引:0,他引:1  
基于概念的文本分类方法,能对同义词、多义词进行比较好的处理,是一种比较优秀的文本分类算法.但是此方法往往对人名、机构名等具有分类特征的词不能很好地处理,依然停留在关键词的层次.提出了一种将语义词典与一部人名、机构名构成的专有名词词典相结合的新的概念分类方法,并经过实验验证了其有效性.  相似文献   

16.
基于属性约简的方法,放弃以往复杂的规则匹配算法,提出将约简后的多种属性组进行析取,筛选特征项,并构造分类器.实验结果表明,此算法不仅简单,还能降低维数和提高分类结果.  相似文献   

17.
首先介绍了几种常见的特征选择和特征抽取方法,并结合K-近邻分类算法对4种特征选择方法进行了分类测试,同时通过测试分析,提出了一些改进的、可行的互信息评价函数.  相似文献   

18.
介绍了文本分类的思想,探讨了通过决策树学习来对文本进行有效分类的过程。  相似文献   

19.
为了简化计算,提高分类速度,在支持向量机分类基础上,将sigmoid核函数与云模型相结合,提出了一种简单的核函数的实现方法。这种方法不仅提高了SVM文本分类能力,而且明显地减少了平均的CPU执行时间。  相似文献   

20.
探讨了层次混合专家(HME)模型在说话人辨认中的应用。对于一个多路分类问题,提出了一个推广的贝努利概率分布密度函数,取代早先用于HME中的多项式概率分布密度函数。利用提出的概率分布密度函数和HME模型,用EM学习算法对模块网络进行训练所得到的说话人辨认系统不仅具有良好的性能,而且具有非常快的训练速度  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号