首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
一种基于潜在语义结构的文本分类模型   总被引:19,自引:1,他引:19  
潜在语义索引(LSI)模型能在一定程度上解决一词多义和多词一义问题,并能过滤一部分文档噪音.然而在LSI模型中,一些对分类贡献大的特征,由于其对应的特征值小而被滤掉.针对这一问题,文中提出了一种扩展LSI模型的文本分类模型.该模型在尽量保留文档信息的同时,增加考虑了文档的类别信息,从而能比LSI模型更好地表示原始文档空间中的潜在语义结构.  相似文献   

2.
基于概率潜在语义分析的中文文本分类研究   总被引:1,自引:0,他引:1  
概率潜在语义模型使用统计的方法描述"文档—潜在语义—词"之间的概率分布关系,其实质是模拟了潜在的概率语义空间,并将文档和词映射到同一个语义空间.该文将概率潜在语义分析模型用于中文文本分类,一方面较好地处理了自然语言中的同义、多义问题;另一方面通过计算概率潜在语义空间中向量的距离来获得文档间的类别信息从而达到文本分类的目的.实验结果表明,该分类器具有良好的分类性能.  相似文献   

3.
基于核方法的潜在语义文本分类模型   总被引:4,自引:0,他引:4  
在信息检索中,潜在语义索引模型直接应用于文本分类时,由于对分类贡献大的特征可能丢失而效果不佳.而考虑了文本特征及分类信息的潜在语义文本分类模型(LSC)也因为本质上是线性模型而性能不高.为了提高分类性能,通过引入核函数,给出了一种非线性的潜在语义文本分类模型.该模型比LSC模型能更好地表示文档空间的潜在语义结构信息.在Reuter-21578文档集上的实验结果表明,潜在语义文本分类模型有很好的分类性能.  相似文献   

4.
以专利文献为基础,结合特征传递共现对映射潜在语义空间的影响,提出了基于专利信息的潜在语义索引优化方法。该方法根据专利文献的分解细节信息,将单独的专利文献分解为多个子文档和伪文档,使同一类别文档内特征共现度升高、不同类文档间特征共现度降低,从而使对应的潜在语义空间更加合理。同时提取专利核心特征构建专利信息伪文档,增强合理共现信息的出现频率。实验结果证明,专利文本分类任务结合本方法时,可以有效地提高分类的准确性。  相似文献   

5.
基于潜在语义对偶空间的跨语言文本分类研究   总被引:1,自引:1,他引:0  
当今互联网上语言呈现多样性趋势,如何组织这些多语言的资源成为研究的热点。通过对双语平行语料库提取语义对应关系,构建潜在语义对偶空间,把双语文档映射到此概念空间后,实现跨语言分类。并通过改变训练集样本大小及语言构成来验证模型的分类性能。实验结果表明基于潜在语义对偶空间的跨语言文本分类具有良好的稳定性和准确度。  相似文献   

6.
潜在语义索引作为一种公认有效的矩阵降维技术,在关键词检索、文本分类等多种基于统计的机器文本学习任务中被广泛应用.基于专业文献的文本分类任务,结合严格分类体系下同类与不同类文本的特点,以专利文献分类为例,提出了一种基于类别信息优化的潜在语义分析分类技术.该方法根据分类文本各类别的特征信息,将原始文档分解为多种伪文档,强化不同分类的专属特征出现频率,进而优化构建潜在语义空间,提升模型分类性能.实验结果证明,专利文本分类任务结合该方法时,可以有效地提高分类的准确性.  相似文献   

7.
多标签文本分类是自然语言处理领域的重要任务之一.文本的标签语义信息与文本的文档内容有紧密的联系,而传统的多标签文本分类方法存在忽略标签的语义信息以及标签的语义信息不足等问题.针对以上问题,提出一种融合标签嵌入和知识感知的多标签文本分类方法 LEKA (Label Embedding and Knowledge-Aware).该方法依赖于文档文本以及相应的多个标签,通过标签嵌入来获取与标签相关的注意力.考虑标签的语义信息,建立标签与文档内容的联系,将标签应用到文本分类中.另外,为了增强标签的语义信息,通过知识图谱嵌入引入外部感知知识,对标签文本进行语义扩展.在AAPD和RCV1-V2公开数据集上与其他分类模型进行了对比,实验结果表明,与LCFA (Label Combination and Fusion of Attentions)模型相比,LEKA的F1分别提高了3.5%和2.1%.  相似文献   

8.
用文本分类的方法找出中文评教信息的情感倾向,使学生主观评价里蕴含的信息得到有效利用,是对现有评教系统的必要补充.采用基于潜在语义分析的方法对文本向量降维,并用支持向量机的分类方法对目标文本进行分类,得到每一条主观评价的情感倾向.分析了特征选择、特征抽取方法、降维维数、词性、训练集合与测试集合样本的比例等几方面对分类的影响,找到了较好的中文评教文本分类模型.  相似文献   

9.
提出一种基于预聚类的潜在语义文献检索算法.首先,对待检索文档集进行预聚类,在潜在语义分析方法的基础上采用k-means聚类算法,寻找出各聚类簇的中心点;其次,在检索时,通过计算查询向量与各聚类簇中心点的相似度来进行检索.此方法有效解决了现有潜在语义文献检索算法在检索时需耗费大量时间计算查询向量与各文本向量之间的相似度的不足.另外还针对文献检索的特点,重新给出特征权重计算方法.实验结果表明,该方法缩短了检索的时间,提高了检索的效率.  相似文献   

10.
针对当前电力文本分类方法中因忽视类别标签之间潜在语义关联关系而导致分类性能低效的问题,提出一种基于层次化分类模型的电力文本分类方法.首先,利用采集的电力成果非结构化文档,采用自动化信息提取技术和标注技术,构建电力文本多标签分类训练集,并结合领域知识分析,构建类别标签之间的层次化关系.然后,提出基于类别结构和标签语义混合...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号