首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
基于潜在语义的多类文本分类模型研究   总被引:15,自引:0,他引:15  
在文本分类中,一个文本往往有多类属性,而目前大多数分类模型均为二元分类模型.因此,提出一种基于潜在语义的多类分类模型.该模型同时考虑文档特征信息和文档的类属信息,在提取文档潜在语义信息的同时把对文档分类贡献大的特征信息保留下来.其结果是既能较好地解决文档中同义词和多义词的问题,又能解决多类属分类问题,并且能够探测到新类.在Reuters文档集上的实验表明,在维数较低的情况下,分类效果比较好,性能比较稳定.  相似文献   

2.
一种基于潜在语义结构的文本分类模型   总被引:19,自引:1,他引:19  
潜在语义索引(LSI)模型能在一定程度上解决一词多义和多词一义问题,并能过滤一部分文档噪音.然而在LSI模型中,一些对分类贡献大的特征,由于其对应的特征值小而被滤掉.针对这一问题,文中提出了一种扩展LSI模型的文本分类模型.该模型在尽量保留文档信息的同时,增加考虑了文档的类别信息,从而能比LSI模型更好地表示原始文档空间中的潜在语义结构.  相似文献   

3.
基于概率潜在语义分析的中文文本分类研究   总被引:1,自引:0,他引:1  
概率潜在语义模型使用统计的方法描述"文档—潜在语义—词"之间的概率分布关系,其实质是模拟了潜在的概率语义空间,并将文档和词映射到同一个语义空间.该文将概率潜在语义分析模型用于中文文本分类,一方面较好地处理了自然语言中的同义、多义问题;另一方面通过计算概率潜在语义空间中向量的距离来获得文档间的类别信息从而达到文本分类的目的.实验结果表明,该分类器具有良好的分类性能.  相似文献   

4.
潜在语义索引作为一种公认有效的矩阵降维技术,在关键词检索、文本分类等多种基于统计的机器文本学习任务中被广泛应用.基于专业文献的文本分类任务,结合严格分类体系下同类与不同类文本的特点,以专利文献分类为例,提出了一种基于类别信息优化的潜在语义分析分类技术.该方法根据分类文本各类别的特征信息,将原始文档分解为多种伪文档,强化不同分类的专属特征出现频率,进而优化构建潜在语义空间,提升模型分类性能.实验结果证明,专利文本分类任务结合该方法时,可以有效地提高分类的准确性.  相似文献   

5.
提出了一种基于语义标注和最小二乘神经网络信息抽取的方法,并选用教材为研究对象,以语义标注作为构建信息抽取规则的基础,以原始文本与目标模板之间的相似度作为竞争力,通过原始文本与目标模板的竞争来实现原始文本的分类和噪声信息的过滤,直接从分类的角度抽取出教材信息。  相似文献   

6.
图像表达是图像分类中最基本也是最重要的一个环节,当前的图像表达方法为了获得较高的分类性能,通常采用维度极高的特征向量.这给分类器的训练和特征的存储带来了极大的负担.同时,这些方法没有考虑图像的变化给图像表达所带来的影响.为此,针对以上的问题提出了一种对图像的可变性进行建模的方法.该方法首先使用高斯混合模型对底层视觉特征进行建模;再构造图像的充分统计量;最后采用可变性分析对充分统计量进行分解,并结合偏最小二乘回归方法获得紧致的图像表达.在公开的主流图像分类数据库上,该方法在获得更高的分类性能的同时极大地降低了分类器的训练和特征存储的开销.  相似文献   

7.
基于偏最小二乘回归分析,提出了一种新的人脸表示与重构方法.与主成分分析相比,通过偏最小二乘所抽取的低维人脸表示特征具有更好的分类性能.在ORL人脸数据库上的实验结果表明,基于偏最小二乘方法对于测试图像进行重构优于主成分分析方法,并且分类结果也好于后者.  相似文献   

8.
针对化工过程中的具有严重非线性、不确定性、时变性的复杂pH中和过程系统建模问题,提出一种基于核主元分析(KPCA)与核偏最小二乘(KPLS)相结合的建模方法.在高维特征空间内,该方法通过KPCA有效地提取输入数据的非线性主元,利用KPLS方法将输入变量投影在潜在变量上,再用输入与输出变量之间的协方差信息提取潜在特征建立pH中和过程模型.为验证其有效性,将KPCA-KPLS方法应用到弱酸强碱中和过程、强酸强碱中和过程实例中,并与核偏最小二乘、核主元分析_支持向量机(KPCA-SVM)、核极限学习机(KELM)、极限学习机(ELM)、最小二乘支持向量机(LSSVM)、SVM等方法进行比较.实验结果表明:KPCA-KPLS方法具有很高的动态建模精度.  相似文献   

9.
主观文本观点识别是文本信息处理的一个重要研究方面,在产品推荐、智能信息检索、辅助决策等方面均具有重要的潜在应用价值.与连续的n元词的文本表示方法不同,间隔n元核能够提取主观文本中不规范不连续的特征.此外,间隔n元核的表示方法不需要进行词语依存关系分析和词语极性强度分级.在文本观点分类数据集和短评论数据集上的实验结果表明:与已有的观点分类方法相比,基于间隔n元核的方法有更高识别准确率;在不同特征数目下,增加间隔n元核特征均能够提高分类精度;间隔n元核是一种合适的主观文本特征表示方法.  相似文献   

10.
目前的神经网络一般只将词粒度层面的词向量作为输入,忽略了语义层面的全局语义特征.针对此问题,提出了一种基于局部特征和全局特征融合的情感分类方法,以解决评论特征稀疏和主题聚焦性差的问题.对于局部特征,选择基于情感词典和BiLSTM神经网络模型提取基于词向量的文本特征.对于文本集的全局主题特征,采用神经主题模型提取文本主题特征,并将其作为全局特征来表示短文本信息.最终将基于局部加权词向量的文本特征和基于神经主题模型的文本主题特征进行拼接,并通过Softmax层输出,完成文本情感分类.结果表明:融合全局主题语义和局部加权词向量可以更加丰富神经网络的特征,从而有效地提高情感分类的准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号