首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于核方法的潜在语义文本分类模型   总被引:4,自引:0,他引:4  
在信息检索中,潜在语义索引模型直接应用于文本分类时,由于对分类贡献大的特征可能丢失而效果不佳.而考虑了文本特征及分类信息的潜在语义文本分类模型(LSC)也因为本质上是线性模型而性能不高.为了提高分类性能,通过引入核函数,给出了一种非线性的潜在语义文本分类模型.该模型比LSC模型能更好地表示文档空间的潜在语义结构信息.在Reuter-21578文档集上的实验结果表明,潜在语义文本分类模型有很好的分类性能.  相似文献   

2.
基于概率潜在语义分析的中文文本分类研究   总被引:1,自引:0,他引:1  
概率潜在语义模型使用统计的方法描述"文档—潜在语义—词"之间的概率分布关系,其实质是模拟了潜在的概率语义空间,并将文档和词映射到同一个语义空间.该文将概率潜在语义分析模型用于中文文本分类,一方面较好地处理了自然语言中的同义、多义问题;另一方面通过计算概率潜在语义空间中向量的距离来获得文档间的类别信息从而达到文本分类的目的.实验结果表明,该分类器具有良好的分类性能.  相似文献   

3.
针对当前生成式文本摘要模型在解码时对摘要整体语义信息利用不充分的问题, 提出一种基于语义对齐的神经网络文本摘要方法。该方法以带注意力、Pointer机制和Coverage机制的Sequence-to-Sequence模型为基础, 在编码器与解码器之间加入语义对齐网络, 实现文本到摘要的语义信息对齐; 将获得的摘要整体语义信息与解码器的词汇预测上下文向量进行拼接, 使解码器在预测当前词汇时不仅利用已预测词汇序列的部分语义, 而且考虑拟预测摘要的整体语义。在中文新闻语料LCSTS上的实验表明, 该模型能够有效地提高文本摘要的质量, 在字粒度上的实验显示, 加入语义对齐机制可以使Rouge_L值提高5.4个百分点。  相似文献   

4.
中文文本的可视化表示   总被引:5,自引:1,他引:4  
由于辅助阅读的需求,给出了中文文本的可视化表示,以直观的方式逐级显示文本内容·其基本思想是:利用潜在语义索引的方法,改进文本分类的效果·利用文本层次分析方法,进行文本结构分解,给出了文本结构中各单元的标记信息,由此形成了文本的可视化表示·利用文本类别、文本主题、层次、段落的超文本连接和特征项的导航功能,帮助用户有目的、有选择地浏览文本,有助于信息处理的个性化  相似文献   

5.
针对医学文本缺乏可量化数据结构,基于关键词模型的文本处理方法不适用的问题,在研究词之间潜在语义关联和关键词树结构的基础上,构造了一种基于潜在语义树的语义分析模型用于医学文本的数据挖掘。进一步地将隐含主题与潜在语义的研究相关联,设计出一种基于潜在狄利克雷分配和潜在语义树模型的文本处理方法,可针对不同类型的医学文本生成有一定可读性的自动批注。该方法形成的自动批注主观性低,其准确度和可读性均高于关键词模型的处理结果,可辅助医生进行医学文本的批注和分类,从而减轻其工作量。程序结果表明,该方法目前可应用于对医学图像所见形成诊断意见、对病人病历进行摘要形成和对病症描述给出对症处方等方面,批注的语义匹配度可达67.7%,文本的平均可读性为60.02%。  相似文献   

6.
以专利文献为基础,结合特征传递共现对映射潜在语义空间的影响,提出了基于专利信息的潜在语义索引优化方法。该方法根据专利文献的分解细节信息,将单独的专利文献分解为多个子文档和伪文档,使同一类别文档内特征共现度升高、不同类文档间特征共现度降低,从而使对应的潜在语义空间更加合理。同时提取专利核心特征构建专利信息伪文档,增强合理共现信息的出现频率。实验结果证明,专利文本分类任务结合本方法时,可以有效地提高分类的准确性。  相似文献   

7.
自动文摘的目的是借由计算机技术自动从原始文献中提取文摘,针对这一问题,提出了一种新的基于潜在语义分析(Latent Semantic Analysis,LSA)的中文自动摘要方法,该方法利用奇异值分解(Singular Value Decomposition,SVD)来获得文章的语义结构,以句子和全文的相似度为依据抽取一组句子作为文章的摘要,提升了自动摘要的效率和精度,并重点介绍了该方法的基本思想、特点以及实现方法。实验结果表明,该方法在实践中取得了预期的效果。  相似文献   

8.
中文信息的潜在语义分析   总被引:3,自引:0,他引:3  
潜在语义分析是一种基于潜概念索引的检索技术.文中首先综述了潜在语义分析的理论及方法,并且解释其数学意义;然后通过一个简单示例中文档间、词语间相关度的变化来说明潜在语义分析的作用;最后引入文档自检索矩阵的概念来检验潜在语义分析的检索效果.实验结果进一步说明了潜在语义分析在信息检索领域中有着重要的应用价值.  相似文献   

9.
LSI和kNN相结合的文本分类模型研究   总被引:2,自引:0,他引:2  
针对传统文本分类系统的不足,提出了一种基于隐含语义索引的kNN的文本分类模型。该方法既充分利用了向量空间模型在表示方法上的巨大优势,又弥补了其忽略语义的不足,具备一定的理论和现实意义。  相似文献   

10.
基于概念和统计的问答系统实现机制   总被引:2,自引:0,他引:2  
问答系统与搜索引擎相比答案精练准确、“噪音”较少.为此给出了基于概念和统计的问答系统实现机制.首先确定焦点类型和答案类型,对于不同类型的焦点实行分级概念扩充;以段落为基本单元,利用潜在语义分析技术获取相关文本段落;给出了问题与句子的匹配算法和基于问题相似度的答案抽取算法,通过对语料进行潜在语义索引和增加FAQ反馈,不断增强系统的回答能力.依此研制的大学概况问答系统获得了较好的效果.  相似文献   

11.
12.
融入链接相关度策略的PageRank算法   总被引:1,自引:0,他引:1  
为实现对网页更好地评分,提出了融入链接相关度策略的PageRank算法.以体现人工智能的当代经典PageRank算法为基础,分析其基本思想并指出其在对网页评分中存在的不足,通过引入相关度计算使链接标题的质量和其所指向网页的内容产生联系,实现在网页中各个链接之间的竞争.通过实验和分析,新的算法在不影响原算法的优点和效率的同时能更好地进行网页评分,在网页优先级算法上向人工智能和语义网又迈进了一步.  相似文献   

13.
根据语义特征进行图像检索是图像检索技术的发展趋势。文章提出了一种基于人工智能以实现图像语义特征提取的方法,即通过模糊逻辑、遗传算法和人工神经网络三者的融合来解决图像语义特征提取这一难题,该方法使图像检索能够满足用户的需求,提高了图像检索的效率和精度。  相似文献   

14.
本文提出了一个基于法律事实的适用法条推荐模型.作为应用,本文选取了刑事诈骗罪和民事离婚纠纷两个案由的裁判文书数据集,使用FastText模型,并基于迁移学习方法从预训练的通用词向量出发训练法律词向量,再以此为基础进行文本分类.结果显示,经过迁移学习后,无论诈骗罪案件还是离婚纠纷案件均能做到对案情描述文本全面、准确地推荐适用法条,特别是具有针对性的法规、司法解释等.随着迁移学习模式的不断完善,本文研究的方法还应该可进一步用于证据推送、量刑预测等.  相似文献   

15.
针对日语处理中的疑难问题之一-长句并列成分的系受关系和范围的定,介绍了日本长尾真等人提出的关于并列关键字语境类似度的日语并列成分的分析方法。该方法对日语并列的分类,并列关键字的确定,类似性的决定因素及其量化,并列构造范围的求解等进行了详细的讨论,并给出了算法。  相似文献   

16.
作为第三代数据库的OODB,要求是新的理论方法和技术。作者分析OODB的现状后,提出了一种语义查询模型。它是用一种基于人工智能和数据库相结合(AI-DB)的技术实现的。与用户界面自然语言的查询,被分析、分解为相应的查询规则,建立规则表、触发表和转换表,最后提交给系统依照表格完成查询。这是一种新的基于语义查询的实践。  相似文献   

17.
基于示例的中文文本过滤模型   总被引:13,自引:0,他引:13  
简要描述了文本过滤的背景,提出了基于示例的中文文本过滤模型,其基本思想是首先对于用户提出的示例文本进行文本结构分析,采用文本层次分析方法,提取文本特征,形成主题词表示的用户模板,然后进行文本过滤。  相似文献   

18.
查询语句语义优化的基本思想是,数据库所反映的现实世界的特定知识可以用来将查询语句变换成语义上等价但句法上不同的形式,以期寻找常规优化方法不可能找到的最优执行方案。本文提出了建立在费用模型及约束强度概念上的语义优化策略,并对查询语句中连接运算的删除作了进一步讨论。  相似文献   

19.
为了在单一Web服务无法满足问题求解需求时可以自动地组合多个Web服务以解决复杂问题,利用服务本体描述语言OWL-S对常规Web服务进行语义封装,并选用层级任务网络(HTN)规划作为技术手段.在分析了OWL-S与HTN的相似性后,对HTN的操作算子(operator)和方法(method)定义进行改写,并对常规HTN规划算法进行扩展,使之成为具有领域知识的HTN规划,更适用于解决领域相关的服务组合问题.最后提出了一种基于改进HTN规划的服务自动组合规划器框架并搭建了试验系统.案例研究结果表明,这种改进的HTN规划算法在领域本体的配合下可以有效支持Web服务的自动组合.  相似文献   

20.
查询语句语义优化的基本思想是,数据库所反映的现实世界的特定知识可以用来将查询语句变换成语义上等价但句法上不同的形式,以期寻找常规优化方法不可能找到的最优执行方案。本文提出了建立在费用模型及约束强度概念上的语义优化策略,并对查询语句中连接运算的删除作了进一步讨论。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号