首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 179 毫秒
1.
基于概念共现图的多文档自动摘要研究   总被引:1,自引:0,他引:1  
以概念统计为基础,以WordNet为语义资源进行语义消歧和概念归并,提出了一种概念共现图模型并把它应用于多文档自动文摘.该模型利用概念间的共现信息构造概念共现图,抽取多文档集合的主题概念,再根据主题概念构建向量空间模型并计算句子的重要性.由于对概念进行了良好的归纳,该模型能够挖掘蕴涵在文档集中的深层次主题.在DUC2005数据集上评测的结果表明,该方法取得的效果令人满意,可用于实际的应用.  相似文献   

2.
提出一种新的文档表示模型——基于共现词对的向量空间模型。模型以文档中共现的词对为基本考察对象,通过统计学特征选择有代表性的词对来表示文档。基于覆盖算法的文本分类实验表明此模型有较强的文档表示效果,为文本自动化处理提供了一条新思路。  相似文献   

3.
一种词汇共现算法及共现词对检索系统排序的影响   总被引:6,自引:0,他引:6  
为了探讨共现词对检索系统排序相关性的影响,提出一种新的共现词汇算法--FDC.算法中考虑了词汇在文档中的共现频度、相对距离和共文档率.从天网搜索引擎查询日志中选取部分查询词,用本算法和潜在语义索引(LSI)方法分别求其共现词汇,并以相同的评分策略改变原始排序结果.Discounted cumulative gain(DCG)评估结果表明,本算法获得的共现词在99%的置信度下对原始排序的相关性有改进;而LSI方法获得的共现词对排序相关性也表现出同样显著的改进效果.结果显示共现词汇能改进检索系统结果排序的相关性,并且不依赖于特定算法.  相似文献   

4.
基于互信息与词语共现的领域术语自动抽取方法研究   总被引:1,自引:0,他引:1  
领域术语自动抽取是本体建设中最基础最重要的工作。领域术语的自动抽取,通常采用基于规则或者基于统计的方法,这些方法是从术语的完备性,或者是检验术语的领域性进行检验。在前人的基础上提出了一种方法,该方法不仅测试领域术语的完备性,同时测试了其领域性,以期获得更好的结果。实验结果表明,该方法获得的术语准确率得到了一定的改进,准确率和召回率分别达到了81.7%和70%。  相似文献   

5.
提出了一种利用传统向量空间模型VSM(Vector Space Model)和词共现概念共同表示文档特征的新方法,并将该方法应用于基于平面划分的中文文本聚类中.通过实验,表明基于传统VSM和词共现概念的文本聚类方法与传统的单纯基于  相似文献   

6.
针对汽车故障问答文本特征稀疏、语义信息不全、深层次语义特征较难提取等问题,提出基于问题-答案语义共现的多层次注意力卷积长短时记忆网络模型(co-occurrence word attention convolution LSTM neural network,CACL)的问题分类方法。通过向量空间模型计算问题与答案文本中语义相似的共现词,使用注意力机制聚焦问题文本中的共现词特征,输入卷积神经网络(convolutional neural network,CNN)提取问题局部特征,通过长短时记忆网络(long short-term memory network,LSTM)及词级别注意力机制提取长距离依赖特征及其更高层次的文本特征,采用Softmax进行问题分类。结果表明,相比较于主流的问题分类方法,该方法有效提高了问题分类的精度,最高提升了10.04%的准确率。同时,试验发现当选用11个有效共现词且共现词来自问题文本时,模型的处理精度最佳。合理利用问题-答案文本语义相似的共现词,能有效提升汽车故障问题的分类性能,且共现词的个数、来源对问题的分类精度有一定的影响。  相似文献   

7.
基于Morphology处理和主题词抽取的垃圾邮件过滤方法   总被引:4,自引:0,他引:4  
考虑到垃圾邮件预处理的重要性,提出了利用Morphology对垃圾邮件内容进行还原.为了提高邮件分类的性能,对邮件进行主题词抽取,并且结合邮件其他的属性特征,利用贝叶斯方法对邮件进行分类.实验表明,这种基于Morphology处理和主题词抽取的垃圾邮件过滤方法十分有效.  相似文献   

8.
针对特定目标的情感分析是文本情感细粒度理解任务的重要内容.已有研究大多通过循环神经网络和注意力机制来建模文本序列信息和全局依赖,并利用文本依赖解析树作为辅助知识,但这些方法没有充分利用目标词与文本词之间的依赖关系,也忽略了训练语料库中的词共现关系,而词共现信息往往意味着一种语法搭配.为了解决上述问题,提出一种目标依赖的多头自注意力网络模型.该模型首先设计内联和外联两种不同的注意力机制用于建模文本词和目标词的隐藏状态和语义交互;其次,该模型构建了语料库级别和句子级别的词共现图,并通过图卷积网络将词共现信息融合进文本的特征表示学习并用于下游分类任务.在五个标准数据集上进行了对比实验,实验结果表明,提出的模型在方面级情感分析任务中的性能优于所有对比模型.  相似文献   

9.
机器翻译的研究是人工智能中自然语言理解部分的一个分支,而译文质量是机器翻译系统评估的核心问题.讨论了基于n-gram共现的机器翻译自动评测框架,介绍了BLEU、N IST两种自动评价方法,并针对其提出若干改进思路,旨在更好地实现机器翻译译文质量的自动评估,从而对机器翻译系统的开发和完善提供更好的指导和辅助.  相似文献   

10.
基于同义词词林的中文文本主题词提取   总被引:3,自引:0,他引:3  
中文文本主题词的提取可以浓缩一篇文章,可以提炼一个中文网页,还可以帮助实现网上广告与网页的精确匹配。提出了一种基于同义词词林的中文文本主题词提取方法,不仅考虑了传统的影响主题词语权重的因素,还考虑到了同义词、相关词以及下位词的出现对于词语权重的影响。实验表明,用该方法对中文文本  相似文献   

11.
基于统计的中文关键短语自动抽取   总被引:1,自引:0,他引:1  
用统计的方法从单文本中自动抽取关键短语。在实验中验证了频度、首位置作为特征的有效性。用各种方法过滤非法词串,综合短语位置和统计特征对候选短语进行权重计算,并依据关键短语分布规律选择关键短语。另外,通过分析关键短语分布特点为Ⅳ元短语在过滤、按比例选择方面提供了依据。获得了比较好的实验结果:TOP5精确率21.80%,召回率28.27%,F-measure25%;TOP10精确率17.10%,召回率44.50%,F-measure30.80%。  相似文献   

12.
特征权值的选择是文本分类技术的基础环节.在详细分析文本分类技术特点的基础上,基于信息熵理论建立了TF_IDF的改进算法模型;并根据实际工程数据,验证了算法模型的有效性.理论分析和实例验证表明该算法弥补了传统TFIDF算法没有考虑词条文本类间分布的不足,能更好的体现特征词条的权重,从而能有效提高分类的精确度.  相似文献   

13.
知识抽取任务是从非结构化的文本数据抽取三元组关系(头实体-关系-尾实体)。现有知识抽取方法分为流水式方法和联合抽取方法。流水式方法将命名实体识别和实体知识抽取分别用各自的模块抽取,这种方式虽然有较好的灵活性,但训练速度较慢。联合抽取的学习模型是一种通过神经网络实现的端到端的模型,同时实现实体识别和知识抽取,能够很好地保留实体和关系之间的关联,将实体和关系的联合抽取转化为一个序列标注问题。基于此,本文提出了一种基于字词混合和门控制单元(Gated Recurrent Unit, GRU)的科技文本知识抽取(MBGAB)方法,结合注意力机制提取中文科技资源文本的关系;采用字词混合的向量映射方式,既在最大程度上避免边界切分出错,又有效融入语义信息;采用端到端的联合抽取模型,利用双向GRU网络,结合自注意力机制来有效捕获句子中的长距离语义信息,并且通过引入偏置权重来提高模型抽取效果。  相似文献   

14.
基于主题词权重和句子特征的自动文摘   总被引:1,自引:1,他引:0  
为获得高质量的自动文摘,在组合词识别算法的基础上,充分考虑词的频率、词性、词的位置、词长等因素,构建了一个词语权重计算公式,该公式能使表达主题的词和短语具有较高的权重.对句子权重的计算,则考虑了句子的内容、位置以及线索词的作用和用户偏好等.摘要的生成充分考虑了候选文摘句的相似性,避免了冗余信息的加入.对摘要的评估进行了从句子粒度到词语粒度的改进,提出了一种基于词语粒度的准确率和召回率计算方法.实验证明,该算法生成的自动文摘有着较高的质量,平均准确率达到77.1%.  相似文献   

15.
针对文本自动分类时可能存在一个文本属于多类的问题,提出了一种基于模糊向量空间模型和神经网络的文本自动分类方法。该方法采用模糊集理论,把特征项在文档中出现的位置作为反映文档主题的重要程度(隶属度),并在特征提取时充分考虑该位置信息,从而构造出模糊特征向量,使文本分类更接近手工分类方法。建立的网络由输入层、隐含层和输出层组成,其中输入层完成分类样本的输入,隐含层提取输入样本所隐含的模式特征,输出层用于输出分类结果。实验部分以万方数据库中部分文档数据为例验证了该方法的有效性。  相似文献   

16.
针对自动文摘处理,提出一种新颖的自动文摘句子加权方法.该方法采用基于互增强关系(MRP)的迭代算法模拟句子和词之间的循环加权关系,计算句子权重.实验结果表明,基于MRP的迭代算法收敛速度快;与传统的自动文摘方法和MS Word Summarizer相比,所提出的基于MRP的句子加权方法可以使自动文摘系统具有更好的性能.  相似文献   

17.
基于语义联系的新闻网页关键词抽取   总被引:1,自引:0,他引:1  
提出一种基于语义联系的新闻网页度,还考虑词语在具体上下文中的相关性,用词汇链将词语语义联系表示成图形式,在此基础上抽取出新闻网页关键词.对从网易网站选取120篇有核心提示的新闻网页进行测试,实验结果表明,所提出的方法比基于词频的关键词抽取方法和基于<知网>语义相似度构建词汇链的关键词抽取方法,在准确率和召回率上有很大的提高,当抽取关键词个数为3时,比基于词频方法的准确率和召回率分别提高了27.77%和21.38%.  相似文献   

18.
针对传统的Web信息抽取方法运算量大、自动化程度低的问题,提出了一种基于SVM的WEB信息自动化抽取方法。利用SVM优秀的分类性能将网页中有用数据和无用数据分类标注,有效地完成Web信息抽取任务,准确地抽取出所需信息,实现数据抽取的自动化。实验结果表明,该方法可以有效地获取网页信息特征,具有较高的召回率和准确率。  相似文献   

19.
提出一种基于词间关联度度量的维吾尔文本自动切分方法。该方法从大规模生语料库中自动获取维吾尔文单词Bi-gram及上下文语境信息, 在充分考虑维吾尔文单词间结合规则的前提下, 将相邻单词间的互信息、t-测试差及双词邻接对熵的线性融合作为组合统计量(dmd), 度量文本中相邻单词之间的关联程度。以dmd度量的弱关联的词间位置作为切分点进行自动切分, 得到语义及结构完整的词串, 而不仅仅是以空格隔开的单词。在大规模文本语料上进行的测试表明, 该方法的切分准确率达到88.21%。  相似文献   

20.
针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷, 提出一种基于Hownet的词向量表示方法(H-WRL)。首先, 基于义原独立性假设, 将 Hownet中所有N个义原指定为欧式空间的一个标准正交基, 实现Hownet义原向量初始化; 然后, 根据Hownet中词语与义原之间的定义关系, 将词语向量表示视为相关义原所张成的子空间中的投影, 并提出学习词向量表示的深度神经网络模型。实验表明, 基于Hownet的词向量表示在词相似度计算和词义消歧两项标准评测任务中均取得很好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号