首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
科技文献中回顾前人研究成果、分析存在的问题、提出解决方法等语言片段是论文创新性信息的构成部分。分析论文写作过程中问题分析信息的逻辑思维以及在文章中呈现的篇章关系,综合利用引用分布特征、篇章关系特征、否定情感特征构建具有普适性的信息抽取语义模式。从论文原始文本中通过匹配定义好的语义模式抽取出问题分析信息。同时,利用引导词特征、语义相似度计算从论文文本中抽取出论文的主要工作信息。以数据挖掘领域科技文献为例,对比人工抽取结果对提出的方法进行评价,结果表明该方法能较准确抽取相应信息,为科技论文聚类、论文推荐提供基础数据来源。  相似文献   

2.
针对评价对象存在领域相关性这一特点,在条件随机场模型中结合领域词词典特征进行中文句子评价对象的抽取,然后利用领域规则对抽取结果进行处理.针对COAE2011任务三标注语料的抽取实验结果表明,结合领域词词典和领域规则对于利用线性链、跳跃链和层叠条件随机场模型的中文句子评价对象抽取方法可以有效地提高抽取的精度,并抽取出更多的评价对象.  相似文献   

3.
王腾阳  赵小丹  胡林 《科学技术与工程》2023,23(27):11562-11569
马铃薯育种领域积累有大量尚未结构化处理的育种文献文本,人工整理文献内的种质资源数据费时费力。为了快速、准确地从育种文献中提取种植资源数据,使用基于词性标注规则和预设词的方法抽取文献数据。文献格式为PDF文档,对于不能直接获取文档文本的情况,使用游程平滑算法和光学字符识别(Optical Character Recognition, OCR)获取文本内容。采用用户可灵活建立的关键词库保存抽取项,通过正则表达式获取关键词所在语句,并利用自然语言处理工具对语句进行分词与词性标注,根据规则抽取目标词,同时采用基于关键词与预设词距离的信息抽取方法,实现将育种文献从自由文本转化为结构化数据。对115篇文献的1490个抽取项进行信息抽取,实验表明,该方法的准确率为82.97%,召回率为99.72%,F值为90.58%,能以较高的准确率和召回率对马铃薯育种文献种质资源进行抽取,可为构建马铃薯遗传育种数据库提供数据基础。  相似文献   

4.
针对目前大多数非分类关系抽取方法忽略词性和部分局部特征的问题,提出融合词性信息和注意力机制的BiLSTM模型.利用预训练词向量和词性标注工具,将舆情信息语义词向量和词性词向量作为BiLSTM的输入来获取句子高维语义特征,解决长距离依赖问题.利用词语层注意力机制计算2个概念与上下文词语的相关性,获取句子的上下文语义信息....  相似文献   

5.
为了增加对不同类别样例的区分度,提高模型的分类效果,提出了结合类别关键词和注意力机制的药物相互关系(DDI)抽取模型KA-BERT.首先基于卡方检验和文档频率获取每个类别的关键词,然后在预训练BERT模型中加入关键词与药物对的位置编码,以增加样例的差异性,并通过注意力机制学习关键词与句子中其他词的分布信息.针对药物关系...  相似文献   

6.
序列标注任务是自然语言处理领域的重要问题,包括命名实体识别、词性标注、意见抽取等具有重要应用价值的子任务。目前,长短期记忆网络-条件随机场模型(LSTM-CRF)作为序列标注任务的主流框架,虽然取得了很好的性能并被广泛使用,但仍存在局部依赖性以及受限于序列化特征学习的缺点。为了同步建模句子中每个词的局部上下文语义与全局语义,并将两部分语义进行有效融合,提出基于注意力机制的特征融合序列标注模型。具体地,本模型利用多头注意力机制建模句子中任意两个词之间的语义关系,得到每个词应关注的全局语义。考虑到LSTM学习的局部上下文信息和注意力机制学习的全局语义具有互补性,进一步设计了三种特征融合方法将两部分语义深度融合以得到更丰富的语义依赖信息。为验证模型的有效性,在四个数据集上进行了大量的实验,实验结果表明本模型达到较优的性能。  相似文献   

7.
对外汉语教学的目标是培养学生的交际能力,句子情感信息的理解和表达是初级阶段交际能力培养的重要内容。以国家汉办公布的新HSK试卷文本和6套经典对外汉语教材为语料基础,以句子为单位,对语料的情感信息进行人工标注,计算情感句在不同类型语料中的分布,并进行了对比分析。结果显示,句子中显示积极评价态度、表达"吃惊/怀疑"、"关心"情感类别的频率最高,分别为38.62%、10.18%、9.31%,在情感句中非常显著。此外,还从每个情感句中抽取了情感词、短语和句式,分析其组合方式以及分布规律,发现在表达消极的情感时,多使用"否定词+积极情感词"的表达方式,相关数据和结论可为汉语国际教育领域情感句研究以及新HSK备考提供参考。  相似文献   

8.
该文在类别区分词特征选择方法的基础上,针对维吾尔文中的生气、高兴、难过、惊讶等句子的情感类别提出了类别区分词与情感词典相结合的方法,进行了句子情感分类研究。结合维吾尔语文本句子中的情感表达特点,利用类别区分词特征选择方法,提取了最有类别区分能力的特征词,并进行了情感分类。通过人工抽取方法收集了维吾尔文句子中能表达情感的关键词,并建立了一个基础情感词典。将该词典与类别区分词结合在一起作为特征,对维吾尔文句子的情感类型有效地进行了分类。实验结果表明类别区分词与情感词典相结合方法的分类效率优于只用类别区分词特征选择方法。  相似文献   

9.
针对微博话题观点摘要问题,提出一种基于LDA与评价对象相结合的微博观点摘要方法.首先,利用LDA模型得到话题的词分布矩阵和文档的话题分布矩阵,把两个矩阵的乘积作为各个词在句子中的权重分布矩阵,再利用词频与词权重分布矩阵的乘积作为词的重要度;然后,通过词的词性标注规则从句子中选择候选评价对象,再计算句子中候选评价对象的稳定性;最后,把句子中所有词的重要度与句子中所有候选评价对象的稳定性的总和作为句子权重,并从大到小排序,再进行观点句识别,并去除相似性较大的句子,抽取前20个句子作为话题观点摘要.实验结果表明,此方法可以有效地抽取微博观点摘要.  相似文献   

10.
通过对新闻类文体的结构分析,将新闻文体按段落划分,采用一种基于情感词典和语义规则相结合的情感关键句抽取方法,对段落内的句子进行情感分析。综合考虑情感、转折、否定、程度和归总等词语信息构建情感词典,根据规则切割新闻文本,将新闻划分为意群、句子、段落以及篇章,通过制定的规则计算情感关键句倾向值,最终获得段落以及整个篇章的情感倾向值,从而得出新闻的情感倾向。与情感词典和SVM情感分类方法的实验结果对比表明,本文方法在对新闻文本进行倾向判别时效果较好,方法具可行性。  相似文献   

11.
针对传统情感分析模型将单词或词语作为单一嵌入,而忽略句子之间依存信息和位置信息的问题,提出基于双向门控机制和层次注意力的方面级情感分析模型(Based on Bi-GRU and Hierarchical Attention,BGHA)。首先,将文本数据转成词向量再加入位置编码信息,得到包含位置和语义信息的词向量后通过双向门控机制提取上下文特征;接着,分别在单词注意力层和句子注意力层用注意力机制对特征分配权重,突出重点词和重点句信息;最后,结合给定的方面信息选择性提取与其较匹配的情感特征。在SemEval 2014、SemEval 2016和Twitter短文本评论数据集上的实验结果表示,BGHA模型的准确率对比其他模型都有不同程度的提高,证明了模型的有效性。  相似文献   

12.
释义,是词典编纂的中心任务,是词典的微观结构中的核心部分。词典释义的原则应是以通俗释冷僻,以浅显释深奥。词典释义有多种方式,如同义对释、反义对释、定义式、解说式等,但按释文是提供语义信息还是提供语法信息来分,所有释义方式可归纳为语法性释义和非语法性释义两大类。而按释文能否在实际语句中代替被释词来分,则可将所有词典释义方式归纳为可代换性释义和不可代换性释义两大类。  相似文献   

13.
研究汉语智能输入方法,采用词和句相结合的方式输入汉语的拼音码,采用词法规则,句法模式及语义关联等方法区分同音词,用确定性规则(包括词法规则,离合词规则,词语搭配共现原则和相邻词的约束处理)缩小同音词识别的范围,综合非确定因素,采用评估函数选出最优候选句,应用该系统,输入包含1062个汉字的科技论文,错误率为6%。  相似文献   

14.
主题句是一种把句首的成分年看成是话题加以评说的句型。显然用句子形式作谓语表解释汉语“话题-评论语”型句子构造,是符合汉语的真实情况,也体现了汉语语法的特点,即古汉语虚词的研究应逐渐自觉地把虚词同现的语言结构段紧密地联系起来,由此,词性的标注使义项的划分趋于细密化,并使句法功能标准由隐性变为显性,对义项的划分产生积极的影响。  相似文献   

15.
压缩技术旨在模拟人类的文本概括和信息提取能力。句子压缩技术是自动生成能够保留原句核心内容的,合乎语法的,语义连贯的简短句子。文章分析了英文句子压缩技术中基于句法分析的Hedge Trimmer压缩技术,讨论了相关压缩理论,探索其压缩过程并用类C语言进行算法实现。提出了好的压缩句应该至少满足以下3个标准:第一是保留原句的核心内容,第二是具有正确的语法,第三是压缩长度合理。在算法的评估工作中,从DUC 2003语料库中选取了624个原始句子和对应的人工压缩句,与Hedge Trimmer压缩算法自动生成的压缩句进行对照分析。发现5种压缩效果不理想的情况,分析其原因并提出了改进策略。最后,通过实例对改进算法生成的压缩句和原来算法生成的压缩句进行对比评估,证明了改良算法能够获得更理想的压缩句。在英文句子压缩领域,改良的Hedge Trimmer句子压缩算法值得推广和应用。  相似文献   

16.
针对传统用户意图识别主要使用基于模板匹配或人工特征集合方法导致成本高、扩展性低的问题,提出了一种基于BERT词向量和BiGRU-Attention的混合神经网络意图识别模型。首先使用BERT预训练的词向量作为输入,通过BiGRU对问句进行特征提取,再引入Attention机制提取对句子含义有重要影响力的词的信息以及分配相应的权重,获得融合了词级权重的句子向量,并输入到softmax分类器,实现意图分类。爬取语料实验结果表明,BERT-BiGRU-Attention方法性能均优于传统的模板匹配、SVM和目前效果较好的CNN-LSTM深度学习组合模型。提出的新方法能有效提升意图识别模型的性能,提高在线健康信息服务质量、为在线健康社区问答系统提供技术支撑。  相似文献   

17.
文本自动摘要提取算法   总被引:1,自引:0,他引:1  
摘要是对文本内容的概括,在信息检索中起着重要的作用,提出一种文本自动摘要提取算法:按照词语权重提取出能表征文本主要内容的特征词,根据句子的物理信息以及句子中包含的特征词情况计算出句子的权重,按照句子权重大小等提取出候选摘要句.  相似文献   

18.
长阳南曲曲牌[南曲尾]曲词在句式上有自己的特点,传统观点所界定的“十字句”句式除去衬字后,其实可以更进一步细分为由两个“四字句”组成的“八字句”,而“八字句”加衬字则是[南曲尾]最重要的基本句式。另外本文还对[南曲尾]曲词基本句式构成的多样化、衬字使用规律以及从押韵角度予以重新分类进行了深入的分析和探讨。  相似文献   

19.
用句子标注图像,建立图像与文本间的跨媒体关联,以提升信息检索准确率,改善用户检索交互体验.利用KDES模型抽取图像特征,在多核学习模型中融合出MK-KDES特征,准确刻画图像视觉特性;设计自然语言生成模型:词序列拼积木,评估单词与图像内容的相关性,优选单词,并根据单词间的语义相关性与句法模式约束,将单词组合成N元词序列;把N元词序列输入模板生成句子.结果表明:MK-KDES-1特征聚焦于图像的纹理及形状视觉特性,它是改善句子BLEU-1评分的关键;而单词间的语义相关性与句法模式约束是提升句子BLEU-2评分的重要前提.   相似文献   

20.
句式的运用突出显示诗与骈文的体制特点:诗语句式一定,骈文参差四六,又或间取三五;二体俱用四六,然<诗>之四言,绝多散语,而骈四为偶,结构整练;诗之六言,声气甘媚,节奏平板,骈文变化结构,取用虚字,化去板滞;骈体四六偶俪,其式错落不一,造语益为灵活.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号