首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于互动问答社区问句中多字词表达和问句理解的关系,提出针对互动问答社区问句进行多字词表达抽取,并基于互动问答社区问句中多字词表达的特点,提出适用于互动问答社区的多字词表达提取方法.该方法在利用互信息和停用词表的方法从问句中抽取候选多字词表达的基础上,将候选多字词表达分为正确串、残缺串、冗余串和错误串4类,借助搜索引擎对查询串的优化和候选多字词表达在互联网上的检索结果,设计候选多字词表达校正方法,实现对多字词表达的提取.以新浪爱问知识人问题库中的问句进行实验,结果表明,多字词表达抽取的准确率、召回率和F值分别达到84%,52%和0.64,验证了该方法的有效性.  相似文献   

2.
提出一种基于双向长短时记忆循环神经网络的问句语义关系识别方法.利用循环神经网络直接从词学习问句的语义特征表示,不需要自然语言处理工具进行特征抽取,有效避免了误差传递问题.同时,在网络中加入双向结构和长短时记忆模块,有效改善传统循环神经网络在训练过程中的"梯度弥散"问题.加入基于主实体位置的分段最大池化操作,相对于传统单一最大池化,能保留问句文本中的有效语义特征.通过在电力领域真实问题集上实验比较,本方法相对于传统方法能有效提升问句语义关系识别的性能,问句语义关系分类结果F1值提高4.5%.  相似文献   

3.
基于本体的受限领域问答系统研究   总被引:1,自引:1,他引:0  
鉴于使用本体表示知识利于知识的重用及推理,提出基于本体知识库的受限领域问答系统(QA)框架,该框架可以方便地根据本体知识库和问句语义表征抽取答案.定义了本体的结构,以某医疗领域的本体为例分析本体元素之间的抽象关系;描述问句语义分析的方法,给出答案抽取的相关技术;分析问句类型,给出对应的问句语义表征和答案抽取策略.以某医疗领域的问答系统为实验平台,封闭测试F值为83.86%,开放测试F值为76.04%,效果良好.  相似文献   

4.
在文本分类中,当两个多属性类别发生属性重叠时,采用传统的文本分类算法m acro F1值仅为45%左右.为了提高文本分类算法的m acro F1值,提出了基于结果修剪的方法.在该方法中,分类器由多个子分类器组成.每个子分类器对应于类别中的一个属性;在每一个阶段中,每一个子分类器将不属于该属性的文本剔出.当所有子分类器运行结束后,留下的文本即属于该分类的文本.实验数据表明,基于结果修剪的文本分类方法在解决属性重叠问题时能够将m acro F1值提高到65%左右.  相似文献   

5.
为解决侨情问句甚少导致训练的侨情语料较少的问题,提出一种基于模板学习的智能侨情问句生成方法。首先,对侨情篇章文本进行包含主题、关系、对象的三元组抽取;其次,构建训练数据集,输入数据由主题和关系构成,输出数据为问句模板;随后,采用以BERT+LSTM+Attention为核心算法的seq2seq框架,实现问句模板生成;最后,对模板问句进行主题文本替换,从而得到最终的实例化问句。采用BLEU,ROUGE-N,公开问答系统评测及人工评价方式对文中方法进行评价。结果表明:BLEU,ROUGE-N,公开问答系统评测及人工评价方式对文中方法的评测结果分别为0.77,0.67,81%,88%,较基线模型有较大的提升。  相似文献   

6.
针对行政规范性文件的文本纠错任务,提出了基于BERT(Bidirectional Encoder Representations from Transformers)的文本纠错模型,模型针对冗余、缺失、错序、错字四类任务分别建模,分为检错和纠错两个阶段。检错阶段检查出文本是否有错、错误的位置以及错误的类型等内容,纠错阶段运用BERT掩码语言模型和混淆集匹配的方法预测文本缺失内容。实验结果表明:新提出的基于BERT的文本纠错模型在行政规范性文件的文本纠错任务中的F1值为71.89%,比经典的中文文本纠错工具Pycorrector提升了9.48%。  相似文献   

7.
通过结合2 738个领域词汇组成的词典对新疆旅游领域语料进行预处理操作,对文本信息进行实体关系抽取研究,提出基于旅游领域的词典信息,融合多级特征的Bi-LSTM、CNN和Attention机制的领域级关系抽取模型.该模型首先使用预训练模型生成含较强的语义表征能力的词向量;再使用Bi-LSTM获取更好的语义信息和词向量拼接以捕获长距离的语义特征;用CNN进行特征提取,加强局部特征的学习,并使用注意力池化层(Attentive-pooling)用以强化特征的表达;最后通过Softmax完成关系抽取任务.结果表明:该模型在SemEval-2010 Task 8公开数据集中F1值达到83.46%,证明了其有效性.且模型在新疆旅游领域语料的关系抽取任务中的F1值达到92.73%,优于目前的主流关系抽取模型.  相似文献   

8.
基于双重注意力模型的微博情感分析方法   总被引:1,自引:0,他引:1  
微博情感分析是获取微博用户观点的基础。该文针对现有大多数情感分析方法将深度学习模型与情感符号相剥离的现状,提出了一种基于双重注意力模型的微博情感分析方法。该方法利用现有的情感知识库构建了一个包含情感词、程度副词、否定词、微博表情符号和常用网络用语的微博情感符号库;采用双向长短记忆网络模型和全连接网络,分别对微博文本和文本中包含的情感符号进行编码;采用注意力模型分别构建微博文本和情感符号的语义表示,并将两者的语义表示进行融合,以构建微博文本的最终语义表示;基于所构建的语义表示对情感分类模型进行训练。该方法通过将注意力模型和情感符号相结合,有效增强了对微博文本情感语义的捕获能力,提高了微博情感分类的性能。基于自然语言处理与中文计算会议(NLPCC)微博情感测评公共数据集,对所提出的模型进行评测,结果表明:该模型在多个情感分类任务中都取得了最佳效果,相对于已知最好的模型,在2013年的数据集上,宏平均和微平均的F1值分别提升了1.39%和1.26%,在2014年的数据集上,宏平均和微平均的F1值分别提升了2.02%和2.21%。  相似文献   

9.
针对微博谣言带标签数据不足,且当下的谣言检测模型无法持续学习应对不断变化的微博网络语言等问题,本文提出BERT-BiLSTM-LML微博谣言持续检测模型.首先,使用BERT(Bidirectional Encoder Representations from Transformers)预训练模型提取两个任务输入文本数据的词向量;其次,使用双向长短时记忆(Bi-directional Long Short-Term Memory, BiLSTM)网络充分提取文本的上下文特征;最后,基于BiLSTM深层特征使用终身监督学习算法ELLA(Efficient Lifelong Learning Algorithm)对两个任务的特征数据进行建模,以实现对微博谣言的持续检测.实验结果表明:BERT词向量有效优化了模型性能,比基于Word2vec词向量的Word2vec-BiLSTM-LML模型在准确率和F1值都提升了5.5%.相较于独立学习,在持续学习争议检测任务后,模型的谣言检测准确率提升了1.7%,F1值提升了1.8%.同时,在持续学习过程中,随着知识的积累,谣言检测准确率持续提升.最终在公开...  相似文献   

10.
传统三元组抽取任务的方面词与意见词的抽取相互关联,采用流水线(Pipeline)或联合(Joint)模型架构会存在误差传递、错误传播等问题.基于上述问题,本文设计基于位置提示的双通道循环网络(Position-prompt dual-channel recurrent neural network, PDRN)模型解决三元组抽取任务.采用预训练BERT模型生成词向量作为模型输入,通过双通道显示交互方法在多个循环中建立同步机制,作为两元组(方面、意见)抽取及配对,使用基于位置提示的BERT-BiLSTM模型进行情感极性判别.在3个三元组抽取数据集进行实验,F1值相较最好的流水线模型和同类联合模型提高了1%~2%,在ASOTE任务上F1值相较基线最高提升了2.9%.  相似文献   

11.
用户评论产品时经常带有明确的指向,例如,针对产品的某一部分或某一功能做出评价,因此,评论中的产品名称和产品属性的识别显得尤为重要。文章使用了cw2vec模型对中文文本进行表示,在此基础上,使用双向长短期记忆模型融合了条件随机场模型对产品中的对象和属性进行识别。该方法利用长短期记忆模型对上下文信息进行有效建模,同时利用条件随机场模型作为标签推理层很好地解决序列标签的依赖问题。通过在汽车领域数据上进行实验,实验结果表明cw2vec-BiLSTM-CRF模型在产品名称和产品属性识别任务中的是有效的。与仅使用CRF模型相比,产品名称的识别准确率、召回率、F值分别提升了5.87%、5.59%、5.89%,产品属性的识别准确率、召回率、F值分别提升了6.36%、4.41%and 5.28%。  相似文献   

12.
提出一种基于词典与语料结合的中文微博主观句抽取方法,通过判断句子中是否包含情感表达文本来判断句子是否为主观句.首先,从现有的情感词典中挑选出情感倾向较为固定的情感词构建了一个高可信情感词典,用于抽取句子中的情感表达文本,保证情感表达文本抽取的准确率;然后提出N-POSW模型,并基于2-POS W模型通过语料学习的方法较为准确地抽取句子中的剩余情感表达文本,保证了情感表达文本抽取的召回率.实验结果表明,相比于传统的基于大规模情感词典的方法,本文方法主观句抽取的F值提高了7%.  相似文献   

13.
董哲  王亚  马传孝  李志军 《科学技术与工程》2022,22(23):10162-10168
为解决食品安全领域关系抽取数据集体量小且关系种类复杂,普通网络模型无法充分进行特征学习的问题,提出了一种融合对抗训练(Adversarial Training)和胶囊网络(Capsule Network)的食品安全领域关系抽取模型GAL-CapsNet。该模型使用双向长短期记忆网络提取文本序列的全局特征,并通过胶囊网络的动态路由机制获取高层次的局部特征,具有较强的特征提取能力,同时在嵌入层加入对抗训练提升模型的鲁棒性,从而有效提高了关系抽取任务的效果。在本文所用的食品安全领域数据集上的实验结果显示:对比其他深度神经网络方法,GAL-CapsNet在关系抽取任务中的精确率、召回率和F1值均有明显提升,分别达到了85.91%、82.82%、84.33%,证明了模型在食品安全领域数据集上的有效性。  相似文献   

14.
新闻事件主题句识别任务是一项基于文本内容进行语义分析的自然语言处理技术。为准确计算新闻事件文本中与新闻主题语义最相关的句子,提出一种基于图的新闻事件主题句抽取方法。首先利用描述事件特征的触发词及命名实体构建候选新闻事件句子抽取模板,然后,计算候选事件句之间的关联关系构建事件关系无向图,最后基于TextRank算法思想将图中任意顶点的权值表征为与其有关联的顶点权值的加权和,并按权值进行排序实现事件主题句抽取。实验结果表明,提出的方法优于基于TFIDF和基于标题的事件主题句抽取方法,F值分别提升了6.26%和2%。  相似文献   

15.
属性词提取和情感极性分类是细粒度情感分析的重要研究内容。为了提高属性词提取和情感极性分类的准确率,本文提出了一种改进的ReBERT模型。该模型基于深度学习的属性级情感分析,引入图像模态进行交互学习,选择了关系提取辅助的融合手段,在文本与图像双模态经BERT,ResNet预训练模型提取的特征向量基础上实现了属性词提取、情感极性分类两个基本任务。该模型在标记后的Twitter15/17数据集上表现良好,属性词预测F1值分别为81.9%与90.8%,属性级情感识别的精确率为76.5%与72.3%。本研究将该模型与同数据集下其他先进的基线方法进行了对比实验,与文本模态的消融实验相辅,证明了该模型在属性级情感分析任务上的优越表现。  相似文献   

16.
针对互联网中开放式中文文本关系难以抽取的问题, 提出一个新的关系抽取方法。 为缓解关系三元组抽 取较难的问题, 给出一个新的基于属性和概念实例的关系三元组构造方法, 抽取的大量概念实例关系三元组中 不仅包含大量显式关系三元组, 还包含部分隐式关系三元组。 在此基础上, 针对关系三元组含有噪声和错误的 问题, 使用基于 Adaboost 迭代算法的协同训练方法对关系抽取模型进行优化。 以大学类别领域百科条目真实 文本为实验数据进行实验的结果表明, 与同类关系抽取方法对比, 该方法在召回率和 F 值上能取得较好的抽取 性能。  相似文献   

17.
情感表达抽取工作是细粒度情感挖掘的重要任务之一.中文微博中包含大量网络新词和不规范词,现有的方法在进行微博情感表达抽取任务时不能很好地处理上述情况.通过研究发现,微博中新词大量分布在文本的情感表达部分,于是提出了基于CRF的联合抽取模型,即将新词发现融入到情感表达抽取任务中,从而改进原有工作的不足.实验结果表明,新词探测对微博文本情感表达抽取有很好的指示作用,在电影领域和开放领域的微博数据集上分别进行实验,F1值均提高了2%以上.  相似文献   

18.
事件检测是自然语言处理领域的重要任务之一,其结果可以有效支撑信息抽取、文本分类和事件推理等下游任务. 预训练语言模型BERT在事件检测任务上取得了显著的成绩,然而该类方法无法有效获取长距离和结构化的文本信息. 为了缓解该问题,本文提出基于反馈网络的图卷积神经网络模型进行文本结构信息捕获,同时这种新方法能够有效解决图卷积神经网络带来的语义信息衰减性问题. 本文首先使用BERT预训练模型获取文本的语义特征,然后使用融入反馈网络的图卷积神经网络提取文本的句法结构特征,最终使用多分类器实现对事件触发词的识别和分类.公开数据集ACE 2005上的实验结果表明,本文提出的事件检测方法在事件触发词识别和分类任务上的F1值分别达到了74.46%和79.49%,较现有工作平均提高了4.13%和4.79%.  相似文献   

19.
基于LSTM的大规模知识库自动问答   总被引:1,自引:0,他引:1  
针对大规模知识库问答的特点, 构建一个包含3个主要步骤的问答系统: 问句中的命名实体识别、问句与属性的映射和答案选择。采用别名词典结合LSTM语言模型进行命名实体识别, 使用双向LSTM模型结合两种不同的注意力机制进行属性映射, 最后综合前两步的结果进行实体消歧和答案选择。该系统在NLPCC-ICCPOL 2016 KBQA任务提供的数据集上的平均F1值为0.8106, 接近评测的最好水平。  相似文献   

20.
基于主题注意力层次记忆网络的文档情感建模   总被引:2,自引:0,他引:2  
针对文档水平情感分析传统模型存在先验知识依赖以及语义理解不足问题,提出一种基于注意力机制与层次网络特征表示的情感分析模型TWE-ANN.采用基于CBOW方式的word2vec模型针对语料训练词向量,减小词向量间的稀疏度,使用基于Gibbs采样的LDA算法计算出文档主题分布矩阵,继而通过层次LSTM神经网络获取更为完整的文本上下文信息从而提取出深度情感特征,将文档主题分布矩阵作为模型注意力机制提取文档特征,从而实现情感分类.实验结果表明:提出的TWE-ANN模型较TSA、HAN模型分类效果较好,在Yelp2015、IMDB、Amazon数据集上的F值分别提升了1.1%、0.3%、1.8%,在Yelp2015和Amazon数据集上的RMSE值分别提升了1.3%、2.1%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号