首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
基于LSTM的中文文本分类方法能够正确地识别文本所属类别,但是其主要关注于学习与主题相关的文本片段,往往缺乏利用词语其他方面的信息,特别是词性之间的隐含的特征信息。为了有效地利用词语的词性信息以便学习大量的上下文依赖特征信息并提升文本分类效果,提出了一种结合词性信息的中文文本分类方法,其能够方便地从词语及其词性中学习隐式特征信息。利用开源数据并设计一系列对比实验用于验证方法的有效性。实验结果表明,结合词性信息的基于注意力机制的双向LSTM模型,在中文文本分类方面的分类效果优于常见的一些算法。因此识别文本的类别不仅与词语语义信息高度相关,而且与词语的词性信息有很大关系。  相似文献   

2.
实体关系抽取是信息抽取领域的一项关键技术,在知识库自动构建、问答系统等领域有着极为重要的意义.远程监督关系抽取技术利用大型知识库(Knowledge Base,KB)自动对语料进行标注,但存在噪声过大的问题.前人提出的注意力模型中利用实体对的向量表示相减得到关系语义表示,进而使用关系表示来达到降噪的效果,然而同一实体对...  相似文献   

3.
针对基于注意力机制的模型在方面级情感分类任务中忽略了单词词性信息的问题,提出一种融入词性自注意力机制的方面级情感分类方法.该方法首先基于自然语言处理词性标注工具获得词性标注序列,并随机初始化一个词性嵌入矩阵得到词性嵌入向量;然后用自注意力机制学习单词之间的句法依赖关系;最后计算出每个单词的情感分数,利用词情感的结合表示特定方面的情感极性.实验结果表明,在5个公共数据集上,该方法相比效果最好的基线模型,在准确率和宏观F1分数上分别提升2%和4.83%.表明融入词性信息的注意力机制模型在方面级情感分类任务中性能更好.  相似文献   

4.
为对网络舆情数据进行主题挖掘与情感分析,以微博某单位招聘热点事件的舆情演变为研究对象,提出了一种融合主题模型和情感分析的LDA-Attention-BiLSTM模型。运用Python的Scrapy框架爬取该事件文本评论。采用隐含狄利克雷分布(LDA)模型实现了主题识别。使用基于注意力(Attention)机制的双向长短期记忆(BiLSTM)网络进行文本情感分析。研究结果表明,构建的基于LDA与Attention机制BiLSTM的混合模型能够反映舆情中的热点话题与情感时序变化,揭示事件爆发的主要原因,事件传播阶段的主要话题与事件的处理结果等。  相似文献   

5.
关系抽取是许多信息抽取系统中的一个关键步骤,旨在从文本中挖掘结构化事实.在应用传统的远程监督方法完成实体关系抽取任务时存在2个问题:①远程监督方法将语料库中的文本与已标注实体和实体间关系的知识库启发式地对齐,并将对齐结果作为文本的标注数据,这必然会导致错误标签问题;②目前基于统计学的方法过于依赖自然语言处理工具,提取特...  相似文献   

6.
远程监督为关系抽取任务提供了大量自动标注的数据集,且领域迁移性强,为实现自动抽取奠定了基础。然而,构造的数据集伴随了强约束性的假设,存在着严重的错误标签问题,且这些噪声数据极大影响了最终的性能结果。为了缓解错误标注的问题,文中提出了一种双重注意力模型:第一层注意力机制通过在句子编码部分引入TransH预训练好的实体向量,与句子特征共同进行注意力选择,为体现关系信息的特征分配更高的权重来提高句子编码质量;第二层则是从句子级别再进行一次注意力计算,挑选出有效的实例,进一步降低噪声数据的权重。通过在广泛使用的数据集上进行多次对比实验,表明文中所提模型可以充分利用所有信息资源,结果明显优于其他基线模型。  相似文献   

7.
文档级关系抽取旨在从文档中抽取出多个实体对之间的关系,具有较高的复杂性。针对文档级关系抽取中的多实体、关系相关性、关系分布不平衡等问题,提出了一种基于注意力机制(Attention)语义增强的文档级关系抽取方法,能够实现实体对之间关系的推理。具体来说,首先在数据编码模块改进编码策略,引入更多实体信息,通过编码网络捕获文档的语义特征,获得实体对矩阵;然后,设计了一个基于Attention门控机制的U-Net网络,对实体对矩阵进行局部信息捕获和全局信息汇总,实现语义增强;最后,使用自适应焦点损失函数缓解关系分布不平衡的问题。在4个公开的文档级关系抽取数据集(DocRED、CDR、GDA和DWIE)上评估了Att-DocuNet模型并取得了良好的实验结果。  相似文献   

8.
方面级情感分析是一项细粒度的情感分类任务,目前常用的研究方法是使用神经网络模型结合注意力机制的模式,使用注意力机制挖掘方面词和上下文之间的关系.但是传统的注意力机制在训练时,往往会倾向于关注出现频率较高的情感词,给其分配较高的注意力权重值,对于低频情感词却关注不足.为了解决上述问题,提出了一种使用改进的自注意力机制的方...  相似文献   

9.
实体关系抽取在挖掘结构化事实的信息抽取系统中扮演着重要的角色。近年来,深度学习在关系抽取任务中取得了显著的成果,同时,注意力机制也逐步地融入到神经网络中,进一步提高了关系抽取的性能。但是,目前的注意力机制主要关注一些低层次的特征,比如词汇等。本文提出一种基于高层语义注意力机制的分段卷积神经网络模型(PCNN_HSATT,high-level semantic attention-based piecewise convolutional neural networks),该模型将注意力机制设置在分段最大池化层后,动态地关注了高层次的语义信息。除此之外,由于中文实体关系语料稀疏性较大,本文利用同义词词林对COAE2016语料进行增强以扩大数据规模。最后在COAE2016和ACE2005的中文语料上进行实验,F1值分别达到了78.41%和73.94%,与效果最好的SVM方法相比分别提高了10.45%和0.67%,这充分证明了PCNN_HSATT模型在中文关系抽取上的有效性。  相似文献   

10.
基于CNN-BLSTM的食品舆情实体关系抽取模型研究   总被引:1,自引:0,他引:1  
食品舆情实体关系抽取是构建食品舆情知识图谱的关键技术,也是当前信息抽取领域的重要研究课题。针对食品舆情中常出现的实体对多关系问题,在卷积神经网络(convolutional neural network,CNN)中引入基于位置感知的领域词语义注意力机制;在双向长短时记忆(bidirectional long short-term memory,BLSTM)网络中引入基于位置感知的语义角色注意力机制,构建基于CNN-BLSTM的食品舆情实体关系抽取模型。在食品舆情数据集上进行了对比实验,实验结果表明:基于CNN-BLSTM的食品舆情实体关系抽取模型在食品舆情数据集上准确率比常用的几种深度神经网络模型高出8.7%~13.94%,验证了模型的合理性和有效性。  相似文献   

11.
要想实现对纷繁复杂的网络舆情的监控和管理,预防舆情危机的突发状况,一个关键的解决方案就是对网络舆情事件的发展趋势进行预测.然而,目前针对舆情演变预测的研究工作却十分有限,尤其是社交网络环境中的舆情演变预测.本文将评论文本的情感值作为演变预测的对象,利用情感词和舆情事件中评论文本的语义相似度,为事件发展的每个时间段都构造一个对应的图结构,再结合门控循环单元(GRU)与图注意力网络(GAT)对情感时间序列进行预测.为了验证模型的有效性,本文以Twitter中弗洛伊德事件的评论文本作为数据集,开展与基于图卷积网络的预测模型的对比实验.实验结果表明,本文提出模型的R2决定系数为0.569,平均绝对误差(MAE)、均方误差(MSE)和均方根误差(RMSE)均小于基于图卷积网络的预测模型,能较好地实现舆情事件中评论文本的情感演变预测.  相似文献   

12.
为在保障网络训练速度的基础上进一步提高语音增强性能,提出一种融合注意力(Atten-tion)机制的准循环神经网络(QRNN)语音增强方法.通过QRNN序列信息并行计算的特性保证网络的训练速度,将Attention机制重新赋予权重的含噪语音序列作为QRNN层的输入,使网络更加关注目标语音序列信息,以提高语音增强模型的性...  相似文献   

13.
针对现有网络舆情分析系统缺乏语义信息,可能导致分析结果不精确的问题,研究了本体技术在构建网络舆情分析系统中的应用,提出基于本体的网络舆情分析系统结构,并对系统实现中采用的本体技术包括网络舆情本体库的构建、网络文本语义标注、基于语义相似度的敏感话题发现和构建查询词的概念空间等进行了研究。通过本体建立舆情分析概念的共享空间,可以有效地挖掘网络内容的语义信息,提高舆情分析的准确率。  相似文献   

14.
为提高被噪声干扰的语音的可理解性和语音质量,针对用于语音增强的深度复数网络对语音复数谱中关键声学特征提取不充分、关联信息建模不合理的问题,提出了基于多维度注意力机制和复数Conformer的单通道语音增强方法(SE-MDACC)。在复数U-Net架构下引入复数Conformer,对语音幅度和相位的相关性进行建模;利用多维度注意力机制,构造更加丰富的特征来增强卷积层的表示能力;在残差连接中加入注意力门控机制强化重构语音的细节信息。实验结果显示,相比于深度复数卷积递归网络,SE-MDACC的客观评价指标语音质量感知评估和短时客观可懂度分别提升15.299%、1.462%,表明SE-MDACC可充分提取语音声学特征并对幅度和相位相关性进行合理建模,有效提升语音质量和可理解性。  相似文献   

15.
Aiming at the importance of the analysis for public opinion on Internet, the authors propose a high-performance extraction method for public opinion. In this method, the space model for classification is adopted to describe the relationship between words and categories. The combined feature selection method is used to remove noisy words from the original feature space effectively. Then the category weight of words is calculated by the improved formula combining the frequency of words and distribution of words. Finally, the class weights of the not-categorized documents based on the category weight of words are obtained for realizing opinion extraction. Experiment results show that the method has comparatively high classification and good stability.  相似文献   

16.
王腾阳  赵小丹  胡林 《科学技术与工程》2023,23(27):11562-11569
马铃薯育种领域积累有大量尚未结构化处理的育种文献文本,人工整理文献内的种质资源数据费时费力。为了快速、准确地从育种文献中提取种植资源数据,使用基于词性标注规则和预设词的方法抽取文献数据。文献格式为PDF文档,对于不能直接获取文档文本的情况,使用游程平滑算法和光学字符识别(Optical Character Recognition, OCR)获取文本内容。采用用户可灵活建立的关键词库保存抽取项,通过正则表达式获取关键词所在语句,并利用自然语言处理工具对语句进行分词与词性标注,根据规则抽取目标词,同时采用基于关键词与预设词距离的信息抽取方法,实现将育种文献从自由文本转化为结构化数据。对115篇文献的1490个抽取项进行信息抽取,实验表明,该方法的准确率为82.97%,召回率为99.72%,F值为90.58%,能以较高的准确率和召回率对马铃薯育种文献种质资源进行抽取,可为构建马铃薯遗传育种数据库提供数据基础。  相似文献   

17.
意见目标抽取是自然语言处理领域中意见挖掘研究的重要环节。该文提出了一种基于泛化、繁殖和自举的意见目标抽取方法,在泛化过程中提炼原子意见目标和意见目标模式,在繁殖过程中对复合意见目标进行扩展,并采取自举机制实现了意见目标的递增学习。实验结果显示,经过第一轮自举过程后,该方法的F-1 score指标超出基线方法0.078;自举过程完成后,F-1 score指标提高了0.112。这说明,泛化处理对意见目标充分繁殖意义重大,自举过程则有助于充分发挥泛化能力和繁殖能力。  相似文献   

18.
基于多主体的舆论建模与仿真研究   总被引:1,自引:0,他引:1  
舆论在先,动乱在后,已成为普遍共识的认知.研究舆论的形成机理及其演化规律,进而调控舆论传播的导向有着重要的理论和现实意义.舆论系统是一个典型的复杂系统,系统建模与仿真分析是舆论全方位研究的有效手段.本文以物理-事理-人理系统方法论为指导,以多主体建模方法为手段,以舆论可视化仿真平台为依托,定义了舆论主体的偏好行为,模拟了舆论演化的过程,总结了舆论演化的规律.  相似文献   

19.
为防范舆情风险,分析网络舆情的细粒度演化,提出一种去冗余的衍生事件内容关联演化分析框架。通过文本挖掘技术从海量文本流中提取主要的衍生事件,将舆情内容压缩到人工可判读的数量级;利用词移距计算相邻两个时间片上的衍生事件相似度,构建反映演化关系的衍生事件链图。以“上海特斯拉自燃”事件为例进行事件链演化分析,得到微博网络舆情事件发展不同阶段涉事主体在各个衍生事件中的话题转移关系,最后鲁棒性分析的结果验证了该分析方法具有降低微博短文本冗余信息的能力,提高了事件演化关联识别分析的准确性。该研究方法为舆情事件的事后复盘、同类舆情事件的预判和介入、衍生事件的科学研判提供了决策支持。  相似文献   

20.
油气井工程领域中存在大量的XML文档,传统的XML集成方案无法提供面向语义的信息查询,导致数据利用率不高。针对油气井XML文档WeXML语义集成与查询应用需求,提出一种基于抽取规则和本体映射的语义集成方法。首先定义一系列类、属性抽取规则,分别将WeXML Schema中的元素、属性映射为WeOWL本体中的类和属性;然后,利用实例转换算法将WeXML文档转换为本体实例数据;由于WeOWL提供有限的局部语义模型,需要在两者之间建立语义映射,并借助WeOWL中的术语对全局语义模型中的类和属性进行解释,进而提供面向领域全局本体的语义查询。通过构建WeXML数据语义集成原型系统,对提出的转换规则、转换算法和映射规则进行了验证。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号