首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 609 毫秒
1.
文档级实体关系抽取的主要任务是提取文档中实体之间的关系.相较于句内实体关系提取,文档级实体关系抽取需要对文档中多个句子进行推理.为了解决文档中不同实体之间的复杂信息交互问题,提出一个混合提及级图MMLG (Mixed Mention-Level Graph)策略,用于拟合文档中不同实体之间的复杂信息交互,提高模型对于文档级实体关系的感知能力.此外,为了应对实体关系中存在的关系重叠问题,构建了实体关系图ERG (Entity Relation Graph)模块,该模块融合了路径推理机制,主要针对实体间的多个关系路径进行推理学习,更准确地识别提及级节点实体及关系.通过将MMLG策略与ERG模块聚合到实体关系抽取模型中,构建BoBGSAL-Net (Based on Bipartite Graph Structure Aggregate Logic Network)模型,并在公开数据集DocRED和作者实验室构建的数据集AlSiaRED上开展实验,结果证明BoBGSAL-Net在文档级实体关系抽取任务中性能得到提升,其中BoBGSAL-Net+BERT模型在AlSiaRED数据集上的关系抽取...  相似文献   

2.
文档级关系抽取旨在从文档中抽取出多个实体对之间的关系,具有较高的复杂性。针对文档级关系抽取中的多实体、关系相关性、关系分布不平衡等问题,提出了一种基于注意力机制(Attention)语义增强的文档级关系抽取方法,能够实现实体对之间关系的推理。具体来说,首先在数据编码模块改进编码策略,引入更多实体信息,通过编码网络捕获文档的语义特征,获得实体对矩阵;然后,设计了一个基于Attention门控机制的U-Net网络,对实体对矩阵进行局部信息捕获和全局信息汇总,实现语义增强;最后,使用自适应焦点损失函数缓解关系分布不平衡的问题。在4个公开的文档级关系抽取数据集(DocRED、CDR、GDA和DWIE)上评估了Att-DocuNet模型并取得了良好的实验结果。  相似文献   

3.
材料领域的文献中蕴含着丰富的知识, 利用机器学习和自然语言处理等手段对文献进行数据挖掘是研究热点. 命名实体识别(named entity recognition, NER)是高效利用挖掘和抽取数据中信息的首要步骤. 为了解决现有实体识别方法中存在的向量表示无法解决一词多义、模型常提取上下文特征而忽略全局特征等问题, 提出了一种基于上下文词汇匹配和图卷积命名实体识别方法. 该方法首先利用 XLNet 获取文本的上下文动态特征, 其次利用长短期记忆网络并结合文本上下文匹配词汇的图卷积神经网络(graph convolutional network, GCN)模型分别获取上下文特征与全局特征, 最终经过条件随机场输出标签序列. 2 种不同语料对模型进行验证的结果表明, 该方法在材料数据集上的精确率、召回率和 F1 值分别达到 90.05%、88.67% 和 89.36%, 可有效提升命名实体识别的准确率.  相似文献   

4.
与服药相关的社交文本中隐藏着更具时效和更广泛的药物不良反应信息,但是从相对短小、稀疏的社交短文本中提取药物不良反应非常困难。基于此,本文提出一种双向语言预训练模型和注意力机制相结合的神经网络识别方法。该方法利用双向字符级语言预训练模型提取特定字符级特征,而且在提取药物不良反应的同时,通过注意力机制捕获局部和全局语义上下文信息。此外,为了提高该方法的效率,将字符级特征与词级特征相结合,并采用词级预训练和字符级预训练模型代替协同训练。在PSB 2016社交媒体挖掘共享任务2中的实验结果表明,字符特征在形态学上有助于区分药物不良反应,而注意力机制通过捕获局部和全局语义信息提高了对药物不良反应的识别性能,宏平均F1值为82.2%。  相似文献   

5.
与服药相关的社交文本中隐藏着更具时效和更广泛的药物不良反应信息,但是从相对短小、稀疏的社交短文本中提取药物不良反应非常困难。基于此,本文提出一种双向语言预训练模型和注意力机制相结合的神经网络识别方法。该方法利用双向字符级语言预训练模型提取特定字符级特征,而且在提取药物不良反应的同时,通过注意力机制捕获局部和全局语义上下文信息。此外,为了提高该方法的效率,将字符级特征与词级特征相结合,并采用词级预训练和字符级预训练模型代替协同训练。在PSB 2016社交媒体挖掘共享任务2中的实验结果表明,字符特征在形态学上有助于区分药物不良反应,而注意力机制通过捕获局部和全局语义信息提高了对药物不良反应的识别性能,宏平均F1值为82.2%。  相似文献   

6.
针对传统端到端模型在输入文本语义较复杂情况下生成的问题普遍存在语义不完整的情形,提出一种基于语义特征提取的文本编码器架构.首先构建双向长短时记忆网络获得基础的上下文信息,然后采用自注意力机制及双向卷积神经网络模型分别提取语义的全局特征和局部特征,最后设计一种层次结构,融合特征及输入自身信息得到最终的文本表示进行问题生成.在数据集SQuAD上的实验结果表明,基于语义特征提取与层次结构进行问题生成效果显著,结果明显优于已有方法,并且语义特征提取和层次结构在任务的各评价指标上均有提升.  相似文献   

7.
针对现有文本分类模型上下文信息挖掘不足、全局特征表示提取不充分等问题,提出了一种基于张量的残差图卷积网络模型.首先,以归纳学习方式构建文本图,挖掘文本中蕴含的句法关系、语义关系和序列关系并整合构建邻接张量,捕获文档的高阶上下文信息与关键局部特征信息;然后,利用残差连接加深网络深度,处理图卷积网络过平滑问题,提升模型的泛化能力;最后,设计图读出机制聚集所有节点特征,提取文本的全局特征表示.在R8和MR数据集上进行了实验评估,实验结果表明与已有文本分类方法相比,所提方法取得了优越的分类效果.  相似文献   

8.
基于文本交互信息对文本语义匹配模型的重要性,提出一种结合序列生成任务的自监督学习方法.该方法利用自监督模型提取的文本数据对的交互信息,以特征增强的方式辅助基于神经网络的语义匹配模型,构建多任务的文本匹配模型.9个模型的实验结果表明,加入自监督学习模块后,原始模型的效果都有不同程度的提升,表明所提方法可以有效地改进深度文...  相似文献   

9.
为了从来源不同的威胁情报中提取关键信息,方便政府监管部门开展安全风险评估,针对威胁情报文本中英文混杂严重以及专业词汇生僻导致识别困难的问题,在BiGRU-CRF模型基础上,提出了一种融合边界特征以及迭代膨胀卷积神经网络(IDCNN)的威胁情报命名实体识别方法.该方法根据人工构造的规则词典将边界清晰的实体例如英文单词进行转化以减少模型在处理较长文本时容易造成的信息损失,通过IDCNN和双向门控循环单元(BiGRU)进一步提取了文本的局部和全局特征.通过在威胁情报语料库上进行实验,结果表明所提的方法模型在相关评价指标上均优于其他模型,F值达到87.4%.  相似文献   

10.
针对基于编码-解码的生成式摘要模型不能充分提取语法知识导致摘要出现不符合语法规则的问题,循环神经网络易遗忘历史信息且训练时无法并行计算导致处理长文本时生成的摘要主旨不显著以及编码速度慢的问题,提出了一种融合序列语法知识的卷积-自注意力生成式摘要方法.该方法对文本构建短语结构树,将语法知识序列化并嵌入到编码器中,使编码时能充分利用语法信息;使用卷积-自注意力模型替换循环神经网络进行编码,更好学习文本的全局和局部信息.在CNN/Daily Mail语料上进行实验,结果表明提出的方法优于当前先进方法,生成的摘要更符合语法规则、主旨更显著且模型的编码速度更快.   相似文献   

11.
基于工程量清单计价的电力工程招投标管理系统   总被引:2,自引:0,他引:2  
实施工程量清单计价将改变现有的招投标计价模式,为了规范电力工程招投标及电力企业实施信息化管理的需要,采用工程量清单计价是必然的改革趋势.针对电力工程的特点,阐述工程量清单计价工作流程,详细分析了招投标管理系统目标及功能需求,根据清单计价费用计算程序,充分考虑工程量清单报价策略,确定清单计价模式费用构成,设计计算方法,设计功能模块.建立清单计价招投标管理系统,有利于电力工程造价改革,完善招投标市场,推广以工程量清单计价为核心的新型工程造价管理模式具有重要的现实意义.  相似文献   

12.
图片是众筹平台融资项目介绍中关键的表现形式之一,针对现有研究较少分析图片因素对众筹项目融资效果的影响,基于图像语义层次视角,从视觉层、对象层和概念层3个维度提取图片线索,根据媒介丰富度理论分析图片线索对众筹项目融资效果的影响,以及项目类型对其产生的调节作用。通过实证研究,检验了Kickstarter平台上6336个众筹项目,结果表明:产品图像、团队成员人物图像、人物图像的大小及人物表情等图片线索能显著提高众筹项目的融资成功率。相较于科技类、游戏类、食品类项目,出版类项目的融资效果受图片线索影响更为显著。本研究有助于指导众筹项目的筹资者运用图片和文本等多元媒介,打造具吸引力的项目介绍,以提高融资成功率。  相似文献   

13.
在字面相同语义不同和字面不同语义相同的情况下,短文本匹配往往不能准确地得到语句间语义的相似程度。针对这一问题,提出一种融合语境语义差异特征的短文本匹配模型。该模型以BERT系列的语言模型作为基础匹配模型,采用一种新的Diff Transformer结构作为差异特征提取器,并以门控方式融合基础语义表示和差异特征表示来提升匹配效果。在中文测试数据集上的实验结果表明,所提出的模型可以达到先进模型的效果。  相似文献   

14.
为了解决传统方法不适于大规模用户访问,访问准确性差的问题,通过语义指向性匹配和多维索引树编码结合的方法,对跨境电商系统用户数据库智能访问优化方法进行研究。建立跨境电商数据库模型,为数据库智能访问提供模型依据。依据模糊层次聚类提取语义指向性关联特征,在概念格中完成语义指向性相似度计算,依据提取特征,通过相似度匹配实现数据库智能访问,针对其在用户规模较大时影响访问准确性的问题,采用多维索引树编码的方式对其进行优化,实现对跨境电商系统用户数据库智能访问方法的优化。结果表明:采用所提方法对跨境电商系统时域数据与时频数据语义指向性特征进行提取,能够完成数据语义本体特征指向性聚类,冗余干扰信息被滤除,特征分布聚类性较强;对查全率水平较高情况下的查准率进行测试,发现所提方法在查全率升高时,可令查准率保持在较高的水平,未随查全率的升高有显著下降。可见所提方法访问准确性高。  相似文献   

15.
目前网络信息审计系统大多基于文本信息的过滤,但不良信息的提供者将不良信息嵌入到图像或直接以图像文件,绕过监控。文中介绍了基于图像内容过滤的信息审计系统中的图像检索技术,首先论述了图像检索中应用最为广泛的颜色特征的提取,接着论述了所有物体表面共有的内在特性纹理特征的提取,然后论述了形状特征的提取,最后论述了图像的空间关系特征的提取。  相似文献   

16.
提出了一种异构数据源的实体模式匹配算法.算法从中英双语的环境出发,利用基于中文wordnet的中英文词义相似度算法和中文分词工具,从列名距离、数据类型、数据内容的词性成份等角度来建立同类实体不同模式之间的映射关系.该算法可用于分析数据空间中不同数据源实体之间的关联,以及其他研究领域中的中英文语义信息相关性分析和实体模式匹配.  相似文献   

17.
提出一种基于双重匹配注意力网络的方法.先用动态匹配机制迭代综合获取全局观点信息,同时利用多维度匹配机制在不同特征空间上计算全局语义信息,然后交互式多路注意力机制通过两路注意力之间的交互计算对上述全局的观点与语义信息进行融合,最后与选项表示结合预测答案的观点倾向.在观点型阅读理解数据集ReCO和Dureader上面的实验表明,该方法相对于基准模型在准确率上提升了1.18%和0.84%,在加权宏F1上提升了1.16%和0.75%.  相似文献   

18.
基于模糊集的地理信息模式匹配算法   总被引:2,自引:0,他引:2  
结合现有模式匹配算法和GML模式的特点,给出了元素与元素语义贴近度的定义,在通用匹配规则的基础上引入具体的匹配规则.针对匹配规则在计算语义贴近度中的作用定义了权值调配函数,并给出了关于元素对的匹配函数的定义和计算公式.实验表明,该算法能够有效发现地理信息模式中元素之间的相似关系,提高了元素之间匹配结果的准确度,对地理信息模式的整合有较大的帮助.  相似文献   

19.
图书的自动分类是图书管理和图书推荐算法中的基础工作,也是难点之一,而且目前针对中文分类算法主要集中在短文本领域中,鲜有对图书等长文本分类的研究.该文对深度学习分类算法进行了深入细致的研究,并对BERT预训练模型及其变体进行相应的改进.利用复杂层级网络叠加双向Transformer编码器来提取隐藏在文本中的细粒度信息.在预训练过程中,增加实体级别的遮罩,获得对传统BERT模型的改进,提高了模型对中文语义理解的能力.通过添加外部知识提升了该模型的鲁棒性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号