首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
针对目前对事件同指关系的研究中多采用事件对分类或聚类方法而忽略事件相互之间内在联系的问题, 提出一个中文事件同指消解的全局优化模型, 用于减少因分类器错误造成的同指事件链不一致问题。该模型利用对称性、传递性、触发词、论元角色、事件距离等多种约束条件, 将同指消解转化成整数线性规划问题。实验结果表明, 与分类器方法相比, 全局优化模型的F1值提高4.20%。  相似文献   

2.
提出了一种基于点互信息的全局词向量训练模型。该模型为了避免GloVe词向量模型中使用条件概率刻画词语关系时所产生的缺点,使用了另一种相关信息——联合概率与边际概率乘积的比值——来刻画词语间的关系。为了验证模型的有效性,在相同条件下,利用GloVe模型和我们的模型训练词向量,然后使用这2种词向量分别进行了word analogy以及similarity的实验。实验表明,模型的准确率在word analogy的Semantic问题中比GloVe模型表现更好,分别在100维、200维、300维的词向量实验中,准确率提升了10.50%、4.43%、1.02%,而在similarity的实验中,模型准确率提升也达5%~6%。结果表明,模型可以更有效地捕捉词语的语义。  相似文献   

3.
将知识库增量引文推荐(cumulative citation recommendation, CCR)任务分解为3个基本的关键问题:针对知识库某一实体名的查询扩展;针对文档和实体的特征提取;基于线性和非线性相结合的分类模型。提出了基于语义词典(DBpedia)与词向量(word embedding)相结合的方法进行查询扩展,以及利用LDA和ESA两种算法对文档进行特征提取,最终通过线性逻辑回归与非线性随机森林相融合的分类算法实现CCR算法。与基线系统相比,该方法在TREC KBA2014评测数据上的试验结果的F1平均提升了14.7%,表明本文设计的方法能够较好地解决引文推荐问题。  相似文献   

4.
在数据匮乏的领域,命名实体识别效果受限于欠拟合的字词特征表达,引入常规的多任务学习方法可以有所改善,但需要额外的标注成本.针对这一问题,提出了一种基于多粒度认知的命名实体识别方法,在不产生额外标注成本的前提下,增强字特征信息,提高命名实体识别效果.该方法从多粒度认知理论出发,以BiLSTM和CRF为基础模型,将字粒度下的命名实体识别任务与句子全局粒度下的实体数量预测任务相联合,共同优化字嵌入表达.三个不同类型的数据集上的多组实验表明,引入多粒度认知的方法有效地提升了命名实体识别效果.  相似文献   

5.
数据聚类是常用的无监督学习方法,通过词嵌入聚类能够挖掘文本主题,但现有研究大多数采用常规聚类算法挖掘词嵌入的簇类,缺少基于词嵌入特性设计实现词嵌入聚类的主题挖掘算法.该文从语言模型通过建模词间相关信息来使相关及语义相似词的嵌入表示聚集在一起的特点出发,设计词嵌入聚类算法.该算法首先计算中心词的簇类号,然后使该簇中心嵌入和相邻词嵌入的相似性增强,同时使其与负样本词嵌入远离,学习文本集词嵌入的簇类结构,并将其应用于文本主题挖掘.在3种公开数据集上的实验表明:该算法在一些模型的词嵌入结果上能够挖掘出一致性和多样性更好的主题结果.  相似文献   

6.
针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷, 提出一种基于Hownet的词向量表示方法(H-WRL)。首先, 基于义原独立性假设, 将 Hownet中所有N个义原指定为欧式空间的一个标准正交基, 实现Hownet义原向量初始化; 然后, 根据Hownet中词语与义原之间的定义关系, 将词语向量表示视为相关义原所张成的子空间中的投影, 并提出学习词向量表示的深度神经网络模型。实验表明, 基于Hownet的词向量表示在词相似度计算和词义消歧两项标准评测任务中均取得很好的效果。  相似文献   

7.
构建一种基于融合条目词嵌入和注意力机制的深度学习模型,可以充分利用电子病案中的多种非结构化文本数据,对病案首页的主要诊断进行自动ICD编码。该模型首先对含有病案条目的文本进行融合条目的词嵌入,并通过关键词注意力来丰富词级别的类别表示;然后利用词语注意力来突出重点词语的作用,增强文本表示;最后通过全连接神经网络分类器进行分类,输出ICD编码。通过在中文电子病案数据集上的消融实验,验证了融合条目词嵌入、关键词注意力和词语注意力的有效性;与多个基准模型相比,所建模型在对81种疾病的分类中取得最好的分类效果,可以有效地提高自动ICD编码的质量。  相似文献   

8.
针对诉讼案件违法事实要素抽取效果依赖领域专业知识的特点,提出一种基于transformer双向编码器表示(bidirec-tional encoder representations from transformer,BERT)的诉讼案件违法事实要素自动抽取方法.首先,通过构建领域知识并采用谷歌BERT预训练语言模型进行训练得到拟合诉讼案件领域数据的模型参数和中文预训练字嵌入向量作为模型的输入,得到具有上下文相关的语义表示,以提高词嵌入的上下文语义质量.其次,采用循环卷积神经网络对文本进行编码并获取在文本分类任务中扮演关键角色的信息,提升案件违法事实要素抽取的效果.最后,采用focal函数作为损失函数关注难以区分的样本.违法事实要素抽取的工作是通过对文本标签进行分类得到的.实验测试表明,该方法对诉讼案件要素抽取的F1值为86.41%,相比其他方法性能均有提高.对模型注入领域内知识,也可以提高模型抽取准确率.  相似文献   

9.
为了解决刑期预测任务准确率较差的问题,提出一种基于多通道分层注意力循环神经网络的司法案件刑期预测模型.该模型对传统的循环神经网络模型进行了改进,引入了BERT词嵌入、多通道模式和分层注意力机制,将刑期预测转化为文本分类问题.模型采用分层的双向循环神经网络对案件文本进行建模,并通过分层注意力机制在词语级和句子级两个层面捕获不同词语和句子的重要性,最终生成有效表征案件文本的多通道嵌入向量.实验结果表明:对比现有的基于深度学习的刑期预测模型,本文提出的模型具有更高的预测性能.  相似文献   

10.
针对当前中文词嵌入模型无法较好地建模汉字字形结构的语义信息,提出了一种改进的中文词嵌入模型.该模型基于词、字和部件(五笔编码)等粒度进行联合学习,通过结合部件、字和词来构造词嵌入,使得该模型可以有效学习汉字字形结构所蕴含的语义信息,在一定程度上提升了中文词嵌入的质量.  相似文献   

11.
本文对新词"晒"的产生和使用情况进行了全面的梳理,指出新词"晒"的广泛使用,已经使现代汉语中形成了一个以"晒"为共同特征的词族。新词"晒"的高频使用有其语义和结构上的基础,其中类推机制起到了十分重要的作用,同时我们对"晒"族词语使用中的优势和潜在的问题也作了详细说明。  相似文献   

12.
细粒度实体分类是一项多类别多标签任务,能协助广泛的下游任务(关系抽取、共指消解、问答 系统等)提高工作效率、优化准确率,已成为自然语言处理领域的一个研究热点。针对传统的细粒度实体分类方法人工标注大型语料库难度大,准确率偏低等问题,研究人员提出了基于神经网络的细粒度实体分类方 法,不仅能够解决人工标注费时费力的问题,而且可以提高分类的准确率。然而现有的神经网络模型大多需 要远程监督的参与,在此过程中会引入噪声标签等问题,通过噪声标签处理方法能够有效抑制噪声标签对分类结果的影响,进一步提升分类性能。 在相同评测数据集下,根据相同评价指标对比各类细粒度实体分类方 法的性能,可以发现在细粒度实体分类领域中采用 BiLSTM 处理实体指称上下文,并通过注意力机制提取更为重要的特征,有助于提高细粒度实体分类方法的准确率、Macro F1值和 Micro F1值。  相似文献   

13.
提出一种基于词模式的上下位关系分类方法, 可以有效地缓解传统的基于模式的分类方法存在的稀疏问题, 提高了关系分类的召回率。进一步地, 通过词模式嵌入, 将基于模式的方法与基于词嵌入的方法进行有效的融合。为了验证方法的有效性, 标注一个包含12000个汉语词语对的数据集。实验结果表明, 该词模式嵌入方法是有效的, F1值可以达到95.36%。  相似文献   

14.
为了详细地分析文本单模态预训练模型RoBERTa和图文多模态预训练模型WenLan文本嵌入的差异,提出两种定量比较方法,即在任一空间中,使用距离一个词最近的k近邻词集合表示其语义,进而通过集合间的Jaccard相似度来分析两个空间中词的语义变化;将每个词与其k近邻词组成词对,分析词对之间的关系。实验结果表明,图文多模态预训练为更抽象的词(如成功和爱情等)带来更多的语义变化,可以更好地区分反义词,发现更多的上下义词,而文本单模态预训练模型更擅长发现同义词。另外,图文多模态预训练模型能够建立更广泛的词之间的相关关系。  相似文献   

15.
通过类比法帮助学生理解新概念、建立新的知识体系,帮助学生掌握、发现定理、公式和探索解题思路,说明了类比方法在数学教学中的应用。  相似文献   

16.
《读书杂志》运用“类比手法”释词表现在六个方面,即:表明释词方式相同、揭明比喻义相同、直引同类训释为解、用类比推理说明词义训释、说明正反同词、说明古语今义。  相似文献   

17.
提出了一种面向情绪分类的融合词内部信息和情绪标签的词向量学习方法。在CBOW模型的基础上,引入词内部成分和情绪标签信息,以适应微博情绪表达的不规范,同时丰富词向量的情绪语义。对于输入文本,按照词的TF-IDF权重对词向量进行加权求和,以作为文本向量表示。以上述词向量或文本向量作为情绪分类器的输入,采用机器学习的分类方法(LR、SVM、CNN),验证本文情绪词向量在情绪分类任务上的实验效果。实验表明,情绪词向量与原始CBOW词向量相比,在准确率、召回率、F值等各项指标上都有更好的表现。  相似文献   

18.
词义演化的计算方法   总被引:1,自引:1,他引:0  
从大规模真实文本中挖掘词义关系是自然语言学习的一项艰巨任务。词义不是静态、一成不变的,随着时代的发展,词义也在不断变迁。如何从错综复杂的词义变迁中,挖掘词义演化的基本规律,准确发现词义的各种变化,并给出量化的分析和建立数学模型,是一个急待解决的问题。根据词语的上下文搭配词分布情况来定义该词的词义,提出一种基于动态语料库的词义演化计算方法统计词义在23年《人民日报》中的分布信息,计算词义在各个时段的变化值,构造词义的演化曲线,并提出一种基于X2分析的方法来挖掘词语的搭配词与时间之间的相关关系。  相似文献   

19.
针对事件时间关系不对称的问题,采用将事件表示映射到双曲空间的方法,进行事件时序关系抽取。通过简单的运算,用预训练的词向量与外部知识构建事件的词嵌入表示。在公开发布的数据集上的实验结果表明,模型的F1值比基线模型普遍高2%,能够提升事件时序关系抽取的效果。  相似文献   

20.
针对传统用户意图识别主要使用基于模板匹配或人工特征集合方法导致成本高、扩展性低的问题,提出了一种基于BERT词向量和BiGRU-Attention的混合神经网络意图识别模型。首先使用BERT预训练的词向量作为输入,通过BiGRU对问句进行特征提取,再引入Attention机制提取对句子含义有重要影响力的词的信息以及分配相应的权重,获得融合了词级权重的句子向量,并输入到softmax分类器,实现意图分类。爬取语料实验结果表明,BERT-BiGRU-Attention方法性能均优于传统的模板匹配、SVM和目前效果较好的CNN-LSTM深度学习组合模型。提出的新方法能有效提升意图识别模型的性能,提高在线健康信息服务质量、为在线健康社区问答系统提供技术支撑。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号