首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于条件随机场的越南语命名实体识别方法   总被引:2,自引:0,他引:2  
针对越南语特点,提出一种基于条件随机场模型的越语命名实体识别方法。该方法针对越语词和词性的特点,采用条件随机场算法,选取词和词性作为特征,定义特征模版,选取越南语新闻文本,标记地名、人名、组织机构等6类实体语料,训练获得越南语实体识别模型,实现实体识别。实验结果表明该方法提取实体的准确率达到83.73%。  相似文献   

2.
在对话过程中,人们通常根据对方上一句话的关键词做出相应的回复。为了生成与关键词含义相关的回复,提出了拓展关键词信息注意力机制的对话生成模型。首先从输入语句中提取关键词,然后根据关键词词向量余弦相似度找出与关键词相关的词语构成拓展关键词集合,将集合中词语的词向量通过注意力机制的方式加入解码过程来影响回复生成。在中文微博数据集及英文Twitter数据集上的实验表明,该模型在回复语句的相关性及多样性方面取得了优于其他模型的结果。  相似文献   

3.
针对汉越跨语言事件检测缺少平行语料,越南语标注困难,需要统一跨语言语义空间,且触发词存在较大的歧义和局限性等问题,提出基于事件类型感知的汉越跨语言事件检测方法。构造类型感知的注意力机制突显事件特征,融入汉越的词位置、词性和命名实体信息,并通过梯度反转(gradient reversal layer, GRL),实现有标注汉语和无标注越南语之间的对抗训练,将从大量汉语新闻文本中学到的语言无关的事件类型特征融入到联合特征提取器中,进行汉越跨语言的无触发词事件检测,缓解越南语的数据稀缺和触发词的局限性。实验中提出的方法较最好的基线模型在准确率上提升了4.32%。  相似文献   

4.
新闻事件检测是自动检测新闻文本中出现的相关事件,需要大量人力设计模板,而且难以获取句中隐含的语义信息,识别触发词时多存在歧义.为解决以上问题,利用融合依存句法信息的卷积神经网络(Dependency Parsing Convolutional Neural Networks,DPCNN),针对句子级别越南语新闻事件进行检测.该模型在编码过程中融合了词义、位置信息、词性信息和命名实体信息,利用传统卷积编码连续词之间的特征,利用融合依存句法信息的卷积编码非连续词之间的特征,再融合两部分特征作为事件编码,进而实现事件检测.实验结果表明,该方法在越南语新闻事件检测中取得了很好的效果.  相似文献   

5.
【目的】针对词主题信息与词相似性信息对关键词提取的影响进行了研究,提出一种改进的TextRank关键词提取方法。【方法】首先,使用隐含狄利克雷分布(Latent Dirichlet allocation,LDA)主题模型对文档建模计算词主题信息;其次,使用FastText生成词向量,并计算词相似性矩阵;最后,融合词主题信息与词相似性信息的综合权重来优化TextRank词汇节点的初始权重,并进行词图模型的迭代运算与关键词提取。【结果】实验表明,改进方法的提取结果优于传统方法。【结论】证明了考虑词主题信息的全局性与词相似性信息的局部性能有效提高TextRank算法提取关键词的性能。  相似文献   

6.
传统的词向量嵌入模型,如Word2Vec、GloVe等模型无法实现一词多义表达;传统的文本分类模型也未能很好地利用标签词的语义信息。基于此,提出一种基于XLNet+BiGRU+Att(Label)的文本分类模型。首先用XLNet生成文本序列与标签序列的动态词向量表达;然后将文本向量输入到双向门控循环单元(BiGRU)中提取文本特征信息;最后将标签词与注意力机制结合,选出文本的倾向标签词,计算倾向标签词与文本向量的注意力得分,根据注意力得分更新文本向量。通过对比实验,本文模型比传统模型在文本分类任务中的准确率更高。使用XLNet作为词嵌入模型,在注意力计算时结合标签词能够提升模型的分类性能。  相似文献   

7.
短语树库是自然语言处理的研究和实际应用的重要资源,就越南语而言目前也缺乏这类树库资源,不利于汉越双语信息处理工作.提出一种融合越南语语法特征与改进PCFG(概率上下文无关文法)的越南语短语树库构建方法,能够自动分析出越南语的短语结构树,从而可解决了越南语短语树库的自动构建问题.首先通过分析越南语的语言特征,制定出越南语的语言特征集;然后利用Inside-Outside算法从人工标注的少量越南语短语树获取PCFG模型中的语法规则集;最后将语法特征集作为语法规则集的补充融入PCFG模型,用得到的新模型最终完成越南语短语树库的构建.实验结果表明,新的PCFG模型针对越南语短语树库构建的准确率达到了81.14%,相比传统PCFG模型以及基于最大熵的树库构建方法准确率明显提高了2%~3%.  相似文献   

8.
词向量具有良好的语义特性,可用于改善和简化许多自然语言信息处理应用。本研究利用CBOW和Skip-gram两种模型架构在不同数据和不同维度下训练蒙古语词向量,然后结合蒙古语特征设计一个语义语法综合测试集,并在此测试集上用语义和语法相似度来评测词向量质量。研究结果表明,蒙古语语义和语法相似性任务上,Skip-gram模型优于CBOW模型,Skip-gram模型的窗口大小为5的情况下,词向量质量最好,且随着词向量维度或训练数据的增大,词向量质量有明显的提高。  相似文献   

9.
在汉越神经机器翻译中,由于汉越平行语料稀少,使得数据稀疏问题十分严重,极大地影响了模型的翻译效果.为了提升数据稀疏情况下的汉越神经机器翻译性能,提出一种基于深度可分离卷积的汉越神经机器翻译方法.该方法根据越南语的语言特点,将越南语切分为词、音节、字符、子词4种不同的粒度并利用深度可分离卷积改进神经机器翻译模型,通过增加深度可分离卷积神经网络,对模型输入的不同粒度序列进行卷积运算,提取更多的特征数据,相比传统卷积降低了模型的理论计算量.实验结果表明,该方法在越南语4种不同翻译粒度上均取得最佳效果,一定程度上提升了汉越神经机器翻译性能.  相似文献   

10.
单词向量化是自然语言处理领域中的重要研究课题之一,其核心是对文本中的单词建模,用一个较低维的向量来表征每个单词.生成词向量的方式有很多,目前性能最佳的是基于神经网络语言模型生成的分布式词向量,Google公司在2012年推出的Word2vec开源工具就是其中之一.分布式词向量已被应用于聚类、命名实体识别、词性分析等自然语言处理任务中,它的性能依赖于神经网络语言模型本身的性能,并与语言模型处理的具体任务有关.本文从三个方面介绍基于神经网络的分布式词向量,包括:经典神经网络语言模型的构建方法;对语言模型中存在的多分类问题的优化方法;如何利用辅助结构训练词向量.  相似文献   

11.
生成过程中利用词汇特征(包含n-gram和词性信息)识别更多重点词汇内容,进一步提高摘要生成质量,提出了一种基于sequence-to-sequence(Seq2Seq)结构和attention机制的、融合了词汇特征的生成式摘要算法。算法的输入层将词性向量与词向量合并后作为编码器层的输入,编码器层由双向LSTM组成,上下文向量由编码器的输出和卷积神经网络提取的词汇特征向量构成。模型中的卷积神经网络层控制词汇信息,双向LSTM控制句子信息,解码器层使用单向LSTM为上下文向量解码并生成摘要。实验结果显示,在公开数据集和自采数据集上,融合词汇特征的摘要生成模型性能优于对比模型,在公开数据集上的ROUGE-1,ROUGE-2,ROUGE-L分数分别提升了0.024,0.033,0.030。因此,摘要的生成不仅与文章的语义、主题等特征相关,也与词汇特征相关,所提出的模型在融合关键信息的生成式摘要研究中具有一定的参考价值。  相似文献   

12.
语义相似性度量能够提高信息检索的准确性和效率,已成为文本处理中的一个核心任务.为解决一词多义等词汇歧义问题,提出一种基于低维向量组合的语义向量模型.该模型引入了知识库与语料库的多语义特征的融合,主要的语义融合对象包括连续的分布式词向量和从WordNet结构中的语义特征信息.首先利用深度学习技术中的神经网络语言模型,预先从文本语料中学习得到连续的低维词向量;然后从知识库WordNet中抽取多种语义信息和关系信息;再将多语义信息融入词向量进行知识扩展和强化,生成语义向量,从而实现基于向量空间的语义相似性度量方法.在基准测试集上的实验结果表明,该方法优于基于单一信息源(知识库WordNet或文本语料)的语义相似性度量方法,其皮尔森相关系数比基于原始词嵌套向量的方法提高了7.5%,说明在向量特征层面上的多语义信息的融合有助于度量词汇间的语义相似性.  相似文献   

13.
为了让用户根据歌词内容快速精准地检索音乐,提出一种基于word2vec的中文歌词关键词提取算法.算法运用word2vec将歌词表征为词向量,根据词向量计算词语之间的相似度,其次通过K-means聚类算法得到歌词关键词.同时与基于TFIDF、LDA模型的歌词关键词提取结果进行比较,发现从该算法得出的10个关键词中抽取与人工标注相同的2-5个时,准确率明显增加.  相似文献   

14.
针对越南语分词词典构建问题,提出了一种新的半监督集成构建方法.该方法能够结合人工干预,从大规模未标注越南语语料中识别多音节单词.首先设计了一种n元音节词产生器,并生成尽可能多的候选多音节词;其次通过3种统计特征的计算并根据预设阈值实现了相应的单词提取器,接着越南语专家检测并修正3个单独的词典;最后词典合成器合并这几个提取出的词典形成一个集成词典.采用直接实验和间接实验来评估这些词典的效力,实验结果表明,所提出的半监督集成构建方法是有效的,而且采用这些动态提取词典的两种越南语分词算法都能够达到理想的性能.  相似文献   

15.
针对文本中关键信息被忽略以及分类准确率不高的问题,提出一种加权word2vec的卷积神经网络(CNN)与ATT-BiGRU混合神经网络情感分析模型.由于word2vec生成的词向量无法突出文本关键词的作用,因此引入词频-逆文档频率(TF-IDF)算法计算词汇权重值.然后,将加权运算后的词向量输入CNN与ATT-BiGR...  相似文献   

16.
特征词提取算法大多以选取单个关键词为主,存在词与词关联度缺失,文本主题表达不准确的问题,为此提出一种基于词共现的文本分类算法。通过计算词间共现率,利用TextRank算法构建共现图得到共现词组,建立文本向量表示模型,并利用SVM算法实现文本分类。实验证明,共现词作为文本特征项相对于传统单个特征词有更好的分类效果。  相似文献   

17.
文章以最简方案中的MP模型为依托,通过对中介语所呈现出的不同于母语的独特性的分析,首先做出中介语生成过程具有动态性的假设,然后从母语词库与中介语词库的整体区别、中介语词库内词项属性发展具有不平衡性等方面着手,进一步论证中介语生成模型不同于MP模型的动态性。  相似文献   

18.
越南语中方位介词和趋向动词的用法并不由动词决定,而是与动作出发点及说话者的视线基点有关;通过越南民族对空间的认知可以揭示越语中方位介词和趋向动词的逻辑意义及隐喻现象,揭示这两类词在越语中的用法及认知特征。  相似文献   

19.
针对传统关系抽取模型依赖特征工程等机器学习方法, 存在准确率较低且规则较繁琐等问题, 提出一种BERT+BiLSTM+CRF方法. 首先使用BERT(bidirectional encoder representations from transformers)对语料进行预训练; 然后利用BERT根据上下文特征动态生成词向量的特点, 将生成的词向量通过双向长短期记忆网络(BiLSTM)编码; 最后输入到条件随机场(CRF)层完成对因果关系的抽取. 实验结果表明, 该模型在SemEval-CE数据集上准确率比BiLSTM+CRF+self-ATT模型提高了0.054 1, 从而提高了深度学习方法在因果关系抽取任务中的性能.  相似文献   

20.
文章主要研究短文本关键词抽取及具有丰富文本含义的关键词扩展问题,在关键词抽取工作中将文本主题分类信息和词搭配关系引入到传统的TF-IDF算法中;在关键词扩展的工作中,通过构建词的特征表示向量,计算文本关键词和类别特征词相似度,从而发现所需扩展的关键词,两方面工作均取得了令人满意的结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号