首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
基于“配价”是汉语词语的一个比较本质的特点,一旦1个词语的配价结构确定下来,它应该和怎样的词进行搭配就比较清楚,从而也可以比较直接地导出句子的结构,为此,结合中心词驱动句法分析模型,提出基于配价结构的词汇化句法分析模型,引入丰富的语义信息如语义依存信息和配价结构等语义搭配信息,并用改进的句法分析模型进行句法分析实验.实验结果表明:模型的精确率和召回率分别为88.65%和87.26%,综合指标F与Collins的中心词驱动句法分析模型的相比提高6.51%.  相似文献   

2.
提出一种基于语境相似度的中文分词一致性检验方法。首先利用词法和句法层面的特征, 设计基于构词、词性和依存句法的分类规则, 再使用预训练词向量, 对不一致字串所在语境的语义信息进行编码, 通过语境间的语义相似度对不一致字串进行分类。在人工构建的36万字分词语料库中进行分词一致性检验, 结果表明该方法能够有效地提高中文分词一致性检验的准确率。进一步地, 使用3 种主流中文分词模型在修正一致性后的分词语料中重新训练和测试, 结果表明该方法可以有效地提高分词语料库的质量, 3种中文分词模型的F1值分别提高1.18%, 1.25%和1.04%。  相似文献   

3.
句子相似度计算是自然语言处理的一项基础任务,其准确性直接影响机器翻译、问题回答等下游任务的性能。传统机器学习方法主要依靠词形、词序及结构等浅层特征计算句子相似度,而深度学习方法能够融入深层语义特征,从而取得了更好效果。深度学习方法如卷积神经网络在提取文本特征时存在提取句子语义特征较浅、长距离依赖信息不足的缺点。因此设计了DCNN (dependency convolutional neural network)模型,该模型利用词语之间的依存关系来解决该不足。DCNN模型首先通过依存句法分析得到句子中词语之间的依存关系,而后根据与当前词存在一跳或者两跳关系的词语形成二元和三元的词语组合,再将这两部分信息作为原句信息的补充,输入到卷积神经网络中,以此来获取词语之间长距离依赖信息。实验结果表明,加入依存句法信息得到的长距离依赖能有效提升模型性能。在MSRP (microsoft research paraphrase corpus)数据集上,模型准确度和F1值分别为80.33%和85.91,在SICK (sentences involving compositional knowledge)数据集上模型的皮尔森相关系数能达到87.5,在MSRvid (microsoft video paraphrase corpus)数据集上模型的皮尔森相关系数能达到92.2。  相似文献   

4.
基于依存关系的句法分析统计模型   总被引:5,自引:2,他引:3  
利用语义、语法等语言知识,建立一种基于依存关系的句法分析统计模型,并利用改进的句法分析模型进行句法分析实验.研究结果表明:利用依存关系、互信息对词聚类,能解决模型数据稀疏问题;模型可同时考虑几种语义依存关系;该模型是一个词汇化的句法分析模型,能结合分词、词性标注进行句法分析;概率上下文无关语法中由概率的上下文无关性假设和祖先结点无关性假设引起的问题在该模型中得到有效解决;精确率和召回率分别为86.96%和85.25%,其综合指标F与Collins的头驱动句法分析模型的F相比提高4.75%.  相似文献   

5.
分析了潜语义分析语言模型在建模和解码过程中的主要问题, 实现了潜语义分析语言模型的建模, 并提出一种在连续语音识别系统一遍解码框架中融合的方法. 实验结果表明, 该方法可有效地提高大词汇汉语连续语音识别系统的性能.   相似文献   

6.
采用图神经网络模型为整个语料库构建异构图处理文本分类任务时,存在难以泛化到新样本和词序信息缺失的问题。针对上述问题,提出了一种融合双图特征和上下文语义信息的文本分类模型。首先,为每个文本独立构建共现图和句法依存图,从而实现对新样本的归纳式学习,从双图角度捕获文本特征,解决忽略单词间依存关系的问题;其次,利用双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)编码文本,解决忽略词序特征和难以捕捉上下文语义信息的问题;最后,融合双图特征,增强图神经网络模型的分类性能。在MR,Ohsumed,R8,R52数据集上的实验结果表明,相较于经典的文本分类模型,该模型能够提取更丰富的文本特征,在准确率上平均提高了2.17%,5.38%,0.61%,2.48%。  相似文献   

7.
综合考虑关键词、词向量及句法结构对句子相似度计算的影响,将平滑逆频率(smooth inverse frequency,SIF)与依存句法相结合以提高句子相似度计算的精准性。SIF的核心思想为利用加权和去除非信息噪音得到的句向量来计算句子相似度。借助哈尔滨工业大学的语言技术平台,将句子的结构信息添加到句子相似度计算中,通过句子中"词语依存关系"三元组的相似性来度量句子间的相似度。实验结果表明,基于SIF和依存句法的句子相似度计算方法所得的反映准确率和召回率平衡度的指标为84. 4%,与同类的句子相似度计算方法相比,能更为有效衡量句子间的相似程度。  相似文献   

8.
近年来,神经网络语言模型的研究越来越受到学术界的广泛关注.基于长短期记忆(long short-term memory,LSTM)结构的深度神经网络(LSTM-deep neural network,LSTM-DNN)语言模型成为当前的研究热点.在电话交谈语音识别系统中,语料本身具有一定的上下文相关性,而传统的语言模型对历史信息记忆能力有限,无法充分学习语料的相关性.针对这一问题,基于LSTM-DNN语言模型在充分学习电话交谈语料相关性的基础上,将其应用于语音识别系统的重评估过程,并将这一方法与基于高元语言模型、前向神经网络(feed forward neural network,FFNN)以及递归神经网络(recurrent neural network,RNN)语言模型的重评估方法进行对比.实验结果表明,LSTM-DNN语言模型在重评估方法中具有最优性能,与一遍解码结果相比,在中文测试集上字错误率平均下降4.1%.  相似文献   

9.
针对汉越跨语言事件检测缺少平行语料,越南语标注困难,需要统一跨语言语义空间,且触发词存在较大的歧义和局限性等问题,提出基于事件类型感知的汉越跨语言事件检测方法。构造类型感知的注意力机制突显事件特征,融入汉越的词位置、词性和命名实体信息,并通过梯度反转(gradient reversal layer,GRL),实现有标注汉语和无标注越南语之间的对抗训练,将从大量汉语新闻文本中学到的语言无关的事件类型特征融入到联合特征提取器中,进行汉越跨语言的无触发词事件检测,缓解越南语的数据稀缺和触发词的局限性。实验中提出的方法较最好的基线模型在准确率上提升了4.32%。  相似文献   

10.
利用语义、语法等语言知识,建立一种分层句法分析统计模型,并进行句法分析实验.研究结果表明:该模型具有规则和统计相结合的特点,且在层次分析的不同阶段,根据不同的语法、语义、语用特性采用不同的方法和不同的统计模型;该模型结合分词、词性标注进行句法分析,是一个词汇化的句法分析模型,可同时考虑多个语义依存关系;采用该模型,精确率和召回率分别为87.23%和86.15%,其综合指标F与头驱动句法分析模型的相比提高了5.25%.  相似文献   

11.
本文介绍了我们开发的“汉语声控电脑打字机”的结构、功能以及系统实现中的一些关键技术,本系统是一个特定人、孤立词、大词汇量的汉语语音识别与理解系统,其最终识别率可达95%以上。  相似文献   

12.
针对现有的中文文本情感分析方法不能从句法结构、上下文信息和局部语义特征等方面综合考量文本语义信息的问题,提出一种基于特征融合的中文文本情感分析方法.首先,采用Jieba分词工具对评论文本进行分词和词性标注,并采用词向量训练工具GloVe获取融入词性的预训练词向量;然后,将词向量分别作为引入Self-Attention的BiGRU和TextCNN的输入,使用引入Self-Attention的BiGRU从文本的句法结构和文本的上下文信息两个方面综合提取全局特征,使用TextCNN提取文本的局部语义特征;最后,将全局特征和局部语义特征进行融合,并使用Softmax进行文本情感分类.实验结果表明,本文方法可以有效提高文本情感分析的准确率.  相似文献   

13.
针对传统的基于实例的机器翻译(EBMT)方法中系统构筑复杂度和成本较高的问题,提出一种基于依存树到串的汉英实例机器翻译方法。与传统方法相比,该方法只需进行源语言端的句法结构分析,可以大大降低构筑系统的复杂度,有效降低成本。为了提高翻译精度,引入中文分词、词性标注和依存句法分析联合模型,可以减少汉英EBMT中源语言端基础任务中的错误传递,提高提取层次间特征的准确性。在此基础上,结合依存结构的特征和中英语料的特性,对依存树到串模型进行规则抽取以及泛化处理。实验结果表明,相对于基线系统,该方法可以提高实例对抽取质量,改善泛化规则和译文质量,提高系统性能。  相似文献   

14.
时间识别是自然语言处理中极其重要的课题。事件中与主题相关的时间信息体现了事件在时间维度的主题特征。当前面向事件的时间识别大多是基于句子或短语的,并采用静态时间值机制。本文提出了一个面向主题事件的时间识别模型。该模型采用参考时间动态选择机制对时间表达式规范化。结合事件抽取和浅层语义分析,将浅层语义分析结果和时间表达式进行映射,将基于句子或短语的时间识别转化为基于篇章的时间识别,从而识别主题事件片段的时间。实验表明所提出的方法使主题事件片段的时间识别的性能提高了9.6%。  相似文献   

15.
佤语是云南省西南部的一种跨境语言,构建佤语语音识别系统对国家安全、跨境文化交流和经济贸易都有着重要的意义.基于HTK平台,针对1 860个佤语常用词进行特定人孤立词语音识别.语音语料来源为录音棚和田野录音,语音规模录音棚男性2人、女性2人,田野录音男性3人、女性2人,每人每个词发音5遍,总的语料数量为83 700条.实验结果表明,对于上述的语料,进行的基于HTK的佤语特定人孤立词语音识别正确率在92%以上.  相似文献   

16.
给出了语法生成——语义测试模型,提出了一种自底向上与自顶向下结合的语法分析方法,以及语义模板匹配的语义分析方法.实现了一个英语语法及语义分析的实验系统.  相似文献   

17.
提出了面向翻译研究的融合短语结构树和依存分析的短语依存树库(phrase dependency treebank,PDT)的构建思想,阐述了中英平行PDT的构建方法.PDT采用"扁平结构优先"的短语结构树和"基于语义"的依存句法功能标注原则,有别于传统依存分析的完全二分法.大连理工大学中英平行PDT(DUT-CEPDT)的生语料取自文本质量较高的政府工作报告和白皮书及其官方译文.首先,对文本进行分词和词性标注之后,利用专为语言学家开发的辅助工具LingTreeConstructor构建中文和英文的单语PDT;之后,在两个单语PDT之间从篇章到词的节点进行对齐,这种多层次的立体对齐比只有词、短语或句子的单层对齐能提供更丰富的翻译知识;最后,依据FrameNet进行双语平行的框架语义角色标注.DUTCEPDT将为译员培训和机器翻译研究提供所需的标准语料.  相似文献   

18.
一种改进的词汇语义极性分析算法*   总被引:1,自引:1,他引:0  
词汇极性分析在自然语言处理等多个领域发挥着重要的作用。针对现有汉语词汇极性分析对词汇的义原考虑的不够全面,使得极性分析存在不准确的问题,提出一种更有效的词汇语义倾向性计算方法。首先找准一组褒贬中性词库,进而提取出待测词与词库中基准词词汇的极性义原、词性、其他义原,计算相应的相似度;并分别给出合适的权重值。由此计算出待测词与基准词的相似度,最后判断待测词的语义极性。实验表明该算法可以进一步的提高语义极性倾向判别准确率。  相似文献   

19.
汉字是象形文字,其字形特征对于中文命名实体识别有着重要的作用。针对双向长短期记忆模型(bi-directional long short-term memory,BiLSTM)提取部首,命名实体识别准确率不高的问题,提出笔画组成编码器,用于获取汉字的字形特征,并将笔画字形特征向量和预训练的语言表征模型(bidirectional encoder representation from transformers,BERT)输出的字向量进行拼接,将拼接后的向量放入双向长短期记忆模型与条件随机场(conditional random field,CRF)相连的标注模型(BiLSTM-CRF)中进行命名实体识别。实验表明,所提的方法在Resume数据集上命名实体识别准确率有显著提升。相较于用卷积神经网络做编码器提取汉字字形特征,准确率高出0.4%。相较于使用BiLSTM提取的部首特征模型和加入词典的长短期记忆模型(Lattice LSTM)模型其准确率分别提升了4.2%、0.8%。  相似文献   

20.
针对目前中文命名时实体识别方法中存在的中文边界识别困难、模型梯度、文本特征不够充分等问题,提出了一种融合词性特征与双向时间卷积网络的中文命名时实体识别模型。该模型提出使用XLNet预训练语言模型生成对应的词嵌入表示,融合后使用双向时间卷积网络提取文本前向特征与后向特征。实验中对时间卷积网络的空洞因子、卷积层数和卷积核数进行参数实验并分析其影响原因,结果表明,该模型与其他模型相比,能够更准确且有效地提取文本中的实体。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号