首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 562 毫秒
1.
拉丁化的维吾尔语在使用过程中具有文本不规范的特点,这种不规范是造成歧义等现象的最主要原因,严重制约着与维吾尔语相关的自然语言处理应用.由此提出了一种无监督的基于子词信息的文本规范化方法,该方法在词向量构建过程中将词的内部信息考虑进去.这种方法可以对罕见词进行向量表示,也可以将词内部的形态信息融入词的表示,丰富词向量的表达,进而用于改进无监督学习中规范化词候选集生成质量的不足.实验表明,相比于传统词向量构建方法,该方法在文本规范化任务中可以提高规范化词的召回率.  相似文献   

2.
针对维吾尔语事件时序关系识别问题,提出了一种结合注意力机制的双向长短时记忆模型.基于维吾尔语语言及事件时序关系的特点,抽取13项基于事件间内部结构信息的特征.将词向量作为双向长短时记忆模型的输入,挖掘给定事件句隐含的上下文语义信息.结合事件触发词建立注意力机制,获取该事件句的事件语义特征.将事件内部结构特征和语义特征相融合,作为softmax层的输入,进而完成事件时序关系的识别.实验结果表明,该方法在获取事件句隐含语义信息的同时也能获取对应的事件语义特征.融合事件内部结构特征后,识别准确率为89.42%,召回率为86.70%,衡量模型整体性能的F值为88.03%,从而证明了该方法在维吾尔语事件时序关系识别任务上的有效性.  相似文献   

3.
针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷, 提出一种基于Hownet的词向量表示方法(H-WRL)。首先, 基于义原独立性假设, 将 Hownet中所有N个义原指定为欧式空间的一个标准正交基, 实现Hownet义原向量初始化; 然后, 根据Hownet中词语与义原之间的定义关系, 将词语向量表示视为相关义原所张成的子空间中的投影, 并提出学习词向量表示的深度神经网络模型。实验表明, 基于Hownet的词向量表示在词相似度计算和词义消歧两项标准评测任务中均取得很好的效果。  相似文献   

4.
语义相似性度量能够提高信息检索的准确性和效率,已成为文本处理中的一个核心任务.为解决一词多义等词汇歧义问题,提出一种基于低维向量组合的语义向量模型.该模型引入了知识库与语料库的多语义特征的融合,主要的语义融合对象包括连续的分布式词向量和从WordNet结构中的语义特征信息.首先利用深度学习技术中的神经网络语言模型,预先从文本语料中学习得到连续的低维词向量;然后从知识库WordNet中抽取多种语义信息和关系信息;再将多语义信息融入词向量进行知识扩展和强化,生成语义向量,从而实现基于向量空间的语义相似性度量方法.在基准测试集上的实验结果表明,该方法优于基于单一信息源(知识库WordNet或文本语料)的语义相似性度量方法,其皮尔森相关系数比基于原始词嵌套向量的方法提高了7.5%,说明在向量特征层面上的多语义信息的融合有助于度量词汇间的语义相似性.  相似文献   

5.
基于同义词词林提出一种语义空间变换算法,并将其应用于平滑BLEU中,提出一种改进的基于同义词词林的BLEUS评测方法,该方法针对候选译文中短译文或英文缩写可能导致一元语法零匹配的情况,对传统BLEUS的n元语法均进行了平滑处理,并且以参考译文的一元语法为标准,对候选译文进行语义空间变换.在俄汉双语句子数据集上对谷歌、百度、必应、有道在线翻译系统的俄汉翻译输出译文进行评测,改进方法与传统BLEUS的评测结果一致;基于同义词词林的BLEUS提升传统BLEUS的评测性能,使得百度的NBLEUS值提高了3.99%,谷歌提高了7.66%,必应提高了11.15%,有道提高了4.65%.与此同时,验证了基于同一类型评测方法的纵向比较方法的有效性.  相似文献   

6.
针对维吾尔语命名实体识别存在无法关注词序列依赖关系等问题,提出一种基于迁移学习的联合深度模型(TBIBC).首先通过BERT(Bidirectional Encoder Representations from Transformers)预训练中文数据集生成具有语义信息的词向量,再将词向量序列通过空洞卷积神经网络(IDCNN)进行膨胀操作以减少神经元层数和参数,输出向量输入到双向门控循环单元(BiGRU)进行上下文语义信息提取,然后通过CRF层得到最优标签序列.模型采用共享深度神经网络隐藏层的方法将训练好的中文实体识别模型迁移到维吾尔语模型上.结果表明,该模型的准确率为91.39%,召回率为90.11%,F1值达到90.75%,能显著提升维吾尔语命名实体识别性能.  相似文献   

7.
句子间语义相似性的计算已成为自然语言处理领域的重要研究内容,如何有效地对句子建立语义模型已成为释义识别、文本相似性计算、问答和文本蕴涵等自然语言处理应用的基础任务.文中提出了一种并行的卷积神经网络模型,该模型的两个卷积网络不仅对句子对中的单个句子建立句子向量表示,还对句子经卷积池化后的特征进行相似性度量,并获得句子间的相似性特征.采用释义识别及文本相似性两项任务进行模型性能的实验评测,结果显示,该模型能够较好地表示句子语义信息,其释义识别F1值相比基准实验提高了7.4个百分点,语义相似性评测的皮尔森相关系数比逻辑回归方法有7.1个百分点的提高.  相似文献   

8.
词向量具有良好的语义特性,可用于改善和简化许多自然语言信息处理应用。本研究利用CBOW和Skip-gram两种模型架构在不同数据和不同维度下训练蒙古语词向量,然后结合蒙古语特征设计一个语义语法综合测试集,并在此测试集上用语义和语法相似度来评测词向量质量。研究结果表明,蒙古语语义和语法相似性任务上,Skip-gram模型优于CBOW模型,Skip-gram模型的窗口大小为5的情况下,词向量质量最好,且随着词向量维度或训练数据的增大,词向量质量有明显的提高。  相似文献   

9.
针对现有的融合文本和路径信息的模型未能充分挖掘和利用文本与路径语义的问题,提出了新的知识图谱嵌入学习模型(GETR模型):首先, 利用LDA丰富实体描述文本语义并用TWE获取词和主题向量,采用Bi-LSTM模型把词和主题向量编码融入实体向量表示中,以增强结点的语义表达能力;其次,设计了以组合PageRank和余弦相似度算法为策略的随机游走算法,以获取实体间的多步路径,并利用自注意力机制捕获路径的重要语义融入到翻译模型中进行联合训练,从而达到有效过滤路径中的噪声和提高模型效率的目的.最后,在数据集FB15K、FB20K和WN18上,对GETR、TransE、DKRL、TKGE模型进行知识补全和实体分类任务的评测,结果表明:GETR模型具有更好的性能表现,是一种更加高效的知识表示方法.  相似文献   

10.
为了解决分布式词表示方法因忽略词语情感信息导致情感分类准确率较低的问题,提出了一种融入情感信息加权词向量的情感分析改进方法。依据专属领域情感词典构建方法,结合词典和语义规则,将情感信息融入到TF-IDF算法中,利用Word2vec模型得到加权词向量表示方法,并运用此方法对采集到的河北省旅游景点的评论文本与对照组进行对比实验。结果表明,与基于分布式词向量表示的情感分析方法相比,采用融入情感信息加权词向量的改进方法进行情感分析,积极文本的准确率提高了6.1%,召回率提高了6.6%,F值达到了90.3%;消极评论文本的准确率提高了6.0%,召回率提高了7.2%,F值达到了89.6%。因此,融入情感信息加权词向量的情感分析改进方法可以有效提高评论文本情感分析的准确率,为用户获得更为准确的评论观点提供参考。  相似文献   

11.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

12.
传统词向量表示模型往往忽视了单词间的句法形态结构,导致模型预测准确率不高. 为此,提出基于fastText模型的词向量表示改进算法. 首先,在训练模型数据集上,引入stopwords处理技术,剔除一些无意义介词等对预测模型干扰,减少噪声数据;其次,针对fastText模型中n-gram分解格式进行限定,将分解条件设置为符合英文单词的组成结构;最后,去除fastText模型中单词前后缀标记符,减少无用分解对模型预测产生干扰. 实验结果表明,与fastText模型相比,所提出的改进模型在单词关系评分、语义相似性、句法相似性均取得较好的准确率.  相似文献   

13.
基于学者网提供的计算机专业论文语料库,利用Glove语义分析工具,给出了多种词向量训练方案,比较了各自的优劣性;提出了利用随机映射的方法,在大规模的向量空间中快速定位向量;最后提出了在单个词的语义向量基础上计算整篇学术文档的语义向量的方案.通过一系列实验验证了基于词向量的学术语义搜索方案的有效性,并实际应用于学者网学术搜索中,取得良好的效果.  相似文献   

14.
目前的神经网络一般只将词粒度层面的词向量作为输入,忽略了语义层面的全局语义特征.针对此问题,提出了一种基于局部特征和全局特征融合的情感分类方法,以解决评论特征稀疏和主题聚焦性差的问题.对于局部特征,选择基于情感词典和BiLSTM神经网络模型提取基于词向量的文本特征.对于文本集的全局主题特征,采用神经主题模型提取文本主题特征,并将其作为全局特征来表示短文本信息.最终将基于局部加权词向量的文本特征和基于神经主题模型的文本主题特征进行拼接,并通过Softmax层输出,完成文本情感分类.结果表明:融合全局主题语义和局部加权词向量可以更加丰富神经网络的特征,从而有效地提高情感分类的准确率.  相似文献   

15.
提出了一种面向情绪分类的融合词内部信息和情绪标签的词向量学习方法。在CBOW模型的基础上,引入词内部成分和情绪标签信息,以适应微博情绪表达的不规范,同时丰富词向量的情绪语义。对于输入文本,按照词的TF-IDF权重对词向量进行加权求和,以作为文本向量表示。以上述词向量或文本向量作为情绪分类器的输入,采用机器学习的分类方法(LR、SVM、CNN),验证本文情绪词向量在情绪分类任务上的实验效果。实验表明,情绪词向量与原始CBOW词向量相比,在准确率、召回率、F值等各项指标上都有更好的表现。  相似文献   

16.
针对目前各种基于长短期记忆网络LSTM的句子情感分类方法没有考虑词的词性信息这一问题,将词性与自注意力机制相结合,提出一种面向句子情感分类的神经网络模型PALSTM(Pos and Attention-based LSTM).首先,结合预训练词向量和词性标注工具分别给出句子中词的语义词向量和词性词向量表示,并作为LSTM的输入用于学习词在内容和词性方面的长期依赖关系,有效地弥补了一般LSTM单纯依赖预训练词向量中词的共现信息的不足;接着,利用自注意力机制学习句子中词的位置信息和权重向量,并构造句子的最终语义表示;最后由多层感知器进行分类和输出.实验结果表明,PALSTM在公开语料库Movie Reviews、Internet Movie Database和Stanford Sentiment Treebank二元分类及五元情感上的准确率均比一般的LSTM和注意力LSTM模型有一定的提升.  相似文献   

17.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

18.
为提高汉语和维吾尔语医学领域机器翻译质量,解决人工提取和翻译大量医学术语耗时费力的问题,提出基于词向量表示的双语术语抽取方法,并与传统统计短语对齐抽取进行对比.首先,自建45216句汉语医疗语料,人工翻译获得23996句维语语料,人工采集汉语医学词汇65394条,翻译获得31421条维语术语,对汉语语料分词,对维语语料形态切分,获得实验数据;其次,使用词向量方法,设计了基于词向量表示的双语术语抽取实验,准确率为25.12%;并将传统统计短语对齐抽取技术应用于汉维医疗平行语料,准确率为27.28%;实验结果表明,新方法更需要大量平行语料支持,但是两种方法都有助于提高汉维医学领域机器翻译质量,使提取和翻译大量医学术语自动化.  相似文献   

19.
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Movers Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。  相似文献   

20.
由于word2vec、Glove等静态词向量表示方法存在无法完整表示文本语义等问题,且当前主流神经网络模型在做文本分类问题时,其预测效果往往依赖于具体问题,场景适应性差,泛化能力弱.针对上述问题,提出一种多基模型框架(Stacking-Bert)的中文短文本分类方法.模型采用BERT预训练语言模型进行文本字向量表示,输...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号