首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
维吾尔语是典型的资源稀缺型语言,由于词义消歧标注语料资源和语义分析工具的不足,导致传统的有监督方法难以实现.针对该问题,将篇章文本的词义消歧问题类比为文本主题分类问题,在LDA(latent Dirichlet allocation)主题模型的基础上提出了一种维吾尔语无监督词义消歧模型.为强化主题模型对歧义词语义项的分类性能,加入了3个数据预处理过程:去除停用词,过滤有效词和强化同义词词频权重.实验结果表明,在随机抽取的63组测试样本集中,该模型的词义消歧准确率达到65.08%,在篇章文本采样词任务中词义消歧准确率达到61.2%.  相似文献   

2.
针对纳西语、汉语因句法结构差异较大而导致双语词语自动对齐较为困难的问题,提出一种融合特征约束模型的纳西-汉语双语词语对齐算法.首先在语料中统计纳西-汉语词语区间扭曲和位置转换特性,并由此建立2个双语词语对齐的特征约束模型;然后将提出的特征约束模型融入词语对齐的对数线性模型框架,并结合最小错误率算法训练模型参数;最终搜索出最佳的词语对齐结果.实验以IBM Model3为词语对齐比较模型,结果表明,该双语词语对齐算法可以使纳西-汉语词语的对齐准确率提升21.9%.  相似文献   

3.
在跨语言文本分析任务中,多词短语比单个词汇歧义小,语义表达更加准确,有助于提高文本理解的准确性。现有方法主要关注单个词的跨语言对齐。将多词短语抽取和跨语言对齐相融合,提出了一种基于多策略过滤的汉日多词短语抽取和对齐的方法。首先从一个语种出发,通过重复串、左右邻接熵、内部关联度、多词嵌套、停用词等方法提取并过滤得到具备完整语义的多词短语,然后利用平行语料库计算汉日多词短语的相似度,实现跨语言对齐。在整个过程中可结合日语语言规则与特点,根据语料规模、相关领域对过滤阈值进行动态调整,提高了多词短语的领域适用性。实验结果表明,该方法可有效抽取汉日多词短语并进行准确对齐,以多词短语为对齐单元,语义表达更完整,实用价值更大。  相似文献   

4.
将相关主题模型和神经网络相结合开展文本情感分析研究。首先,为了度量文本的主题相关程度,采用CTM模型对文本进行特征分割,得到主题与词之间的相关矩阵和文本句子的主题特征向量;其次,基于相关性理论,构造蕴含主题相关信息的词向量,采用word2vec模型进行文本词表示;最后,使用BiLSTM模型对文本句子进行表示,实现文本情感特征提取。  相似文献   

5.
针对当前生成式文本摘要模型在解码时对摘要整体语义信息利用不充分的问题, 提出一种基于语义对齐的神经网络文本摘要方法。该方法以带注意力、Pointer机制和Coverage机制的Sequence-to-Sequence模型为基础, 在编码器与解码器之间加入语义对齐网络, 实现文本到摘要的语义信息对齐; 将获得的摘要整体语义信息与解码器的词汇预测上下文向量进行拼接, 使解码器在预测当前词汇时不仅利用已预测词汇序列的部分语义, 而且考虑拟预测摘要的整体语义。在中文新闻语料LCSTS上的实验表明, 该模型能够有效地提高文本摘要的质量, 在字粒度上的实验显示, 加入语义对齐机制可以使Rouge_L值提高5.4个百分点。  相似文献   

6.
维吾尔语是一种黏着语,基于单词的语言模型不太适合于维吾尔语大词汇连续语音识别任务。该文提出了适合维吾尔语的基于音节的语言模型,引入最大匹配分词算法评价音节语言模型在大词汇连续语音识别任务中的单词识别性能。实验结果表明:基于音节的语言模型在未登录词和模型复杂度等方面表现出比基于单词的语言模型更加优越的性能,并且使识别系统的单元错误率比基于单词的系统减少了50%。因此,在维吾尔语语音识别任务上可以将音节作为识别单元。  相似文献   

7.
针对汉-越双语因语言特点差异较大而导致难以实现词语自动对齐的问题,提出了一种基于深层神经网络(deep neural network,DNN)的汉-越双语词语对齐方法。该方法先将汉-越双语词语转化成词向量,作为DNN模型的输入,再通过调整和扩展HMM模型,并融入上下文信息,构建DNN-HMM词语对齐模型。实验以HMM模型和IBM4模型为基础模型,通过大规模的汉-越双语词语对齐任务表明,该方法的准确率、召回率较两个基础模型都有明显的提高,而词语对齐错误率大大降低。  相似文献   

8.
针对维吾尔语Web文档的有效检索问题,提出一种基于相关反馈和文档相似度的检索词加权方法.首先,对维吾尔语文档进行预处理,获得相应的词干集.然后,当用户输入多个检索词时,执行初始检索,并基于局部相关反馈思想提取出排名靠前的N个文档.接着,利用TF-IDF算法计算检索词与反馈文档之间的词频相似度,通过余弦距离计算文档之间的相似度,并以此对检索词进行两次加权.最后,根据加权后的检索词进行文档检索.实验结果表明:该方法能够准确地检索出用户所需的文档,并将其靠前排序.  相似文献   

9.
入侵检测系统匹配算法是影响检测效率的关键,为进一步提高系统性能和检测效率,对Snort系统采用的BM算法进行了改进,提出了IBM算法.该算法以两个字符为单位计算右移量,增大了文本串的滑动距离,有效地减少了匹配次数;将IBM算法应用于Snort,并在Windows平台下实现了基于改进算法的Snort系统.实验结果表明,该系统能够有效地检测各种攻击,与原系统相比检测效率有了明显的提高.  相似文献   

10.
针对当前主要的CTM模型只能分析公共话题的缺陷,提出一种PCCMix混合模型来实现跨文本集的话题分析.该模型把多个文本集中的话题划分为公共话题和文本集特有话题,首先根据文本数据建立这两类话题在所有词上的概率分布,再使用期望最大化算法进行模型的参数估计.实验结果表明,该模型不仅能够发现公共话题在不同文本集中的差异,而且能分析各文本集特有的话题.模型能更精确地对文本建模,具有良好的性能.  相似文献   

11.
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程.阐述了一个文本分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提取、词义扩展、学习和识别过程、分类算法等进行了详细介绍。引入smooth技术改进词语权重,介绍向量空间模型.结果表明查全率和准确率均达到80%左右,而且smooth的引入有效地改善了分类性能.  相似文献   

12.
为提高文本分类的准确性和效率,构建了一种基于Attention的CNN-BiLSTM/BiGRU(简称CBLGA)混联文本分类模型.首先通过并联不同卷积窗口大小的CNN(Convolutional Neural Networks)网络同时提取多种局部特征,之后将数据输入至BiLSTM和BiGRU并联组合模型中,利用BiLSTM和BiGRU组合提取了与文本中的上下文有密切关系的全局特征,最后对两个模型所得到的特征值进行了融合并在其中引入了注意力机制.构建基于Attention的CNN-BiLSTM/CNN(简称CBLCA)混联文本分类模型,特点是将CNN的输出分为两部分,其中一部分输入BiLSTM网络中,另一部分则直接和BiLSTM网络的输出进行融合,既保留了CNN提取的文字序列局部特征,又利用了BiLSTM网络提取出的全局特征.实验表明CBLGA模型和CBLCA模型在准确率和效率方面均实现了有效提升.最后,建立了一套针对不同长度的文本进行相应预处理和后续分类工作的分类的流程,使模型无论面对长文本还是短文本数据,均实现了同时提高文本分类的准确率和效率的目标.  相似文献   

13.
通过主题模型与语义网络对旅游电商中的评论文本进行挖掘,从而引导消费者与商家对评论信息作出重要决策;提出一种基于LDA(Latent Dirichlet Allocation,LDA)主题聚类与语义网络模型(LDA topic clustering and semantic network model,LTC-SNM)的方法对酒店在线评论文本进行研究;获取在线评论文本进行数据预处理,使用Word2vec生成词向量,利用机器学习算法对评论文本进行情感分类;通过LDA主题模型对分类后的文本进行聚类,生成酒店的特征主题词;通过ROSTCM将特征主题词与所修饰的情感词生成语义网络,缓解了挖掘文本信息的复杂性;实验结果表明:提出的LTC-SNM文本挖掘方法使得在线用户评价的主题更具表达性。  相似文献   

14.
数据聚类是常用的无监督学习方法,通过词嵌入聚类能够挖掘文本主题,但现有研究大多数采用常规聚类算法挖掘词嵌入的簇类,缺少基于词嵌入特性设计实现词嵌入聚类的主题挖掘算法.该文从语言模型通过建模词间相关信息来使相关及语义相似词的嵌入表示聚集在一起的特点出发,设计词嵌入聚类算法.该算法首先计算中心词的簇类号,然后使该簇中心嵌入和相邻词嵌入的相似性增强,同时使其与负样本词嵌入远离,学习文本集词嵌入的簇类结构,并将其应用于文本主题挖掘.在3种公开数据集上的实验表明:该算法在一些模型的词嵌入结果上能够挖掘出一致性和多样性更好的主题结果.  相似文献   

15.
拉丁化的维吾尔语在使用过程中具有文本不规范的特点,这种不规范是造成歧义等现象的最主要原因,严重制约着与维吾尔语相关的自然语言处理应用.由此提出了一种无监督的基于子词信息的文本规范化方法,该方法在词向量构建过程中将词的内部信息考虑进去.这种方法可以对罕见词进行向量表示,也可以将词内部的形态信息融入词的表示,丰富词向量的表达,进而用于改进无监督学习中规范化词候选集生成质量的不足.实验表明,相比于传统词向量构建方法,该方法在文本规范化任务中可以提高规范化词的召回率.  相似文献   

16.
针对论坛缺乏热点话题提取方法的现状,提出一种将LDA(潜在狄利克雷分配)模型引入高校论坛场景主题的提取方式.在主题建模过程中,以回帖数量作为帖子热门程度的判定参数,根据帖子热门程度在语料中设置不同权重,随后使用Gibbs采样法提取主题.在此基础上设计并实现了包含数据抓取、文本预处理、主题提取三个模块的完整系统.将LDA模型引入系统并进行提取效果分析,实验结果表明LDA模型可以准确地提取出论坛文本中讨论的实时热点话题.  相似文献   

17.
提出了一种基于柬汉双语词对齐语料构建柬埔寨语依存树库的方法。首先构建柬汉词对齐语料库,在该过程中不仅使用GIZA++模型进行词对齐,还利用词典模糊匹配和词向量相似性比较的方法进行双语词对齐语料库的构建;其次根据哈工大LTP平台构建中文依存树库;最后结合柬汉词对齐语料库和中文依存树库通过映射的方式构建柬语依存树库,再经过人工调整得到最终的柬语依存树库。实验表明,该方法简化了人工标注柬埔寨语句子依存关系的过程,减少了昂贵的人工标注工作,有效地提高了依存树库的构建效率。  相似文献   

18.
藏文拉丁转写是指不必理解藏语词、句语义的情况下,按照读音将藏文字符号影射为拉丁字母符号。用于表述藏文信息的方法.文章针对藏文文字和书写特点,借鉴国际藏学领域藏学专家通用的拉丁转写方法,以信息处理为研发目的,在Linux系统输入法机制下,定制藏文输入字符的选取原则、外码设计原则;基于rfinput输入法服务器确定藏文拉丁转写输入法实现模型、处理模块的分析设计及藏文特性处理等几个部分.[摘要]藏文拉丁转写是指不必理解藏语词、句语义的情况下,按照读音将藏文字符号影射为拉丁字母符号。用于表述藏文信息的方法.文章针对藏文文字和书写特点,借鉴国际藏学领域藏学专家通用的拉丁转写方法,以信息处理为研发目的,在Linux系统输入法机制下,定制藏文输入字符的选取原则、外码设计原则;基于rfinput输入法服务器确定藏文拉丁转写输入法实现模型、处理模块的分析设计及藏文特性处理等几个部分.  相似文献   

19.
采用ERP技术,通过2个实验来探究文本阅读中时间信息加工的内在机制. 实验一通过控制文本阅读中事件场景持续时间,以时间词和回指词的N400波幅为指标,探讨时间信息转换后关键句阅读时间延长的原因;为了消除加工时间词本身对回指词加工的影响,实验二将重名回指词放在事件句句尾,进一步验证二阶段模型. 2个实验的结果表明:文本中时间转换信息引起关键句阅读时间延长的原因包括加工时间词与更新情境模型、通达先前信息与整合;文本阅读中时间信息加工符合二阶段模型,加工时间词和情境模型的更新为第一阶段,通达与整合先前信息为第二阶段. 研究结果为文本阅读中时间加工的二阶段模型进一步提供了神经生理方面的证据.  相似文献   

20.
传统的词向量嵌入模型,如Word2Vec、GloVe等模型无法实现一词多义表达;传统的文本分类模型也未能很好地利用标签词的语义信息。基于此,提出一种基于XLNet+BiGRU+Att(Label)的文本分类模型。首先用XLNet生成文本序列与标签序列的动态词向量表达;然后将文本向量输入到双向门控循环单元(BiGRU)中提取文本特征信息;最后将标签词与注意力机制结合,选出文本的倾向标签词,计算倾向标签词与文本向量的注意力得分,根据注意力得分更新文本向量。通过对比实验,本文模型比传统模型在文本分类任务中的准确率更高。使用XLNet作为词嵌入模型,在注意力计算时结合标签词能够提升模型的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号