首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
语义相似性度量能够提高信息检索的准确性和效率,已成为文本处理中的一个核心任务.为解决一词多义等词汇歧义问题,提出一种基于低维向量组合的语义向量模型.该模型引入了知识库与语料库的多语义特征的融合,主要的语义融合对象包括连续的分布式词向量和从WordNet结构中的语义特征信息.首先利用深度学习技术中的神经网络语言模型,预先从文本语料中学习得到连续的低维词向量;然后从知识库WordNet中抽取多种语义信息和关系信息;再将多语义信息融入词向量进行知识扩展和强化,生成语义向量,从而实现基于向量空间的语义相似性度量方法.在基准测试集上的实验结果表明,该方法优于基于单一信息源(知识库WordNet或文本语料)的语义相似性度量方法,其皮尔森相关系数比基于原始词嵌套向量的方法提高了7.5%,说明在向量特征层面上的多语义信息的融合有助于度量词汇间的语义相似性.  相似文献   

2.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

3.
针对词计算中词语义的不确定性问题,为提升词的计算能力,借助广义二型模糊集和Petri网细化词的语义特性,提出了基于广义二型模糊Petri网的词计算模型;将该模型扩展到模糊逻辑推理规则,形成了词流计算模型,并应用到医疗救护系统实例以检验模型的有效性与合理性. 结果表明模型具有良好的表达能力与泛化能力.  相似文献   

4.
针对向量空间模型特征项正交的假设和缺乏语义的缺点,本文在广义向量空间模型的基础上,提出了一种基于《知网》义原的向量空间模型,利用义原的相似度实现文本相似度的计算。通过文本特征项的TF-IDF权重将文本表示为《知网》义原空间中的向量,并利用义原向量之间的夹角实现对文本相似度的计算。通过文本聚类实验对比了本文提出的方法与VSM和GVSM模型,实验结果表明本文提出的方法在语义相似度计算方面相比GVSM和VSM有所提高。  相似文献   

5.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

6.
【目的】提出基于词嵌入的云存储可搜索加密方案,视图解决云储存的加密数据的管理,并高效地检索加密数据这一难题。该方案的优势在于克服了加密方案不能进行语义搜索的难题。【方法】通过建立高维关键词的词嵌入,增加语义距离扩展关键词集的方式建立安全索引,并用伪随机函数对私钥和关键词进行安全保护。【结果】此设计方案既保证了数据存储的安全性,又提供了数据检索的灵活性,安全检索模型避免了用户检索过程中关键信息的泄露。【结论】采用全同态加密验证了方案的有效性。在维基百科数据集上进行测试表明维度越高的词嵌入搜索精确率越高,同时开销也随之增大。
  相似文献   

7.
【目的】提出基于词嵌入的云存储可搜索加密方案,视图解决云储存的加密数据的管理,并高效地检索加密数据这一难题。该方案的优势在于克服了加密方案不能进行语义搜索的难题。【方法】通过建立高维关键词的词嵌入,增加语义距离扩展关键词集的方式建立安全索引,并用伪随机函数对私钥和关键词进行安全保护。【结果】此设计方案既保证了数据存储的安全性,又提供了数据检索的灵活性,安全检索模型避免了用户检索过程中关键信息的泄露。【结论】采用全同态加密验证了方案的有效性。在维基百科数据集上进行测试表明维度越高的词嵌入搜索精确率越高,同时开销也随之增大。  相似文献   

8.
为提高垂直搜索引擎中面向服务行业的页面搜索查准率,提出了一种语义模型的设计与实现方法.该模型以面向服务行业的垂直搜索引擎为研究对象,根据服务行业领域知识将查询词分成三种语义(品牌词、类别词、服务项目),针对三种语义设计差异化搜索方案;并改进了页面搜索排序方法.该语义模型首先通过识别查询词的类型,得到相应的过滤条件;然后由过滤条件限制搜索范围,去掉不相关的搜索结果;最终通过改进页面搜索排序算法,提高搜索准确率.实验结果表明,应用该语义模型得到搜索过滤条件,使用过滤条件限制搜索范围,搜索的正确率提高了2个百分点~7个百分点,有效提高搜索引擎的查准率,提升用户体验和工作效率,对其他领域或行业也有一定的借鉴意义.  相似文献   

9.
针对现有的融合文本和路径信息的模型未能充分挖掘和利用文本与路径语义的问题,提出了新的知识图谱嵌入学习模型(GETR模型):首先, 利用LDA丰富实体描述文本语义并用TWE获取词和主题向量,采用Bi-LSTM模型把词和主题向量编码融入实体向量表示中,以增强结点的语义表达能力;其次,设计了以组合PageRank和余弦相似度算法为策略的随机游走算法,以获取实体间的多步路径,并利用自注意力机制捕获路径的重要语义融入到翻译模型中进行联合训练,从而达到有效过滤路径中的噪声和提高模型效率的目的.最后,在数据集FB15K、FB20K和WN18上,对GETR、TransE、DKRL、TKGE模型进行知识补全和实体分类任务的评测,结果表明:GETR模型具有更好的性能表现,是一种更加高效的知识表示方法.  相似文献   

10.
信息检索涉及到许多技术,涉及多个学科领域,应用更是非常广泛,其中语义相关度的研究一直是研究的热点问题.本文主要针对基于词关联度、基于Wikipedia、基于概念格、基于视觉内容、基于知网、基于中文语义词典、基于领域本体中的概念、基于主题图、基于本体的语义相似度计算方法等,进行比较探讨,特别是对一种新颖的方法使用时语义分析计算单词间相关度的方法进行了详细的阐述说明,并提出了自己的一些想法和下一步的研究方向.  相似文献   

11.
针对现有的中文文本情感分析方法不能从句法结构、上下文信息和局部语义特征等方面综合考量文本语义信息的问题,提出一种基于特征融合的中文文本情感分析方法.首先,采用Jieba分词工具对评论文本进行分词和词性标注,并采用词向量训练工具GloVe获取融入词性的预训练词向量;然后,将词向量分别作为引入Self-Attention的BiGRU和TextCNN的输入,使用引入Self-Attention的BiGRU从文本的句法结构和文本的上下文信息两个方面综合提取全局特征,使用TextCNN提取文本的局部语义特征;最后,将全局特征和局部语义特征进行融合,并使用Softmax进行文本情感分类.实验结果表明,本文方法可以有效提高文本情感分析的准确率.  相似文献   

12.
钟娜  周宁  靳高雅 《科学技术与工程》2022,22(29):12936-12944
为解决现有情感分类算法在特征提取中缺乏对语义关联规则的运用,以及在分词后产生大量与情感预测无关的词,导致挖掘出的特征不具代表性的问题。提出一种融合粗糙数据推理的卷积记忆网络情感分析模型。通过上下文信息使用粗糙数据推理获得文本的情感词集Word2Vec词向量表示,并融合FastText词向量来改进特征向量嵌入层。其次使用卷积神经网络(CNN)拼接双向长短期记忆网络(BiLSTM)提取更深层次的情感特征。最后加入Attention机制计算权重,筛选显著重要特征。通过多组对比实验表明该模型具有较高的准确率和F1值,有效提升了情感分类的预测能力。  相似文献   

13.
陈可嘉  刘惠 《科学技术与工程》2021,21(29):12631-12637
针对文本分类中文本数据表示存在稀疏性、维度灾难、语义丢失的问题,提出一种基于单词表示的全局向量(global vectors for word representation, GloVe)模型和隐含狄利克雷分布(latent Dirichlet allocation, LDA)主题模型的文本表示改进方法。利用GloVe模型结合局部信息和全局词语共现的统计信息训练得到文本的稠密词向量,基于LDA主题模型生成文本隐含主题和相应的概率分布,构建文本向量以及基于概率信息的主题向量,并计算两者之间的相似性作为分类器的输入。实验结果表明,相比其他几种文本表示方法,改进方法在精确率、召回率和F_1值上均有所提高,基于GloVe和LDA的文本表示改进方法能有效提升文本分类器的性能。  相似文献   

14.
为了解决分布式词表示方法因忽略词语情感信息导致情感分类准确率较低的问题,提出了一种融入情感信息加权词向量的情感分析改进方法。依据专属领域情感词典构建方法,结合词典和语义规则,将情感信息融入到TF-IDF算法中,利用Word2vec模型得到加权词向量表示方法,并运用此方法对采集到的河北省旅游景点的评论文本与对照组进行对比实验。结果表明,与基于分布式词向量表示的情感分析方法相比,采用融入情感信息加权词向量的改进方法进行情感分析,积极文本的准确率提高了6.1%,召回率提高了6.6%,F值达到了90.3%;消极评论文本的准确率提高了6.0%,召回率提高了7.2%,F值达到了89.6%。因此,融入情感信息加权词向量的情感分析改进方法可以有效提高评论文本情感分析的准确率,为用户获得更为准确的评论观点提供参考。  相似文献   

15.
提出一种结合LDA及语义相似度的商品评论情感分类方法。该方法首先使用LDA对商品语料库建模,获取文档-主题矩阵;人工选择k对褒义词、贬义词,基于HowNet语义相似度计算主题(评价对象+观点内容)与各个褒义词和贬义词的相似度,达到对观点词极性判断,计算文本观点词情感极性的加权和作为文本的情感极性。实验表明,与基于向量空间的SVM分类方法相比,该情感分类方法在分类指标上表现更好。  相似文献   

16.
传统的词向量嵌入模型,如Word2Vec、GloVe等模型无法实现一词多义表达;传统的文本分类模型也未能很好地利用标签词的语义信息。基于此,提出一种基于XLNet+BiGRU+Att(Label)的文本分类模型。首先用XLNet生成文本序列与标签序列的动态词向量表达;然后将文本向量输入到双向门控循环单元(BiGRU)中提取文本特征信息;最后将标签词与注意力机制结合,选出文本的倾向标签词,计算倾向标签词与文本向量的注意力得分,根据注意力得分更新文本向量。通过对比实验,本文模型比传统模型在文本分类任务中的准确率更高。使用XLNet作为词嵌入模型,在注意力计算时结合标签词能够提升模型的分类性能。  相似文献   

17.
针对传统情感分析模型将单词或词语作为单一嵌入,而忽略句子之间依存信息和位置信息的问题,提出基于双向门控机制和层次注意力的方面级情感分析模型(Based on Bi-GRU and Hierarchical Attention,BGHA)。首先,将文本数据转成词向量再加入位置编码信息,得到包含位置和语义信息的词向量后通过双向门控机制提取上下文特征;接着,分别在单词注意力层和句子注意力层用注意力机制对特征分配权重,突出重点词和重点句信息;最后,结合给定的方面信息选择性提取与其较匹配的情感特征。在SemEval 2014、SemEval 2016和Twitter短文本评论数据集上的实验结果表示,BGHA模型的准确率对比其他模型都有不同程度的提高,证明了模型的有效性。  相似文献   

18.
词向量具有良好的语义特性,可用于改善和简化许多自然语言信息处理应用。本研究利用CBOW和Skip-gram两种模型架构在不同数据和不同维度下训练蒙古语词向量,然后结合蒙古语特征设计一个语义语法综合测试集,并在此测试集上用语义和语法相似度来评测词向量质量。研究结果表明,蒙古语语义和语法相似性任务上,Skip-gram模型优于CBOW模型,Skip-gram模型的窗口大小为5的情况下,词向量质量最好,且随着词向量维度或训练数据的增大,词向量质量有明显的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号