首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
针对文本中关键信息被忽略以及分类准确率不高的问题,提出一种加权word2vec的卷积神经网络(CNN)与ATT-BiGRU混合神经网络情感分析模型.由于word2vec生成的词向量无法突出文本关键词的作用,因此引入词频-逆文档频率(TF-IDF)算法计算词汇权重值.然后,将加权运算后的词向量输入CNN与ATT-BiGRU混合模型提取隐含特征.该模型通过卷积神经网络(CNN)和基于注意力机制的双向门限循环单元(ATT-BiGRU)分别提取文本特征,以此来提高文本的表示能力.多组实验对比结果表明,与其他算法相比较,该模型的分类准确率最高且耗费时间代价小.  相似文献   

2.
为解决情感分类中词间的语义关系难以表达和分析的问题,提出了一种基于词向量(word representation)和支持向量机(support vector machine)的情感分类算法,对电子商务在线评论的情感分类问题进行研究.首先使用word2vec聚类相似特征,然后使用word2vec和SVM对情感数据进行训练和分类,并分别使用基于词特征和基于词性标注的方法进行特征选择.在京东评论数据上进行的实验结果表明,与现有方法相比,分类准确率和召回率得到了提高.  相似文献   

3.
为了克服传统基于机器学习的情感分析算法依赖手工建立情感词典、需要进行人工干预的缺点,该文提出1种加权word2vec注意力长短记忆网络(WWAL)情感分析模型。突出评论文本中关键词的作用,在word2vec的基础上引入了术语频率-逆文档频率(TFIDF)算法形成词向量,同时在长期短期记忆(LSTM)网络模型中加入了注意力机制。在标准数据集上的实验证明,该文WWAL模型的查准率、召回率和F_1指标等实验衡量指标均优于传统机器学习方法。  相似文献   

4.
针对经典TF-IDF算法在在文档特征词提取中因忽略了词之间连接关系而导致提取准确率较低的问题,提出一种基于word2vec加权的TextRank词图构建方法。首先通过爬虫获取网络产品评论语料,并进行分词、词性标注以及名词提取等预处理;其次利用word2vec形成词元与词元之间的相似度矩阵;最后将word2vec中获取到的词元之间的相似度作为词语影响力权值,对经典TextRank产品特征提取方法进行改进。实验数据表明,与传统的TextRank产品特征提取方法相比,改进后的方法查准率提高了5%,查全率提高了2.9%,在实际工程中能够有效的提高产品特征提取的准确率。  相似文献   

5.
借鉴主题模型的思想,利用word2vec训练数据的高效性以及词聚类结果的有效性,提出了一种基于word2vec的文本建模方法。该方法以word2vec算法得到的词聚类结果为基础,统计文本在词聚类类别上的概率分布,获得文本在类别空间上的特征向量,完成文本建模。将其与两种经典的文本建模方法 VSM和LDA进行比较,实验结果显示在聚类效果上F值分别提高6.01%、1.01%,在算法效率上有明显的提高。  相似文献   

6.
针对自然语言文本集的预处理和分类问题,将词频统计方法(TF-IDF)引入到关键词提取(TextRank)算法中,并结合word2vec词向量化方法获得基于关键词的改进型文本向量化算法;进而,在k近邻算法中引入k值校正规则,并与该改进型算法结合获得文本集的改进型分类算法。利用格式和类别多样、数据量较大的文本集数据进行实验,结果表明,通过该方法可有效实现文档深层语义特征与浅层词频统计特征的融合,提取的文本关键词能较好表征文档的内容和类别,证明了获得的分类效果具有明显的优势。  相似文献   

7.
对微博文本的多元情感分类问题进行了研究.针对现有的多元情感词典不能很好地覆盖微博文本中情感词的不足,结合特定的情感符号和基于卡方统计量的度量方法,实现对现有的多元情感词典的扩充;针对情感词典无法有效考察文本的上下文语境信息的问题,引入word2vec模型实现情感词和其所在微博语句的向量化表达.在此基础上,利用KNN分类器实现微博句子级的多元情感分类.实验结果表明,扩充情感词典及引入word2vec模型均有助于提升微博文本多元情感分类的效果.  相似文献   

8.
基于主题注意力层次记忆网络的文档情感建模   总被引:2,自引:0,他引:2  
针对文档水平情感分析传统模型存在先验知识依赖以及语义理解不足问题,提出一种基于注意力机制与层次网络特征表示的情感分析模型TWE-ANN.采用基于CBOW方式的word2vec模型针对语料训练词向量,减小词向量间的稀疏度,使用基于Gibbs采样的LDA算法计算出文档主题分布矩阵,继而通过层次LSTM神经网络获取更为完整的文本上下文信息从而提取出深度情感特征,将文档主题分布矩阵作为模型注意力机制提取文档特征,从而实现情感分类.实验结果表明:提出的TWE-ANN模型较TSA、HAN模型分类效果较好,在Yelp2015、IMDB、Amazon数据集上的F值分别提升了1.1%、0.3%、1.8%,在Yelp2015和Amazon数据集上的RMSE值分别提升了1.3%、2.1%.  相似文献   

9.
现有的藏文文本聚类算法均采用向量空间模型来进行文本建模.该模型存在向量维度过高和无法表示语义信息的问题.该文根据藏文的语法特性并借鉴主题模型的思想,提出了一种基于词向量的藏文文本建模方法.该方法首先采用最大熵模型进行藏文文本词性标注,选择名词和动词作为文本的特征,然后利用word2vec工具训练得到词语类别并计算其在各文本的概率分布,最终以词类别概率矩阵表示文本,从而实现文本建模.与基于VSM和基于LDA的文本建模方法相比,该方法文本聚类结果的F值分别提高了10.5%和2.4%,聚类效果提升明显.  相似文献   

10.
针对影评数据的情感分析,提出基于Word2vec和多分类器的情感分类方法.首先在对评论数据进行预处理的基础上,训练Word2vec模型,将词表示为词向量;其次结合随机森林和朴素贝叶斯多项式模型完成影评数据的情感分类;最后在Kaggle竞赛公开的影评数据集上进行实验.结果表明,Word2vec可有效捕捉词的语义,显著提高情感分类算法的性能.  相似文献   

11.
针对高校图书馆中文图书的分类推荐个性化服务问题,结合本科专业课程体系,提出一种基于word2vec的中文文本分类的WV-TF-IDF模型.首先建立文本分类语料库FJCCT,接着利用基于神经网络的word2vec模型和TF-IDF进行文本特征计算,然后使用KNN和GBDT文本分类算法对比WV-TF-IDF和TF-IDF模型的效果.实验结果表明基于WV-TF-IDF模型GBDT文本分类算法的正确率更高.  相似文献   

12.
基于word2vec和BERT词向量技术的方法在文本分类分词过程中存在着错误传播问题,提出了融合ERNIE词向量技术的卷积神经网络模型.针对中文文本,运用ERNIE实体掩码的方式捕获词汇和语义信息,使用卷积神经网络进行特征提取.在THUCNews开源数据集上,准确率达到93.95%,比Word2Vec-CNN高出3.4%,BERT-CNN高出3.07%.实验结果证明了本文模型在缓解错误传播问题的有效性.  相似文献   

13.
针对传统文本分类方法忽略词语间的语义特征的问题,并为了改善输入文本的表示质量,提出一种基于短语结构和词语词性相结合的情感分类方法.该方法首先通过短语结构优化分词,可以更好地提取文本特征;其次利用Word2vec工具训练词语和词性相结合的文本语料库得到词向量模型,解决了Word2vec无法识别一词多义的问题;最后通过SVM算法对文本进行情感分类.实验结果表明,该算法能够提高文本情感分类的正确性.该方法对舆情监控、股票市场行情预测和了解消费者对产品的偏好等具有较高的实用性.  相似文献   

14.
JavaScript是一种动态脚本语言,被用于提高网页的交互能力.然而攻击者利用它的动态性在网页中执行恶意代码,构成了巨大威胁.传统的基于静态特征的检测方式难以检测经过混淆后的恶意代码,而基于动态分析检测的方式存在效率低等问题.本文提出了一种基于语义分析的静态检测模型,通过提取抽象语法树的词法单元序列特征,使用word2vec训练词向量模型,将生成的序列向量特征输入到LSTM网络中检测恶意JavaScript脚本.实验结果表明,该模型能够高效检测混淆的恶意JavaScript代码,模型的精确率达99.94%,召回率为98.33%.  相似文献   

15.
在农业科研办公过程中,科研人员进行信息检索的频率高,信息需求精度高,但传统的综合性搜索引擎检索农业实用技术、政策法规、专题数据等方向性比较强的农业信息,通常返回结果数据量庞大、主旨范围宽泛,导致内容不精准、搜索面太广,筛选结果专业性不足;且现阶段主流的农业领域的垂直搜索引擎的搜索策略主要建立在传统的文本检索上,在自身领域数据量有限的情况下,搜索结果查全率不高,且搜索结果没有排序依据(大多仅仅按信息发生时间为排序依据).本文对农业互联网信息搜索引擎进行了研究,通过对各级农业管理部门网站、农业科研院所网站、农业新闻网站、农业商业网站等数据源的模块进行定位,通过爬虫进行数据更新检测与定时抓取,从数据源上有效减少不相关信息;基于数百个互联网数据源农业相关模块的信息抽取,采用word2vec和本文提出的基于文本特征表达的doc2vec,分别创建农业词向量、文档向量空间,用来应对搜索关键词为无序词组和有序语句的搜索场景,确保垂直搜索的智能和返回结果的准确.经过实验验证,本文提出的doc2vec+tf-idf搜索算法能够在有序搜索中达到较高的准确率,结合word2vec进行的无序搜索,有针对地进行语义搜索,可以进一步提高搜索引擎的查准率,满足日益增长的对农业领域信息搜索的高效高质的需求.  相似文献   

16.
为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法 .该方法通过引入信息熵及修正因子,缓解了数据不平衡对分类准确率及召回率造成的不良影响.实验结果表明:所提出的分类方法在准确率及召回率上与word2vec均值模型相比,分别提高7.3%及10.5%.  相似文献   

17.
由于短文本特征较少,传统的机器学习方法直接应用到短文本分类上,准确率往往不高.新闻标题相较于一般的短文本来说特征更少,在分类过程中难以提高准确率.首先采用3种方式对新闻标题的特征进行扩展,包括采用word2vec的方法寻找新闻标题中每个词在语义空间最相近的词,将最相近的词作为标题扩展词;采用fp-growth方法挖掘外部语料库的频繁项对新闻标题进行扩展;字向量和词向量两种标题表达方式扩展语义信息.其次提出了深度神经决策森林的分类算法.实验结果表明使用字词向量的双路卷积神经网络相对于单一词向量的卷积神经网络特征提取能力更强;使用深度神经决策森林算法在扩展后新闻标题验证集上的分类准确率达82.2%,比仅采用双路卷积神经网络分类的准确率提高约百分之二.  相似文献   

18.
商品的在线评论情感分析已经成为一个热门的研究话题。为了更好地解决情感分析中词语的上下文信息和词语的情感信息缺失问题,提出了一种基于句子情感得分加权句向量的Sword2vect情感分析方法,对中文在线评价进行情感分析。首先用基于词典的方法计算出评论句子的情感得分并对其进行预处理保证所有正向评论句子的情感得分为正,负向评论情感得分为负,用word2vect算法得到含有上下文信息评论的句子向量,然后用情感得分对句子向量进行加权得到情感句向量Sword2vect,用支持向量机算法对训练数据集进行训练得到模型,最后调用训练好的模型对测试数据集进行情感分析。采用基于情感得分加权的Sword2vect算法和word2vect词向量算法以及tf_idf特征词向量算法分别对京东手机在线评价以及谭松波酒店评价这2个数据集进行情感分析,从精确度、时间等方面进行比较。实验结果表明:基于情感得分加权的Sword2vect算法精确度较word2vect词向量算法精确度提升了10%~20%,相比于tf_idf特征词向量精度提升了20%~30%,Sword2vect算法的时间效率较其他2个算法也得到了较大的提升。  相似文献   

19.
Word2vec的工作原理及应用探究   总被引:1,自引:0,他引:1  
研究了Word2vec的工作原理及应用,明确了统计语言模型的关键问题,分析了词向量的特点,并对神经网络语言模型、Log_Linear模型和Log_Bilinear模型的基本原理进行了探讨,对Word2vec词向量训练框架的工作原理进行了详细分析,推导出了训练模型的目标函数,介绍了Word2vec工程的主要文件和训练参数,并将Word2vec应用于中文词向量的训练。  相似文献   

20.
提出了一种基于TF-IDF的均值Word2vec模型和有监督的机器学习方法的燃气客服热线的中文文本情感分析方法。首先,采用Word2vec模型训练出文本中每个词语的词向量及TF-IDF算法计算文本中每个词语的权重,并对词语的词向量进行加权处理。其次,将加权后的词向量对应维度的值进行累加并求均值作为该文本的向量,即文本的特征。最后,对文本的特征使用有监督的机器学习方法进行训练和预测,以实现文本的情感分析。实验结果表明,该方法获得了较高的分类准确率并能有效地进行情感分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号