首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
针对传统文本分类方法忽略词语间的语义特征的问题,并为了改善输入文本的表示质量,提出一种基于短语结构和词语词性相结合的情感分类方法.该方法首先通过短语结构优化分词,可以更好地提取文本特征;其次利用Word2vec工具训练词语和词性相结合的文本语料库得到词向量模型,解决了Word2vec无法识别一词多义的问题;最后通过SVM算法对文本进行情感分类.实验结果表明,该算法能够提高文本情感分类的正确性.该方法对舆情监控、股票市场行情预测和了解消费者对产品的偏好等具有较高的实用性.  相似文献   

2.
为了解决分布式词表示方法因忽略词语情感信息导致情感分类准确率较低的问题,提出了一种融入情感信息加权词向量的情感分析改进方法。依据专属领域情感词典构建方法,结合词典和语义规则,将情感信息融入到TF-IDF算法中,利用Word2vec模型得到加权词向量表示方法,并运用此方法对采集到的河北省旅游景点的评论文本与对照组进行对比实验。结果表明,与基于分布式词向量表示的情感分析方法相比,采用融入情感信息加权词向量的改进方法进行情感分析,积极文本的准确率提高了6.1%,召回率提高了6.6%,F值达到了90.3%;消极评论文本的准确率提高了6.0%,召回率提高了7.2%,F值达到了89.6%。因此,融入情感信息加权词向量的情感分析改进方法可以有效提高评论文本情感分析的准确率,为用户获得更为准确的评论观点提供参考。  相似文献   

3.
Word2vec的工作原理及应用探究   总被引:1,自引:0,他引:1  
研究了Word2vec的工作原理及应用,明确了统计语言模型的关键问题,分析了词向量的特点,并对神经网络语言模型、Log_Linear模型和Log_Bilinear模型的基本原理进行了探讨,对Word2vec词向量训练框架的工作原理进行了详细分析,推导出了训练模型的目标函数,介绍了Word2vec工程的主要文件和训练参数,并将Word2vec应用于中文词向量的训练。  相似文献   

4.
针对文本中关键信息被忽略以及分类准确率不高的问题,提出一种加权word2vec的卷积神经网络(CNN)与ATT-BiGRU混合神经网络情感分析模型.由于word2vec生成的词向量无法突出文本关键词的作用,因此引入词频-逆文档频率(TF-IDF)算法计算词汇权重值.然后,将加权运算后的词向量输入CNN与ATT-BiGRU混合模型提取隐含特征.该模型通过卷积神经网络(CNN)和基于注意力机制的双向门限循环单元(ATT-BiGRU)分别提取文本特征,以此来提高文本的表示能力.多组实验对比结果表明,与其他算法相比较,该模型的分类准确率最高且耗费时间代价小.  相似文献   

5.
针对影评数据的情感分析,提出基于Word2vec和多分类器的情感分类方法.首先在对评论数据进行预处理的基础上,训练Word2vec模型,将词表示为词向量;其次结合随机森林和朴素贝叶斯多项式模型完成影评数据的情感分类;最后在Kaggle竞赛公开的影评数据集上进行实验.结果表明,Word2vec可有效捕捉词的语义,显著提高情感分类算法的性能.  相似文献   

6.
针对在线医疗评论文本具有行业专业性强、差异性大、不够规范等特点,提出一种基于特征加权词向量的在线医疗评论情感分析方法.利用Word2vec方法构建词向量模型,抽取情感词集合完善医疗服务领域情感词典,根据句法关系识别主题词与情感词的依存关系,引入期望交叉熵因子,建立特征加权词向量模型,分析在线医疗评论的情感倾向.实验结果表明扩充的医疗服务情感词典在分析性能上的准确率、召回率以及F1值均高于基础情感词典,引入期望交叉熵因子后,基于特征加权词向量的情感分析方法在SVM分类上表现出更好的效果,体现了其在在线医疗评论挖掘领域的良好效用.   相似文献   

7.
为了克服传统基于机器学习的情感分析算法依赖手工建立情感词典、需要进行人工干预的缺点,该文提出1种加权word2vec注意力长短记忆网络(WWAL)情感分析模型。突出评论文本中关键词的作用,在word2vec的基础上引入了术语频率-逆文档频率(TFIDF)算法形成词向量,同时在长期短期记忆(LSTM)网络模型中加入了注意力机制。在标准数据集上的实验证明,该文WWAL模型的查准率、召回率和F_1指标等实验衡量指标均优于传统机器学习方法。  相似文献   

8.
针对新冠疫情新闻繁杂及信息类别不明等问题,采取新冠疫情新闻语料作为数据集,分别利用TF-IDF与Word2vec提取特征值,与支持向量机、朴素贝叶斯等基于机器学习的模型结合对文本进行分类,并与TextCNN及BiLSTM 2种深度学习模型的分类实验结果进行对比分析。实验结果表明:同等条件下,基于新冠疫情主题新闻数据集,SVM+TF-IDF模型在几种分类器中效果最好,精确度达到84%,F1值达到83%。  相似文献   

9.
通过主题模型与语义网络对旅游电商中的评论文本进行挖掘,从而引导消费者与商家对评论信息作出重要决策;提出一种基于LDA(Latent Dirichlet Allocation,LDA)主题聚类与语义网络模型(LDA topic clustering and semantic network model,LTC-SNM)的方法对酒店在线评论文本进行研究;获取在线评论文本进行数据预处理,使用Word2vec生成词向量,利用机器学习算法对评论文本进行情感分类;通过LDA主题模型对分类后的文本进行聚类,生成酒店的特征主题词;通过ROSTCM将特征主题词与所修饰的情感词生成语义网络,缓解了挖掘文本信息的复杂性;实验结果表明:提出的LTC-SNM文本挖掘方法使得在线用户评价的主题更具表达性。  相似文献   

10.
为文本情感分类提出一种改进的机器学习算法。在分析当前主要文本特征选择方法后,把词频和词语情感表现程度融入到信息增益特征选择方法中,从全局和局部2个方面进行特征权重衡量,使用特征空间向量模型对文本进行统一表示,然后利用SVM算法进行训练学习。通过实验发现该算法的查准率和查全率比传统的机器学习算法有所提高,并且得到的分类器具有较好的泛化能力。  相似文献   

11.
针对基于词语统计的特征化表示无法有效提取文本的词义特征的问题,提出一种基于上下文关系的文本特征化表示方法。该方法利用Word2vector提取词义特征,获得词向量;再对词向量进行“最优适应度划分”的聚类,并根据聚类结果将词语替代表示为聚类质心;根据质心及其所代表的词语的词频,构成词向量聚类质心频率模型(semantic frequency-inverse document frequency,SF-IDF),用于特征化表示文本。在不依赖语义规则的情况下,分别以路透社文本集Reuter-21578、维基百科(extensible markup language,XML)数据为文本数据集,采用神经网络语言模型(neural network language model,NNLM)算法进行文本分类实验,并采用F1-measure标准进行样本分类的效果评估,词向量聚类质心频率模型SF-IDF(semantic frequency-inverse document frequency,SF-IDF)向量与现有技术中词频-逆向文件频率(term frequency-inverse document frequency,TF-IDF)向量的分类效果对比,与TF IDF模型进行对比实验;在Reuter 21578数据集上平均准确率由原有的57.1%提高到63.3%,在Wikipedia XML数据集上平均准确率由原有的48.7%提高到59.2%。SF-IDF模型可适用于现行的基于特征向量的信息检索算法,且较TF-IDF模型有更高的文本相似性分析效率,可提升文本分类准确率。  相似文献   

12.
提出了一种基于卷积循环神经网络的文本特征提取方法,同时对比使用统计学中的TF-IDF以及Word2vec方法的文本特征表示,将提取的特征分别放入SVM与随机森林分类器中对来源于中国知网的中文学术论文数据集进行分类。实验结果表明,使用卷积神经网络和卷积循环神经网络特征提取模型提取的特征所取得的分类效果比TF-IDF、Word2vec特征提取方法得到的分类效果更好,同时使用SVM和随机森林分类器取得的分类效果略好于原生的神经网络。  相似文献   

13.
对微博文本的向量化表达及摘要效果的评测问题进行了研究.引入Word2vec模型实现微博文本词语的向量化表达,进而对词向量聚类生成主题词类.计算微博文本到主题词类的隶属度,结合主题词类的权重,生成微博文本的加权主题分布表达.在此基础上划分类簇实现摘要句的提取.基于类簇H指数选出高频词作为标准摘要词集,考察了生成摘要与标准摘要词集中共现词的词频分布,实现对自动摘要效果的评测.实验结果表明,本文提出的方法有助于提升微博短文本集的摘要生成效果.  相似文献   

14.
现有的藏文文本聚类算法均采用向量空间模型来进行文本建模.该模型存在向量维度过高和无法表示语义信息的问题.该文根据藏文的语法特性并借鉴主题模型的思想,提出了一种基于词向量的藏文文本建模方法.该方法首先采用最大熵模型进行藏文文本词性标注,选择名词和动词作为文本的特征,然后利用word2vec工具训练得到词语类别并计算其在各文本的概率分布,最终以词类别概率矩阵表示文本,从而实现文本建模.与基于VSM和基于LDA的文本建模方法相比,该方法文本聚类结果的F值分别提高了10.5%和2.4%,聚类效果提升明显.  相似文献   

15.
为进一步提高文本情感倾向性分类效果,提出基于文本特征和语言知识融合的卷积神经网络模型MI-CNN。使用Word2Vec表示词语信息,将词性和情感词语等语言知识嵌入词向量中,将文本特征和语言知识融合到情感倾向性分类模型,经过参数优化提升文本情感倾向性分类模型的准确率。在数据集上进行实验,结果表明所提出的模型准确率达到93.0%,比文献中的基准模型取得了更好的分类效果。  相似文献   

16.
针对电气工程领域英汉机器翻译中平行语料稀缺的问题,在使用通用语料训练翻译模型的基础上,提出了一种融合领域术语信息的嵌入层参数初始化方法.首先,对文本进行分词预处理,将术语词划分为一个最小单元;然后,利用Glove和Word2vec在不同单语语料上训练得到两种词向量,并分别初始化嵌入层参数中常用词和术语词的向量表示;最后...  相似文献   

17.
电子政务平台每天都会产生大量短文本数据,挖掘短文本数据对政府掌握民意有十分重要的作用.针对短文本信息量少,单一短文本向量表示模型产生的特征信息丢失问题,提出一种融合权重及主题特征的混合向量表示模型.该模型利用Word2vec和TF-IDF算法挖掘短文本的局部特征,利用BTM主题模型挖掘短文本全局特征,然后将两种特征向量进行连接构成短文本向量.针对短文本数据增量变化特征,通过增加限定阈值改进传统Single-Pass聚类算法,实现短文本的增量聚类.实验结果表明,该模型能够有效的提高短文本聚类效果.  相似文献   

18.
单词向量化是自然语言处理领域中的重要研究课题之一,其核心是对文本中的单词建模,用一个较低维的向量来表征每个单词.生成词向量的方式有很多,目前性能最佳的是基于神经网络语言模型生成的分布式词向量,Google公司在2012年推出的Word2vec开源工具就是其中之一.分布式词向量已被应用于聚类、命名实体识别、词性分析等自然语言处理任务中,它的性能依赖于神经网络语言模型本身的性能,并与语言模型处理的具体任务有关.本文从三个方面介绍基于神经网络的分布式词向量,包括:经典神经网络语言模型的构建方法;对语言模型中存在的多分类问题的优化方法;如何利用辅助结构训练词向量.  相似文献   

19.
情感词典技术是文本情感分析的基础。受领域的限制,基础情感词典并不能满足特定领域的情感分析的需要。本文提出一种融合词向量和点互信息的领域情感词典方法,该方法以大量在线评论作为语料库,利用TF-IDF算法挑选领域种子情感词,结合词向量模型提取其与种子词相似度高的词语组成候选情感词集,采用SO-PMI算法来计算各候选词的情感极性,进而融合基础情感词典得到扩充后的领域情感词典。实验表明,构建的领域情感词典能有效提高餐饮领域情感分析任务的性能。  相似文献   

20.
基于量化同义词关系的改进特征词提取方法   总被引:1,自引:0,他引:1  
提出一种基于量化同义词关系的改进的TF-IDF文本特征词提取方法.该方法将在同一文本中出现的某个词的同义词做为一个集合,在传统TF-IDF方法计算的词语权重的基础上对同义词集合中的词语及其相关词进行权重调整,通过相似度对同义词集合中的词语进行了合并加权.实验证明该方法对文本中的同义词及其相关词进行了有效处理,提高了文本特征词提取的准确性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号