首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 371 毫秒
1.
大数据时代下,微博作为一个开放性的信息传播平台吸引了众多的网民参与其中,与之相关的研究也得到了广泛的开展。本文将微博情感分析任务分为3步:微博语料的获取与预处理、情感特征的标注与选择、主观文本的情感分类。在主观文本分类中,将情感分类分为基于规则的方法和基于机器学习的方法。最后对当前中文微博的情感分析现状做了总结,并阐述了当前微博情感分类还需亟待解决的一些问题。  相似文献   

2.
针对自然语言处理的文本情感分类问题,提出一种基于集成学习的文本情感分类方法;基于微博数据的特殊性,首先对微博数据进行分词等预处理,结合词频-逆文档频率(TF-IDF)和奇异值分解(SVD)方法进行特征提取和降维,再通过堆叠泛化(stacking)集成学习的方式进行分类模型融合。结果表明,模型融合对文本情感分析的准确率达到93%,可以有效地判别微博文本的情感极性。  相似文献   

3.
利用微博数据检测突发事件具有重要意义.针对以往检测方法特征不够丰富、准确率不高等问题,提出了一种基于多种特征融合的微博突发事件检测方法.该方法根据情感符号构建情感特征模型,对微博数据进行情感分类,并采用Kleinberg算法对情感特征进行突发期检测;在突发期内根据词频特征、词频增长特征和话题标签特征融合加权提取突发词,...  相似文献   

4.
当前中文微博情感分析的主流做法是将情感极性分类结果的好坏作为评判的标准。从提高微博情感判别准确度的目的出发,尽量多考虑影响微博情感的元素。在统计微博中情感词的基础上,加入了微博表情这一重要元素,采用与文本情感值加权的方式参与微博情感计算,使得对含有表情的微博情感判定结果有了一定程度的提高;在语义规则部分,基本涵盖了汉语中最常用的几种句型规则和句间关系规则,使得对复杂语句的情感分析更加准确。同时,还对每条微博的情感给出了具体的数值,并在正确率、召回率、F 值的基础上,提出合格率这一指标,对微博情感判别方法得到的数值准确性进行评价。通过搭建 Hadoop 平台对测试集的1万条数据进行测试,验证了融合算法的有效性。  相似文献   

5.
针对微博短文本存在口语化、简洁化等社交网络特征,充分利用句法依存关系以及条件随机场(conditional random fields,CRFs),抽取候选评价对象,并在基于机器学习的微博情感分类方法的基础上结合情感分析词典,引入情感值、微博标签、主题等特征,优化分类性能。在COAE(Chinese opinion analysis evaluation)微博评测数据集上,以准确率、召回率、F1值为评价指标对所提方法进行验证,证实了基于句法依存分析与CRFs相结合的评价对象抽取方法的有效性,分析了各类特征对情感分类性能的影响,最终在COAE微博观点句识别任务中准确率达91.4%。  相似文献   

6.
基于文本语义和表情倾向的微博情感分析方法   总被引:1,自引:0,他引:1  
针对基于机器学习的中文微博情感分析方法存在处理过程复杂、判断准确率低等问题,该文提出了一种新的情感分析方法。将微博爬虫和Web应用程序编程接口(API)相结合,对动态微博数据进行收集和预处理。基于NTUSD和How Net中文情感词典的微博情感词的抽取和分类,计算词语语义相似度和倾向性。综合考虑表情、文本情感倾向的加权和正面情感增强等因素。实验结果表明:表情情感倾向对微博情感倾向起着重要作用;在表情和文本情感倾向比值固定的情况下,调整因素和中性区间的选择会对情感倾向判断准确率产生影响;通过与基于How Net语义相似度的计算模型比较,该文方法使得情感倾向判断准确率提高约5%。  相似文献   

7.
通过分析微博的结构特点,提出了一种基于语义分析的中文微博情感分类方法。首先构建了表情符号情感词典和网络用语情感词典;然后结合词典资源对微博文本进行依存句法分析并且构建情感表达式树;最后根据制定的规则计算微博文本的情感强度,依据强度值判断微博的情感倾向类别。实验结果验证了该方法的有效性,也表明所构建的表情符号情感词典和网络用语情感词典能够有效增强情感分类器的性能。  相似文献   

8.
情感倾向性分析是情感分析的重要组成部分,是一种按照情感倾向对文本进行分类的任务。微博与传统的评论文本相比更加口语化与符号化,因此对微博进行情感倾向性分析是一个非常有挑战性的任务。基于机器学习的方法是情感倾向性分析最经典的算法,核心是要进行特征的分析和选择,例如词袋特征等。然而,由于中文语言的独特性,前人很多有效的特征都是语言相关的,将其直接用于中文微博效果不佳。在中文微博语料上,还没有学者进行细致的特征工程建设。基于此,文章综合国内外诸多特征,并考虑到中文的独特性,对中文微博的褒贬中倾向性判别特征工程的词、词组、数值和句法特征分别进行了研究,并提出了基于词典规则的情感评分的新特征。最后经过大量实验与分析,得出了可靠的特征组合。实验结果表明,此方法能够明显提高情感倾向性分析的结果。  相似文献   

9.
随着微博快速崛起,每天数以千万的人通过微博分享自己对各类话题的观点与情感,如何自动感知微博社区对特定话题的观点倾向性,已经成为中文微博计算亟待解决的问题。由于微博内容短小且不规范,传统的情感分析效率低下且效果很难满足实际需求。现提出一种将情感词典分类的方法进行实验研究,针对腾讯微博20个话题约17 500条微博32 000个句子的数据进行实验,实验结果表明提出的情感词典分类方法效果很好。  相似文献   

10.
针对微博短文本存在的特征提取困难及微博谣言传播浪费网络资源的问题,提出了基于主题和预防模型的微博谣言检测.对微博进行主题提取,按主题分类后提取基于用户、传播结构、内容三方面的统计特征.将样本与官方谣言子集中的微博进行相似度计算,将其值与传统特征进行特征融合之后作为统计特征进入有监督的机器学习.实验结果表明,相对于传统的有监督机器学习,该方法将微博谣言检测的性能提升了3%左右,同时实现了谣言预防.   相似文献   

11.
Sentiment analysis is now more and more important in modern natural language processing,and the sentiment classification is the one of the most popular applications.The crucial part of sentiment classification is feature extraction.In this paper,two methods for feature extraction,feature selection and feature embedding,are compared.Then Word2Vec is used as an embedding method.In this experiment,Chinese document is used as the corpus,and tree methods are used to get the features of a document:average word vectors,Doc2Vec and weighted average word vectors.After that,these samples are fed to three machine learning algorithms to do the classification,and support vector machine(SVM) has the best result.Finally,the parameters of random forest are analyzed.  相似文献   

12.
传统机器学习和深度学习模型在处理情感分类任务时会忽略情感特征词的强度,情感语义关系单薄,造成情感分类的精准度不高。本文提出一种融合情感词典的改进型BiLSTM-CNN+Attention情感分类算法。首先,该算法通过融合情感词典优化特征词的权重;其次,利用卷积神经网络(CNN)提取局部特征,利用双向长短时记忆网络(BiLSTM)高效提取上下文语义特征和长距离依赖关系;再结合注意力机制对情感特征加成;最后由Softmax分类器实现文本情感预测。实验结果表明,本文提出的情感分类算法在精确率、召回率和F值上均有较大提升。相较于TextCNN、BiLSTM、LSTM、CNN和随机森林模型,本文方法的F值分别提高2.35%、3.63%、4.36%、2.72%和6.35%。这表明该方法能够充分融合情感特征词的权重,利用上下文语义特征,提高情感分类性能。该方法具有一定的学术价值和应用前景。  相似文献   

13.
针对在线医疗评论文本具有行业专业性强、差异性大、不够规范等特点,提出一种基于特征加权词向量的在线医疗评论情感分析方法.利用Word2vec方法构建词向量模型,抽取情感词集合完善医疗服务领域情感词典,根据句法关系识别主题词与情感词的依存关系,引入期望交叉熵因子,建立特征加权词向量模型,分析在线医疗评论的情感倾向.实验结果表明扩充的医疗服务情感词典在分析性能上的准确率、召回率以及F1值均高于基础情感词典,引入期望交叉熵因子后,基于特征加权词向量的情感分析方法在SVM分类上表现出更好的效果,体现了其在在线医疗评论挖掘领域的良好效用.   相似文献   

14.
文本分类是机器学习重要任务之一,如何对文本信息进行有效分类组织,对用户查找并获取有用信息具有重要作用。针对新闻文本分析,提出了一种基于集合运算特征提取及Stacking策略的新闻多分类方法,该方法基于集合运算的方法来提取文本特征,采用Stacking策略,使用SVM以及贝叶斯方法来对文本进行分类。与典型同类方法对比,在复旦大学文本分类数据集上的实验结果表明,该方法随着样本数增加,各分类指标逐渐升高并趋于稳定。  相似文献   

15.
电力系统暂态稳定性的破坏可以对电力系统的安全稳定运行产生严重冲击,准确、快速地暂稳评估方法能够提高电力系统的安全防御能力。极限学习机由于其速度快、泛化性能好被应用到电力系统暂态稳定评估中。为了提高极限学习机的评估性能,利用基于差分进化算法的优化方法和序列浮动后向特征选择算法对极限学习机暂态稳定评估性能进行提升。首先对输入特征通过主元分析降维并利用序列浮动后向算法进行特征选择,再将最优特征集输入差分进化极限学习机进行暂态稳定评估,最后在新英格兰10机39节点系统中进行验证分析,结果表明,所提模型与其他极限学习机模型相比,大大提升了其在暂态稳定分类评估中的性能。  相似文献   

16.
针对面向汽车领域的软文识别问题,将软文识别分为顶贴识别、无关帖识别、广告帖识别和伪造帖识别4个子任务,并分别使用基于规则的方法和基于机器学习的方法对4类软文进行识别。基于规则的方法综合考虑汽车领域专业信息、极性词信息、作者级别信息等因素;基于机器学习的方法结合网帖内容特征和作者信息特征,使用最大熵分类器进行模型训练。实验结果表明,对于领域特征明显、具有数值化反馈信息和明确标注数据的领域,适合使用机器学习的方法进行软文识别。  相似文献   

17.
为解决弱情感倾向语料影响文本情感分类的问题,提出基于全局语义学习的文本情感增强方法。首先设计语料划分方法,将语料划分为强情感倾向语料与弱情感倾向语料,然后,从文本处理全过程及整体语义学习的角度出发,构造均值抽取与最大值抽取的语义提取方式及文档信息向量,改进基于循环神经网络的变分自编码器的语义学习过程,并用于学习强情感倾向语料中文本的词语序列特征与语义特征。基于此,对弱情感倾向语料进行重构,实现情感增强目标,最后,将经过情感增强的语料替换掉原来的弱情感倾向语料,再进行情感分类模型的训练与测试。结果表明:提出的文本情感增强方法能够提升情感分类效果,并使得Bert分类器对IMDb影评数据集的情感分类精确率达到了93.03%。  相似文献   

18.
随着大数据、人工智能以及高性能计算的快速发展, 数据驱动的新材料研发成为研究热点. 在对材料数据进行数据挖掘的过程中, 需要对特征集合进行预处理, 通过减少无关冗余特征, 不仅可以避免模型过拟合, 还能提高模型的可解释性. 基于此, 提出了一种基于强化学习的特征选择(feature selection based on reinforcement learning, FSRL) 算法, 将封装式特征选择抽象成机器学习模型和"环境"互动的过程, 并根据利益最大化准则将对应特征加入特征子集中. 同时, 为了提高模型的预测精度, 还提出一种基于符号变换的特征构造方法来生成新的特征. 最后, 将所提出方法应用到非晶合金材料的分类预测任务和铝基复合材料的回归任务中. 实验结果表明, FSRL 算法的分类准确率最高提升了 2.8%, 而在回归任务中, 基于特征构造的 FSRL 算法使得预测精度最高提升了 22.9%.  相似文献   

19.
网络数据的正确分类对于网络环境的监控和维护具有重要作用。在数据不平衡状态下解决数据分类和处理复杂的特征关系尤为重要,为此提出一种改进SMOTE(synthetic minority over-sampling technique)+GA-XGBoost(genetic algorithm-extreme gradient boosting)的机器学习分类方法。将局部离群因子引入SMOTE插值过程,对少数类样本过采样,并对多数类样本随机欠采样,从而实现样本再平衡;同时,在模型训练过程中为增加模型拟合度,将具有进化迭代优势的遗传算法与XGBoost相结合,解决XGBoost参数众多、特征学习收敛较慢等问题。实验采用UNSW_NB15数据集,选择多层感知机、K近邻、决策树等机器学习算法及SMOTE+XGBoost等不平衡数据训练方法进行试验对比,结果表明该方法具有较好的分类预测准确率(97.40%)及较高的平均召回率(70.2%)和平均F1-score(68.8%)。并在本实验室工业信息安全平台采集的数据进行实验研究,分类准确率为99%,进一步验证了该方法的有效性和可行...  相似文献   

20.
针对井口压力控制作业中传统方法过度依赖专家经验和数学模型运算精度的问题,提出一种基于随机森林(Random Forest,RF)的多模型融合算法对压井方式进行分类判断。首先,将专家经验结构化、数据化,转化成可被机器学习模型使用的数据形式,同时,结合油气井的基础数据和工况参数,作为智能模型的重要参数来描述压井作业的特征空间;然后,将特征数据通过特征工程进行特征筛选、特征编码和特征选择等处理;最后,构建出基于随机森林的Stacking双层融合模型,实现压井方法的分类预测。通过实验验证,与单模型的机器学习算法相比,本方法具有更高的预测精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号