首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
分析了微博短文本的专有特征,介绍了微博短文本的预处理流程.以新浪微博为网络舆情数据获取平台,简述了微博文本分类处理实现过程,基于Hadoop进行了网络舆情微博分类设计,为网络舆情监控任务的完成做数据依据.  相似文献   

2.
提出一种基于多种文本类型的半监督性别分类方法,即根据微博平台中用户所产生的不同类型的文本(如:原创微博、转发微博等)对用户的进行性别分类。文中的方法是一种基于协同训练(Co-training)的半监督学习方法,旨在减少分类器对大量标注样本的依赖。首先将不同类型的文本分为不同的独立视图;其次,在每个视图中利用LSTM分类器挑选置信度最高的未标注样本;最后,将挑选出来的未标注样本加入训练模型迭代训练。实验结果表明我们的方法能够有效利用非标注样本信息,并明显优于其他现有的半监督性别分类方法。  相似文献   

3.
对微博情感分类,及时掌握微博上发布信息状态是网络舆情监控的重要研究内容。为能有效提取微博样本的特征,结合微博书写时口语化、时代化、含表情等特点,提出基于改进N-Gram的微博的多特征项提取算法,并给出基于聚类的KNN分类模型。实验结果表明,本文提出的算法能够有效提高微博舆情分类性能。  相似文献   

4.
社交机器人一直在应用中不断发展,并且为了逃避现有的检测方法,变得更加先进和复杂,较大地影响了原有部分社交机器人检测方法的效果.检测社交机器人成为了一项漫长而又艰巨的工作.在社交机器人检测领域中,目前存在着已公开相关数据集较少的情况,需要人工标注大量的数据.本文提出了一种结合主动学习与关系图卷积神经网络(RGCN)的检测方法——ALRGCN,用以解决人工标注大量数据成本较高的问题.其主要思路是利用主动学习方法来扩充标记数据集,以最大化人工标注的价值.主动学习利用种子选择算法构建初始训练集以及不确定性采样方法筛选出较高信息熵的样本,交由分类模型进行训练,旨在通过专业人员的经验来人工标注一些分类器难以分类的数据.鉴于社交机器人通常以集群的形式出现,本文引入了RGCN来捕捉其网络结构特征.RGCN可以有效地分析节点及其相邻节点的属性,进而帮助该节点进行分类.实验在TwiBot-20数据集上进行,通过对比进行使用的基线实验,ALRGCN在F1上取得了2.83%的提升.实验结果证明,ALRGCN在标注样本更小的情况下可以更有效地检测出社交机器人.  相似文献   

5.
研究结合社交媒体特点,充分考虑标签文本和内容文本信息,融合了传统的LDA话题模型对社交文本信息进行话题聚类,从而实现了对社交数据的话题发现,与此同时,文章提出了基于关键词图模型构建话题特征,并结合支持向量机模型进行文本情感极性判别。研究在开放微博数据集和COAE2014公开评测数据上进行了相关实验,实验证明了有效的关键词图模型能进一步克服中文语义的模糊性和歧义性。  相似文献   

6.
目的 随着公众舆论数据的快速增长,社交网络文本情感识别在网络舆情监控中发挥着越来越重要的作用。由于文本数据的稀疏性、高维性和自然语言的复杂语义,情感分析任务面临巨大的挑战。方法 为提高网络舆情情感识别的效果,设计一种融合双向门控循环单元(BiGRU)和卷积神经网络(CNN)的情感识别模型。首先将社交网络文本转换成特征向量,然后通过BiGRU提取文本的上下文情感特征,最后通过CNN提取文本的局部情感特征,构建中文社交网络文本情感识别模型。结果 以新冠疫情期间网民的微博评论为数据集验证模型的可行性和优越性,模型的精确率、召回率和F1值分别达到86.6%、87.06%和86.85%。结论 实验结果表明,融合BiGRU-CNN的特征向量包含更加丰富文本的情感信息,能够有效提升网络舆情情感识别的性能。  相似文献   

7.
随着社交网络的快速发展,人们可利用微博平台发表、分享自己的观点以及抒发某种情绪,进而产生了大量针对不同话题的博文和情绪信息,但传统的文本挖掘算法在处理这些短小且具富含个性化情感信息的微博文本方面有所欠缺。在此提出一种基于微博文本的特征权重计算方法,可据此得到博主在不同时间段的关注点,通过情绪分类,分析用户在不同时间段内的情绪变迁情况。实验结果证明此方法具有一定的可行性。  相似文献   

8.
从微博的内容属性和社交网络的信息传播规律特征出发,将微博文本与用户关注关系结合作为用户兴趣分类的标准,从而使提取的用户兴趣的更加准确、有效。借助建立的用户兴趣分类模型解决用户兴趣分类问题,选取新浪微博作为研究对象,应用LDA算法进行主题提取,应用LibSVM算法进行分类。实验证明,该方法分类时增加了对用户信息的全面性应用,而且与其他方法相比有更高的分类准确率。  相似文献   

9.
针对微博舆情信息的特点,提出基于语义理解的微博舆情信息关联检测方法。从舆情信息表示模型和舆情信息相关度计算方法两个方面展开研究。在信息表示方面,使用微博的评论信息扩充微博信息以期较好地应对数据稀疏现象,基于同义词词林来计算词汇相似度,以应对微博草根性带来的问题,将微博舆情信息表示成多个向量空间模型。在相关性计算方面,提出多维度相关性计算方法。实验证明,所提出的方法对关联检测的准确率和召回率都有较好的提升。  相似文献   

10.
大数据时代下,微博作为一个开放性的信息传播平台吸引了众多的网民参与其中,与之相关的研究也得到了广泛的开展。本文将微博情感分析任务分为3步:微博语料的获取与预处理、情感特征的标注与选择、主观文本的情感分类。在主观文本分类中,将情感分类分为基于规则的方法和基于机器学习的方法。最后对当前中文微博的情感分析现状做了总结,并阐述了当前微博情感分类还需亟待解决的一些问题。  相似文献   

11.
当今中文社交平台中网络欺凌语言十分盛行,而传统的平台管理员人工审核的方式已无法有效地对其进行检测与分析.为解决这一难题,首先,我们提取了十几个典型的中文社交平台中的部分样本进行人工标注,构建了一个训练数据集.然后,我们分别使用朴素贝叶斯、支持向量机、长短期记忆神经网络构建分类模型,对未标注的数据进行分类识别处理.实验表明:选取的分类模型均能有效地识别出网络欺凌语言,其准确率分别是0.87,0.79,0.88.其中长短期记忆神经网络综合效果最佳.由此得出的结论为:借助大数据手段建立的分类模型,能快速地检测出社交平台上的原始数据中网络欺凌语言的存在.最后,我们对含有网络欺凌语言的评论与用户等级、发表时间等属性上的相关性做了分析,并拟合出高斯分布模型.  相似文献   

12.
随着时间的变化,用户对汽车产品评论的情感信息会有所波动,然而,通过挖掘这些情感信息可为潜在用户和企业提供决策依据。对于大量的汽车评论,仅靠人工去分析这些评论数据的情感显得无能为力。因此,文章采用迁移学习思想,通过前一时期标注数据获得当前时期数据的初始标注样本,利用主动学习不断优化分类模型,进而预测当前时期汽车评论的情感倾向。实验结果表明,该方法在较少人工标注量的情况下取得了较好的情感预测结果。  相似文献   

13.
随着互联网井喷式发展,社交媒体发展迅猛,但是伴随网络匿名特性出现的失范现象时有发生,如何准确判定社交媒体用户从属问题亟待解决。目前社交媒体信息载体多以短文本为主,语法语义过于灵活,难以准确获得文本特征向量。传统短文本作者识别多采用人工建模的方式对文本特征加以提取,设计纷繁复杂。结合深度学习的方法,提出BERT-BiGRU-ATT短文本作者身份识别模型。该模型对中文短文本使用BERT中文预训练模型生成字符向量,利用双向门控循环单元(Bi GRU)结合注意力机制高效捕获序列上下文特征,最终通过A-softmax分类器实现文本作者的识别。在制作的中文微博短文本数据集上的实验结果表明,BERT-BiGRU-ATT模型与其他模型相比,在中文短文本作者识别的准确率上取得较好的成绩,其F1值达到93.6%的精度。  相似文献   

14.
通过微博情感分析掌握网络舆情动态是网络数据挖掘的研究热点,特征选择是基于内容的微博舆情分类的重要环节。为有效提取微博数据的特征,分析CHI特征选择算法应用在微博舆情分类中的特点及不足,给出一种改进的特征评估函数,并进一步用基于蚁群聚类的方法消除微博特征间的冗余。实验结果表明,改进的算法能够有效提高微博舆情分类的效能。  相似文献   

15.
基于微博表情符号,提出一种自动构建情感词典的方法。 从微博平台抓取大量带有表情符号的微博文本,并依据表情符号对微博文本进行情感倾向标注,生成情感语料库。 对语料库进行分词、去重等预处理工作,根据词性规则抽取微博文本中情感词,统计每个情感词在正向和负向语料库中出现的次数,计算情感词的卡方统计值获得情感强度,根据情感词在正负微博文本中出现的概率判定情感词的倾向性,进而生成情感词典。 这是一种全新的思路。 以人工标注的情感词典为基准数据,实验结果表明,本文方法标注情感词的准确率在80%左右,在情绪词强度阈值θ为20、30时,生成情感词典综合F值最好,达到了82%以上。   相似文献   

16.
当前互联网已成为公众获取信息、表达观点的重要平台,也带来社会舆情事件易发生的风险,通过对网络舆情走势的提前预测,能够准确判断热点事件的发展态势,为政府相关部门应对舆情危机提供参考.针对单一预测模型预测精度不高和社交媒体对舆情走势影响较大的问题,提出了融合微博热点分析和长短期记忆神经网络(LSTM)的舆情预测方法.利用网络爬虫和PyTorch机器学习平台构建了用于舆情时序数据分析的网络舆情预测系统;在此系统内,考虑微博的强时效性,采用网络热点分析技术计算微博热度分值;改进LSTM网络,设计由2个隐含层组成的MH-LSTM预测模型;将MH-LSTM模型用于舆情事件百度指数的定量预测中,通过试验验证了模型的正确性,证实了该预测模型拥有较好的预测效果.  相似文献   

17.
社交网络中存在大量营销、招聘等垃圾信息以及无实质内容的短文,为话题建模工作带来很多干扰,更严重影响社交网络方面的学术研究及商业应用。因此,该文提出了一种结合支持向量机与k近邻模型(pSVM-kNN)的半监督话题噪声过滤方法。该方法融合了SVM和kNN算法,在SVM计算得到超平面的基础上使用kNN算法在局部范围内迭代寻找分类超平面的最优解;同时为减少误分类发生,分别在SVM和kNN阶段引入惩罚代价和比例权重,以提高噪声过滤的效果。通过选取新浪微博中不同大小的数据集进行实验与其他方法进行比较,结果表明:该方法只利用了少量的标注样本进行训练,在准确率、召回率和F值方面均优于其他的对比方法。  相似文献   

18.
读者情绪分类具体是指针对某个文本推测读者可能产生的情绪。针对该新问题,目前遇到的主要挑战是标注语料库的匮乏问题。文章提出了一种基于主动学习的读者情绪分类方法,即在已有少量标注样本的基础上,利用主动学习方法挑选优质样本,使得使用尽量少的标注代价获得较好的分类性能。考虑到新闻读者情绪分类可以同时使用新闻文本和评论文本的特殊性,提出了分类器融合分类方法,并在主动学习方面提出了结合不确定性与新闻评论信息量的挑选策略。实验表明,分类器融合方法能够获得比仅用新闻文本更好的分类性能。此外,文章提出的主动学习方法能够有效减小标注规模,在同等标注规模下,获得比随机更佳的分类性能。  相似文献   

19.
随着万维网的快速普及和发展,Web上出现了大量短文本,如科技文献摘要、微博和电子邮件等.短文本内容短小,相互联系,已标注数据获得困难,导致传统分类方法很难取得较高的分类精度.为了解决短文本分类问题,提出了一种基于半监督学习的迭代分类算法(SS-ICA).它使用较少的已标记数据,利用短文本间的关系进行迭代分类.通过与常用分类方法进行对比表明,在标注数据较少的情况下SS-ICA比其他分类器有更高的分类精度.  相似文献   

20.
以网络爬虫方式获取新浪微博用户属性信息及微博内容数据,利用数据挖掘技术从中发现微博用户间的多种显式和隐式关系.在此基础上,提出一种基于半监督学习的用户兴趣匹配预测算法,参照仓室模型的传播个体状态划分方法,基于传播个体间的兴趣匹配度界定各状态之间的转移过程和转移概率,进而构建基于用户兴趣匹配的网络舆情传播模型.研究结果表明,该模型能够较好地描述社交网络中的舆情传播规律,重现网络舆情在社交网络中的真实传播过程链.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号