首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
研究结合社交媒体特点,充分考虑标签文本和内容文本信息,融合了传统的LDA话题模型对社交文本信息进行话题聚类,从而实现了对社交数据的话题发现,与此同时,文章提出了基于关键词图模型构建话题特征,并结合支持向量机模型进行文本情感极性判别。研究在开放微博数据集和COAE2014公开评测数据上进行了相关实验,实验证明了有效的关键词图模型能进一步克服中文语义的模糊性和歧义性。  相似文献   

2.
网络社交媒体的快速发展提供了便捷的信息获取方式,但也滋生了谣言和虚假新闻,现有的谣言检测模型在有标注数据充足时能有效解决分类问题,然而谣言可用的标注数据有限,各种针对谣言特点精心设计的模型倾向于过拟合,同时,现有模型的鲁棒性不足,谣言传播者恶意破坏谣言传播结构会使模型出现分类错误.针对以上问题,采用自监督的图对比学习方法,对原始谣言传播图进行不同方式的数据增强来模拟对原图的扰动,建立自监督对比学习任务,使图编码器捕获谣言更趋本质的特征,缓解了过拟合,提高了模型的鲁棒性与泛化性能.在来源于主流社交媒体平台的三个公开数据集Twitter15,Twitter16和PHEME上进行了对比实验,实验结果显示,提出的模型的准确率比基准模型分别提高3.4%,1.8%和1.2%,证实了图自监督对比学习方法在谣言检测任务上的有效性.  相似文献   

3.
针对互联网虚假评论大肆横行,在虚假评论研究领域却没有完全公开的中文数据集可供中文虚假评论检测研究的问题,提出了一种基于生成对抗网络的中文虚假评论数据生成模型.首先,对生成器生成的文字序列通过蒙特卡洛搜索获取一批样本;然后,采用强化学习方法将判别器、分类器和重构器的反馈化为奖励分数;最后,传回生成器,对生成器进行参数优化,以生成贴近真实世界的具有相应类标签属性及特征的虚假评论数据.以BLEU值为评估指标,实验结果表明,所提出的模型在本文数据集上取得了更好的BLEU值,具有较好的生成效果.  相似文献   

4.
随着互联网井喷式发展,社交媒体发展迅猛,但是伴随网络匿名特性出现的失范现象时有发生,如何准确判定社交媒体用户从属问题亟待解决。目前社交媒体信息载体多以短文本为主,语法语义过于灵活,难以准确获得文本特征向量。传统短文本作者识别多采用人工建模的方式对文本特征加以提取,设计纷繁复杂。结合深度学习的方法,提出BERT-BiGRU-ATT短文本作者身份识别模型。该模型对中文短文本使用BERT中文预训练模型生成字符向量,利用双向门控循环单元(Bi GRU)结合注意力机制高效捕获序列上下文特征,最终通过A-softmax分类器实现文本作者的识别。在制作的中文微博短文本数据集上的实验结果表明,BERT-BiGRU-ATT模型与其他模型相比,在中文短文本作者识别的准确率上取得较好的成绩,其F1值达到93.6%的精度。  相似文献   

5.
在虚假信息识别任务中,面对图文结合的虚假内容,基于单模态的模型难以进行准确识别.社交媒体中的虚假信息为吸引关注和迅速传播的目的,会使用夸张的词汇煽动读者的情绪.如何将情感特征引入多模态虚假信息检测模型进行多特征融合,并准确地识别虚假信息是一个挑战.为此,本文提出了基于注意力机制多特征融合的虚假信息检测方法(att-MFNN).该模型中先将文本特征和情感特征基于注意力机制融合,再与视觉特征组成多模态特征送入虚假信息识别器和事件分类器中.通过引入事件分类器学习不同事件中的共同特征,提高新事件的识别性能.att-MFNN在微博和推特(Twitter)数据集的准确率达到了89.22%和87.51%,并且F1、准确率、召回率指标均优于现有的模型.  相似文献   

6.
命名实体在文本中是承载信息的重要单元,而微博作为一种分享简短实时信息的社交网络平台,其文本长度短、不规范,而且常有新词出现,这就需要对其命名实体进行准确的理解,以提高对文本信息的正确分析。提出了基于多源知识的中文微博命名实体链接,把同义词词典、百科资源等知识与词袋模型相结合实现命名实体的链接。在NLP&CC2013中文微博实体链接评测数据集进行了实验,获得微平均准确率为92.97%,与NLP&CC2013中文实体链接评测最好的评测结果相比,提高了两个百分点。  相似文献   

7.
当今中文社交平台中网络欺凌语言十分盛行,而传统的平台管理员人工审核的方式已无法有效地对其进行检测与分析.为解决这一难题,首先,我们提取了十几个典型的中文社交平台中的部分样本进行人工标注,构建了一个训练数据集.然后,我们分别使用朴素贝叶斯、支持向量机、长短期记忆神经网络构建分类模型,对未标注的数据进行分类识别处理.实验表明:选取的分类模型均能有效地识别出网络欺凌语言,其准确率分别是0.87,0.79,0.88.其中长短期记忆神经网络综合效果最佳.由此得出的结论为:借助大数据手段建立的分类模型,能快速地检测出社交平台上的原始数据中网络欺凌语言的存在.最后,我们对含有网络欺凌语言的评论与用户等级、发表时间等属性上的相关性做了分析,并拟合出高斯分布模型.  相似文献   

8.
目前农产品在微信、微博等社交媒体上销售越来越普及,以矩阵这一全新的角度探讨农产品社交媒体的营销方法,详细分析农产品通过微博、微信展开新媒体营销的途径,并将各种营销策略进行系统化的总结,构建了横、纵两个维度的矩阵模型,并将此模型推广到其他新媒体平台,为今后农产品微营销的展开提供了新的思路。  相似文献   

9.
提出了面向微博应用的新闻文本自动摘要研究方法.利用互信息对新闻文本中词语和句子之间的语义特征进行计算,根据其关联度对句子进行主题划分,赋予主题句较高的权重,同时从文本中抽取多种组合特征,利用Ranking SVM对句子进行排序,从而得到自动摘要.在NLPCC2015面向微博中文新闻自动摘要评测数据集上进行对比实验,取得了良好效果,证明该方法的有效性.  相似文献   

10.
随着微博等社交平台的兴起,如何针对微博数据进行产品命名实体识别成为了自然语言处理领域研究的热点之一,也是实现舆情监督和商业智能的基础.传统的命名实体识别技术没有考虑中文微博口语化、不规范等特点,且忽略了深层语义对命名实体识别的重要作用.因此,考虑中文微博的特殊性,提出一种融合全局上下文信息的词向量特征选择方法,分别采用主题模型和神经网络词向量聚类两种方法获取深层语义信息,并结合层叠条件随机场进行中文微博的命名实体识别.实验结果表明,基于词向量聚类的中文微博产品命名实体识别方法取得了较好的效果.  相似文献   

11.
当灾害发生时,人们经常使用微博、微信等社交媒体发布文本内容,描述伤亡人员、被困人员、车辆受损及基础设施损坏等情况。如果及时有效地处理这些在线信息,构建相应的机器学习模型,对应急响应组织进行态势感知、舆情应对或者救援活动极为有用。然而,目前对于社交媒体信息的有效处理仍存在众多挑战,比如准确分类这些简短和非正式的文本数据。从根本上讲,这些任务均涉及到数据样本问题,特别是国内目前还缺乏人工标注的中文灾害数据。为此,论文收集了2018年发生的与3起自然灾害相关的微博文本数据,并按照多层级分类方法进行了人工标注。该数据集将有助于业界解决自然语言处理时缺少灾害数据样本的现状,为进一步完善灾害危机应对和舆情管理等提供支持。  相似文献   

12.
融合表情符号图像特征学习的微博情感分类   总被引:2,自引:0,他引:2  
表情符号作为一种新兴的网络图形化语言,由于能够直观地表达用户的情感和态度,因此在社交平台被广泛使用。现有的利用表情符号进行微博情感分类的研究主要考虑表情符号的文本特征,这样的做法不能很好的捕捉表情符号之间更细粒度的联系,并无法适应表情的不断发展与变化。针对现有研究存在的问题,本文提出了一种基于卷积自编码器的表情图像特征学习的微博情感分类模型。该模型通过卷积自编码器捕捉的表情符号的图像特征,然后将图像的嵌入表达融入到微博的文本特征中,再利用多层感知机进行情感分类。该模型分别在中文和英文微博的数据集上和现有的方法进行了对比,实验证明,本文的方法优于现有的方法,并且在新表情和跨语言环境下的泛化能力更强。  相似文献   

13.
在微博社交网络中,微博文本内容短小,主题覆盖较少,同时主题变化快,用户兴趣更新频繁。已有用户模型不能完全准确刻画微博用户变化的兴趣。友邻集由用户认知度高的群体组成,友邻集的主题兴趣可以全面反映目标用户的多样化兴趣。利用目标用户的友邻集,在本体用户模型上构建微博用户的友邻主题兴趣集,计算更新友邻主题兴趣度,提出友邻-用户模型的实现算法。实验表明,在微博社交网络平台中,友邻一用户模型的微博主题推荐精度要优于传统的用户模型。  相似文献   

14.
近十年来,通过社交网络(如微博、推特)分享信息已经成为人们日常生活中不可缺少的一个环节,如何有效地预测信息传播的影响力成为社交网络研究中的重要课题,不论是识别病毒式营销和虚假新闻还是精确推荐和在线广告都有许多应用.目前,一些应用深度学习进行社交网络影响力预测的方法已经取得了一定进展,但在进行深度学习时仍会面临以下难点:用户通常具有不同的行为和兴趣并且他们同时通过不同的渠道进行互动;用户之间的关系难以检测和形式化表达.传统的社交网络影响力预测方法通过设计复杂的规则来手动提取用户及其所处网络的特征信息,这一方法的有效性严重依赖于设置规则的专业性,所以很难将某一领域的规则推广到其他领域的应用中去.基于深度神经网络模型,设计一种端到端的神经网络来学习用户的隐藏特征信息以预测其社交网络影响力.首先通过图嵌入的方式对用户的局部网络进行特征提取,然后将特征向量作为输入对图神经网络进行训练,从而对用户的社会表征进行预测.该方法的创新之处:运用图卷积和图关注方法,将社交网络中用户的特征属性和其所处局域网络特征相结合,大大提高了模型预测的精度.通过在推特、微博、开放知识图谱等数据集上的大量实验,证明该方法...  相似文献   

15.
针对社交网络用户个人信息难以获取、公开信息不完整、不通用甚至内容虚假的问题,选择了普适性强,且能客观、真实反映用户行为习惯的位置数据作为相似性分析依据,对新浪微博、滴滴打车进行位置数据采集,形成两个高价值且具有国内网民特色的数据集作为实验对象.提出了一种基于时间滑动窗口模型的轨迹相似性匹配算法,通过调整时间窗口和位置距离优化算法F值,实现不同网络平台用户的相似性分析.以对新浪微博和滴滴打车的用户位置数据为例进行验证,实验结果证明了地理位置为虚拟身份相似性判断的正相关影响因子,且判断相似性的平均F值超过90%.   相似文献   

16.
社交媒体已成为提高公司价值的重要渠道。本研究以中国为背景,旨在调查社交媒体(微博和短视频平台)运营对公司价值的影响;研究采用多阶段倾向评分匹配(PSM)和分化差异(DID)设计方法。研究结果表明公司采用抖音短视频平台进行社交媒体运营对公司价值具有显著的积极影响;而公司采用新浪微博进行社交媒体运营对公司价值没有显著影响。这意味着公司运营新兴的社交媒体平台对公司价值具有积极意义,为公司开展社交媒体运营提供了指导。  相似文献   

17.
该文主要针对中文微博的细粒度情绪识别技术中的关键技术展开研究,分析了中文微博的研究难点和微博情感表达特征,提出了一种微博文本情绪显性特征的多策略集成分析法。最后实验组以新浪微博中某一主题为实验数据,对"乔任梁去世"事件这一热点话题的评论文本数据集进行分析,验证了该文的微博情感分析能力,同时还将情感分析结果进行了可视化展示。  相似文献   

18.
社交机器人一直在应用中不断发展,并且为了逃避现有的检测方法,变得更加先进和复杂,较大地影响了原有部分社交机器人检测方法的效果.检测社交机器人成为了一项漫长而又艰巨的工作.在社交机器人检测领域中,目前存在着已公开相关数据集较少的情况,需要人工标注大量的数据.本文提出了一种结合主动学习与关系图卷积神经网络(RGCN)的检测方法——ALRGCN,用以解决人工标注大量数据成本较高的问题.其主要思路是利用主动学习方法来扩充标记数据集,以最大化人工标注的价值.主动学习利用种子选择算法构建初始训练集以及不确定性采样方法筛选出较高信息熵的样本,交由分类模型进行训练,旨在通过专业人员的经验来人工标注一些分类器难以分类的数据.鉴于社交机器人通常以集群的形式出现,本文引入了RGCN来捕捉其网络结构特征.RGCN可以有效地分析节点及其相邻节点的属性,进而帮助该节点进行分类.实验在TwiBot-20数据集上进行,通过对比进行使用的基线实验,ALRGCN在F1上取得了2.83%的提升.实验结果证明,ALRGCN在标注样本更小的情况下可以更有效地检测出社交机器人.  相似文献   

19.
社交化媒体蕴含着大量的数据,通过分析数据,可以研究人们的消费习惯,使用用户导向型策略进行商业化运作获取直接的经济收益。社交情绪分析成为这一体系中最重要的技术之一,国外已经对在英文数据集上的情感分析进行过相关研究。该文利用中文数据、神经网络算法和相关的Web技术对此进行相关的研究,成功构建3个模型,实现了对任意输入中文句子的情感分析,并可在极短时间内对输入内容进行高精度的情感预测。  相似文献   

20.
本文提出一种基于突发词聚类的跨媒体突发事件检测方法。根据事件分析,发现微博具有文本丰富、用户活跃度高、在突发事件检测中具有速度快且高效的特点,但是由于微博文本长度较短,内容过于随意,使得事件发现的结果不够精确。新闻作为官方媒体,其真实性和权威性较高,内容比较规范,事件发现较为准确,但因为新闻数量较少,对于突发事件检测任务来说,时效性较低。现有的方法只针对一种媒体的数据进行挖掘,无法规避掉该媒体的数据所固有的缺点。本文提出一种方法,将微博和新闻2种媒体的数据进行融合,在满足突发事件检测的时效性的同时,提升了突发事件检测的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号