首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为防范舆情风险,分析网络舆情的细粒度演化,提出一种去冗余的衍生事件内容关联演化分析框架。通过文本挖掘技术从海量文本流中提取主要的衍生事件,将舆情内容压缩到人工可判读的数量级;利用词移距计算相邻两个时间片上的衍生事件相似度,构建反映演化关系的衍生事件链图。以“上海特斯拉自燃”事件为例进行事件链演化分析,得到微博网络舆情事件发展不同阶段涉事主体在各个衍生事件中的话题转移关系,最后鲁棒性分析的结果验证了该分析方法具有降低微博短文本冗余信息的能力,提高了事件演化关联识别分析的准确性。该研究方法为舆情事件的事后复盘、同类舆情事件的预判和介入、衍生事件的科学研判提供了决策支持。  相似文献   

2.
本文提出一种基于突发词聚类的跨媒体突发事件检测方法。根据事件分析,发现微博具有文本丰富、用户活跃度高、在突发事件检测中具有速度快且高效的特点,但是由于微博文本长度较短,内容过于随意,使得事件发现的结果不够精确。新闻作为官方媒体,其真实性和权威性较高,内容比较规范,事件发现较为准确,但因为新闻数量较少,对于突发事件检测任务来说,时效性较低。现有的方法只针对一种媒体的数据进行挖掘,无法规避掉该媒体的数据所固有的缺点。本文提出一种方法,将微博和新闻2种媒体的数据进行融合,在满足突发事件检测的时效性的同时,提升了突发事件检测的准确率。  相似文献   

3.
命名实体在文本中是承载信息的重要单元,而微博作为一种分享简短实时信息的社交网络平台,其文本长度短、不规范,而且常有新词出现,这就需要对其命名实体进行准确的理解,以提高对文本信息的正确分析。提出了基于多源知识的中文微博命名实体链接,把同义词词典、百科资源等知识与词袋模型相结合实现命名实体的链接。在NLP&CC2013中文微博实体链接评测数据集进行了实验,获得微平均准确率为92.97%,与NLP&CC2013中文实体链接评测最好的评测结果相比,提高了两个百分点。  相似文献   

4.
文章以2012年宁波镇海PX项目事件舆情在微博上的传播为实例,通过调查问卷并结合网络舆情监测数据分析,研究了突发事件中微博舆情的传播规律和作用,网民的微博传播行为特点、观点倾向性以及网络生态环境;提出了应对突发事件舆情的策略。  相似文献   

5.
本体语义理论提出了一套计算机处理文本语义的方法,建立了语义处理的理论架构。在此基础上可以产生多种应用,知识查询就是其中一种,以语义查询代替了关键字查询。本体语义所具有的静态知识源的以文本意义表征(TMR)为核心,将事件和对象通过语义关系链接起来,在此基础上进行查询推理更能够发挥语义的作用,并且能够自主学习,根据语义框架、预设、效果等挖掘出隐含知识。文章设计了基于本体语义知识查询系统和相关推理算法,根据真实的西藏领域新闻文本建立相关知识源,依靠本体映射消除歧义,通过事件和对象间的属性值对将数据关联起来,获得查询推理结果。还提出在数据密集型科学范式背景下加入数据驱动的研究方法,更能有效促进二者的结合,改进查询效果,提供知识服务。  相似文献   

6.
分析了微博短文本的专有特征,介绍了微博短文本的预处理流程.以新浪微博为网络舆情数据获取平台,简述了微博文本分类处理实现过程,基于Hadoop进行了网络舆情微博分类设计,为网络舆情监控任务的完成做数据依据.  相似文献   

7.
有效预测舆情事件的热点内容有利于提高对舆论导向的把控能力和对公众诉求的预判能力. 然而,现有的舆情预测工作大多关注事件整体趋势指标或情感极性的演变预测,鲜有针对舆情事件热点内容的预测研究. 为解决以上问题,本文提出一种基于时间演化图卷积网络的舆情热点内容预测方法:以舆情事件的热点词作为预测对象,首先,通过演化图卷积网络学习各时间片词语的空间关联关系;然后,使用门控循环单元捕捉各时间片词语特征的时序变化;最后,通过全连接层进行输出,实现对舆情事件热点词的预测. 以微博上两个不同的舆情突发事件的相关文本作为数据集,与两种现有热点词预测方法开展对比实验. 实验结果表明,该方法在两个数据集上的精确率分别达到51.21%和50.98%,召回率分别达到50.17%和48.15%,F1值分别达到50.68%和49.52%,均高于两种对比方法,能够更好地完成舆情事件中热点词的预测.  相似文献   

8.
随着微博等社交平台的兴起,如何针对微博数据进行产品命名实体识别成为了自然语言处理领域研究的热点之一,也是实现舆情监督和商业智能的基础.传统的命名实体识别技术没有考虑中文微博口语化、不规范等特点,且忽略了深层语义对命名实体识别的重要作用.因此,考虑中文微博的特殊性,提出一种融合全局上下文信息的词向量特征选择方法,分别采用主题模型和神经网络词向量聚类两种方法获取深层语义信息,并结合层叠条件随机场进行中文微博的命名实体识别.实验结果表明,基于词向量聚类的中文微博产品命名实体识别方法取得了较好的效果.  相似文献   

9.
近年来,网络媒体微博的迅速发展,为命名实体的识别研究提供了一种全新的载体.针对中文微博文本短、表达不清、网络化严重等特点,论文提出了一种规则与统计相结合的中文微博命名实体识别方法.该方法首先利用中文微博的主题标签对处理后的数据进行筛选,然后再选取合适的特征模板,并利用条件随机场模型(Conditional random fields, CRF)进行实体识别.为了满足实验要求,该文将传统网页爬虫方法与API接口采集方法相结合进行微博数据采集.实验结果表明,该方法能够有效提高中文微博命名实体的识别效果.  相似文献   

10.
中文微博命名体识别   总被引:1,自引:0,他引:1  
近年来微博的快速发展为命名体识别提供了新的载体,同时微博的特点也为命名体识别研究带来了挑战.针对微博特点,本文提出了基于拼音相似距离以及文本相似距离聚类算法对微博文本进行规范化,消除了微博的语言表达不规范造成的干扰.同时,本文还提出了篇章级、句子级以及词汇级三级粒度的特征提取,使用条件随机场模型进行训练数据,并识别命名体,采用由微博文本相似聚类获得的实体关系类对命名体类型进行修正.由于缺少大量的微博训练数据,本文采用半监督学习框架训练模型.通过对新浪微博数据的实验结果表明,本方法能够有效地提高微博中命名体识别的效果.  相似文献   

11.
当前互联网已成为公众获取信息、表达观点的重要平台,也带来社会舆情事件易发生的风险,通过对网络舆情走势的提前预测,能够准确判断热点事件的发展态势,为政府相关部门应对舆情危机提供参考.针对单一预测模型预测精度不高和社交媒体对舆情走势影响较大的问题,提出了融合微博热点分析和长短期记忆神经网络(LSTM)的舆情预测方法.利用网络爬虫和PyTorch机器学习平台构建了用于舆情时序数据分析的网络舆情预测系统;在此系统内,考虑微博的强时效性,采用网络热点分析技术计算微博热度分值;改进LSTM网络,设计由2个隐含层组成的MH-LSTM预测模型;将MH-LSTM模型用于舆情事件百度指数的定量预测中,通过试验验证了模型的正确性,证实了该预测模型拥有较好的预测效果.  相似文献   

12.
海量新闻文本中往往涉及多个实体,并蕴含复杂多样的事件.为了挖掘这些实体、事件信息,先前的以事件为中心的事件抽取方法大多先检测事件,再抽取事件论元.受限于触发词和事件识别,该方法无法应用于真实工业场景下的新闻事件抽取.考虑到命名实体识别(named entity recognition, NER)的性能达到90%以上,提出了以目标实体为视角的事件抽取任务—目标依赖的事件识别(target-dependent event detection, TDED),旨在抽取出实体并识别其对应的事件.基于该任务,提出了先抽取实体再识别目标级事件类型的两阶段模型框架.该模型融合了事件关键词和句法依存距离特征,能够学习目标依赖的上下文信息.在构建好的真实中文金融数据集上的实验结果表明,该模型抽取性能较佳,即使在句中存在多个实体或事件的复杂情形下也能取得很好的性能表现.  相似文献   

13.
基于图结构的文本表示方法在新闻文本去重中具有更好的效果.但是,目前该表示方法还不能完整地表示文本的全部信息,并且忽略了图的语义信息,降低了新闻文本的去重效果.为此,本研究提出基于事件异构图表示的文本去重算法,该算法首先通过事件异构图表示新闻文本的全局语义与结构信息,然后提出双标签图核算法表征事件异构图,实现深度表征图的结构及语义信息.实验结果表明,该研究提出的去重算法比现有的基于图结构的文本表示去重方法在F1-score指标上提升了10%.最后,该算法能提高新闻文本的去重效果.  相似文献   

14.
王阳 《创新科技》2016,(12):32-35
互联网的飞跃发展,既孕育着机遇,同时也带来了前所未有的挑战。网络舆情的特点使其成为一把双刃剑。为此,本文通过对微博文本的获取与处理,得到关于该微博热门话题的基于时间序列的离散数据序列,然后采用万有引力算法优化的RBF神经网络对微博舆情进行预测。通过微博舆情的时间序列进行实证研究,在预测性能上与现有的预测模型进行对比,证明该模型在该预测领域的可行性和有效性。  相似文献   

15.
事件触发词识别是事件抽取技术中核心任务之一,在面向微博的突发事件触发词识别中,提出一种基于扩展触发词表和多值分类模型(P-Multi模型)相融合的触发词识别方法,进行事件触发词识别。以多值分类模型以扩展触发词为基础,结合基于模式规则匹配,对文本进行潜在语义分析,进一步挖掘触发词语义信息,将模式匹配和语义分析融合在微博突发事件触发词识别之中。实验结果在触发词识别准确率、召回率上均有所提升,证明了该方法的有效性。  相似文献   

16.
微博投诉文本中地理位置实体通常存在结构复杂,长度较长,描述较详细的特点。通过对投诉微博文本的分析,提出了地理位置实体自动识别的方法。该方法首先利用特征资源库对微博进行特征标注,使用条件随机场(conditional random fields,CRF)模型识别地理位置实体。其次根据微博和地理位置实体的特点,对CRF识别后的数据进行二次标注。最后利用微博规则库对识别结果进行补召,修正地理位置实体,最终实现地理位置实体的识别。实验结果表明该方法有显著效果,F值可达到85.52%。  相似文献   

17.
目的自动从新浪微博中抓取含指定关键词的相关微博,通过对抓取的微博进行分析,得到相关舆情热点。方法首先通过多线程爬虫,自动爬取含有指定关键字的微博,将其保存于数据库中,再采用基于字符串匹配的逆向最大匹配法对微博进行分词,计算各分词项的TF-IDF权重作为文本聚类的输入数据,最后用k-means算法进行聚类分析,得出舆情热点。结果与结论这种方法能自动从新浪微博中抓取含指定关键词的相关微博,通过聚类分析,每一族的微博内容具有较高的一致性和共同的主题,由此可迅速找出热点舆情,对及时了解和引导舆情具有积极的意义。  相似文献   

18.
微博中热点话题,尤其负面情感热点话题对舆情的发现起到了重要作用,本文从情感的角度出发,提出了一个面向微博负向情感的热点事件发现模型。首先,在数据预处理阶段除了对微博文本中含有"@""#"的博文进行过滤,并引入户信息对休眠用户及僵尸用户进行了剔除;其次构造情感分类器,对博文进行情感分类,筛选出负向情感博文;然后根据词频和词语增长速度对主题词进行评价;接着根据词意相似度以及共现度对话题进行聚类;最后通过计算话题负向情感值对负向情感热点话题进行细粒度划分。  相似文献   

19.
自动摘要是自然语言处理中研究文本主题提取的重要课题.传统的摘要研究侧重于新闻、Web网页和博客等长文本的主题提取.本文关注以微博为代表的短文本的主题摘要,提出基于图结构的微博主题区域划分方法,并采用LDA方法提取微博热点事件的主题信息.最后,通过可视化方式展现主题内容在微博转发中的变化.  相似文献   

20.
目的 随着公众舆论数据的快速增长,社交网络文本情感识别在网络舆情监控中发挥着越来越重要的作用。由于文本数据的稀疏性、高维性和自然语言的复杂语义,情感分析任务面临巨大的挑战。方法 为提高网络舆情情感识别的效果,设计一种融合双向门控循环单元(BiGRU)和卷积神经网络(CNN)的情感识别模型。首先将社交网络文本转换成特征向量,然后通过BiGRU提取文本的上下文情感特征,最后通过CNN提取文本的局部情感特征,构建中文社交网络文本情感识别模型。结果 以新冠疫情期间网民的微博评论为数据集验证模型的可行性和优越性,模型的精确率、召回率和F1值分别达到86.6%、87.06%和86.85%。结论 实验结果表明,融合BiGRU-CNN的特征向量包含更加丰富文本的情感信息,能够有效提升网络舆情情感识别的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号