首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 750 毫秒
1.
基于我国新冠肺炎疫情期间27万余条新闻报道数据,利用语义分析、社会网络分析与聚类分析等方法,借助新兴可视化工具,从时间、空间维度展开新闻舆情主题和情感研究.研究发现,新闻主题起初以疫情信息为主,中期政府举措与社会影响占比上升,后期各类主题呈现平衡态势,反映了新闻主题从集中到发散的过程;新闻情感呈现随时间推演逐渐好转的总体趋势,显示出我国在抗击疫情中及时有效的调控能力;新闻空间方面,新闻报道的情绪表现及热点主题以湖北省为中心向周边扩散,体现了公共卫生事件的地域关联特征.该研究能为今后相关突发公共卫生事件的新闻报道提供借鉴,使相关管理部门更科学地引导新闻舆论.  相似文献   

2.
基于新冠疫情时代海外侨情危机事件频发,提出一种基于自动化信息要素抽取的新闻事件类型识别方法,对后疫情时代侨情新闻事件进行智能危机类别划分.首先,利用爬虫技术获取特定时间段的相关侨情事件新闻,进而采用信息抽取模型对语料数据进行信息要素抽取;然后,根据要素集的取值判断每条新闻的危机事件类型;最后,对2020年1月-8月的侨情新闻数据进行实证研究.结果表明:该方法不但能提升侨情分析的效率,还能进行多维度的危机状况信息可视化,有助于制定危机事件应对策略.  相似文献   

3.
针对新闻的个性化服务差及推荐效率低的问题,提出了一种新闻事件的分布式混合推荐算法.该算法改进了传统的层次聚类算法用于新闻事件发现,通过协调簇中心距离和簇间最远距离的权重解决了传统层次聚类中的大簇问题;使用混合推荐算法进行事件推荐,引入了事件的多重特征来计算用户兴趣模型,更准确地表示用户的兴趣偏好;采用Spark分布式计算平台实现该算法,可处理大数据的个性化推荐问题.在公开数据集上的实验结果表明本文方法有效.   相似文献   

4.
本文针对面向媒介和传播学研究的中文新闻事件数据构建任务进行探索,利用自然语言处理、深度学习和无监督聚类等技术,构建了一套开放性的新闻事件提取框架。构建中文新闻事件数据库的过程可以概括为将原始的新闻文本进行处理,然后进行句法分析和语义角色识别,从中提取三元组,再提取动词并转换为向量表示,之后通过降维和聚类结合人工标注形成结构化数据,最后提出了事件重要性得分以评估新闻中事件的分布情况。利用《人民日报》的新闻数据进行了实验,验证了本文研究的理论与实践价值。  相似文献   

5.
在大数据背景下,互联网每天都能产生大量的舆情信息,如何从大量的舆情信息中及时发现热点事件,有利于政府及时监控相关热点事件的发展趋势,对网民进行舆论导向的引导,减少舆情信息对社会的不良影响,保护网民的权益,促进社会的稳定.本文针对目前网络舆情热点事件发现模型存在的一些问题,提出了一个基于时间序列的排序模型用于发现热点事件,该模型采用影响热点事件的相关因素作为评价指标,并且指标的相关数据全部为客观数据,有利于模型评价的客观性.为了求解该模型,首先采用熵权法确定模型中指标的权重,然后提出将TOPSIS法和灰色关联法以相对贴近度的形式结合起来进行计算,以判断方案的优劣,最后通过实验验证,和其他热点事件发现算法进行对比,最终得出该方法具有比较好的客观性和准确性.  相似文献   

6.
将评论作为主要研究对象,提出了一种基于事件的新闻客户端热门评论预测框架。为了解决单个新闻客户端数据稀疏的问题,利用新闻客户端的聚集性来挖掘事件;通过建立事件背景解决了使用单条新闻进行预测带来的冷启动问题;框架内部各模块关系完全松耦合,能够依据不同的事件粒度进行在线的热门评论的预测。最后通过实例实验证明,使用框架中提出的联合客户端数据的事件挖掘策略,能够很好地避免单个客户端中数据稀疏的问题,同时证明基于事件进行热门评论框架的效果要优于单纯使用评论本身。  相似文献   

7.
网络舆论对人们生活的影响程度与日俱增,通过结合多源数据进行事件发现可以更好地捕捉舆情事件,提高舆情系统的效果。针对在多源文本场景下如何将来自新闻、微博、微信等多通道的数据融合,文章根据事件的定义,提出了事件核心实体的概念,设计了事件核心实体识别方法,并且将事件核心实体应用到事件发现过程,提出了结合实体的事件发现方法 ESP(Entity Single-Pass)。该方法通过引入实体信息,丰富了多源文本中每篇文档的表达,从而提高了多源文本事件发现的效果。实验表明,在微博、新闻等数据上,我们的方法与K-means和SinglePass方法相比,在NMI与RI两项指标上分别提高了0.2和0.3,证明了ESP算法的有效性。  相似文献   

8.
新闻事件主题句识别任务是一项基于文本内容进行语义分析的自然语言处理技术。为准确计算新闻事件文本中与新闻主题语义最相关的句子,提出一种基于图的新闻事件主题句抽取方法。首先利用描述事件特征的触发词及命名实体构建候选新闻事件句子抽取模板,然后,计算候选事件句之间的关联关系构建事件关系无向图,最后基于TextRank算法思想将图中任意顶点的权值表征为与其有关联的顶点权值的加权和,并按权值进行排序实现事件主题句抽取。实验结果表明,提出的方法优于基于TFIDF和基于标题的事件主题句抽取方法,F值分别提升了6.26%和2%。  相似文献   

9.
本文提出一种基于突发词聚类的跨媒体突发事件检测方法。根据事件分析,发现微博具有文本丰富、用户活跃度高、在突发事件检测中具有速度快且高效的特点,但是由于微博文本长度较短,内容过于随意,使得事件发现的结果不够精确。新闻作为官方媒体,其真实性和权威性较高,内容比较规范,事件发现较为准确,但因为新闻数量较少,对于突发事件检测任务来说,时效性较低。现有的方法只针对一种媒体的数据进行挖掘,无法规避掉该媒体的数据所固有的缺点。本文提出一种方法,将微博和新闻2种媒体的数据进行融合,在满足突发事件检测的时效性的同时,提升了突发事件检测的准确率。  相似文献   

10.
有效预测舆情事件的热点内容有利于提高对舆论导向的把控能力和对公众诉求的预判能力. 然而,现有的舆情预测工作大多关注事件整体趋势指标或情感极性的演变预测,鲜有针对舆情事件热点内容的预测研究. 为解决以上问题,本文提出一种基于时间演化图卷积网络的舆情热点内容预测方法:以舆情事件的热点词作为预测对象,首先,通过演化图卷积网络学习各时间片词语的空间关联关系;然后,使用门控循环单元捕捉各时间片词语特征的时序变化;最后,通过全连接层进行输出,实现对舆情事件热点词的预测. 以微博上两个不同的舆情突发事件的相关文本作为数据集,与两种现有热点词预测方法开展对比实验. 实验结果表明,该方法在两个数据集上的精确率分别达到51.21%和50.98%,召回率分别达到50.17%和48.15%,F1值分别达到50.68%和49.52%,均高于两种对比方法,能够更好地完成舆情事件中热点词的预测.  相似文献   

11.
如何从海量微博数据中挖掘出有意义的信息,理解热点事件发生的全过程,并发现其中的拐点事件,显得越来越重要.传统的单一依靠词频的方法缺乏对子话题的抽象描述,因此存在一定的局限性.为此结合主题提取和词频统计的技术,提出了一种交互式可视分析方法,对热点事件子话题的演化过程进行不同粒度的展示;再通过比较相邻时间区间子话题词分布的变化,发现关于某些子话题的拐点事件,进而利用词项共现图在微博原文中找到具体信息.这里,用户可以在交互过程中发现最优的参数配置,从而更加有效地分析拐点事件,并理解热点事件发生的全过程.在真实的数据集上进行了实验,并与传统的基于词频的方法和基于主题变化趋势的方法做比较,结果验证了该方法的有效性.  相似文献   

12.
中文新闻事件检测的主要任务是从大量新闻中自动检测出潜在的新事件。人工构建事件特征词进行检测费时费力。单纯依靠密度聚类或谱聚类方法进行事件检测,存在不同事件的触发词相关性高时,容易误判为同一事件。为此,提出基于卷积神经网络和K-means结合的中文新闻事件检测与主题提取,将新闻中的文本向量化,通过深度学习抽取文本深层特征。实验结果表明:所提方法构建的模型准确率、召回率优于单一聚类方法,可对中文新闻事件准确识别,快速检测新事件,提取新事件主题。  相似文献   

13.
新事件检测的目标是从一个或多个新闻源中检测出报道一个新闻话题种子事件的第一个新闻.本文面向新闻领域,研究了蒙古文新事件检测的相关方法.提出结合新闻内容相似度与新闻要素相似度进行新事件检测的方法.在新闻内容表示上,针对新闻的特点以及不同类型新闻表达词汇对传统的TF-IDF方法进行了改进.其次,提取出新闻的主要要素,包括时间、地点、主体、客体和主客体动作,计算了两篇新闻文档之间新闻要素的相似度.最后将新闻内容相似度与新闻要素相似度进行融合后进行相似度比较.实验结果表明,本文改进方法明显,性能比传统新事件检测系统有显著提升.  相似文献   

14.
为了解决对新闻文档人工分类繁琐的问题,本文采用文本挖掘方法对新闻专题进行组织和生成,对新闻事件进行探测与跟踪,然后进行相关新闻专题的归纳。本文还特别对生成的新闻事件如何进行组织和管理,以及得到专题事件的来龙去脉,做了较为详尽的描述,同时对新闻事件的检索方法做出 一些探索性的工作。  相似文献   

15.
事件是比"概念"粒度更大的知识表示单元,更符合人类的认识过程.事件作为新闻文本的知识单元,结合新戴维森事件语义和6要素事件模型,给出了一个新的事件形式化表示方法;扩展不同的操作算子给出了修饰事件要素的模糊信息、对象、时态与环境的形式化表示方法;使用描述逻辑方法描述了事件对象要素中的概念,给出了新闻文本中事件关系形式化的表示方法.实例表明,该方法能够较好地表示新闻文本中的事件语义.  相似文献   

16.
针对目前构建新闻脉络链只关注新闻脉络链的主题相似性和文档重要性, 而忽略新闻脉络链逻辑连贯性和可解释性的不足, 以及新闻数据集合指数级增长带来的算法复杂度问题, 从词覆盖的角度提出一种新闻脉络链构建方法, 利用新闻的评论信息来定位新闻事件转折点, 用主题相似与稀疏差异的思想以及RPCA 方法对文档进行逻辑建模, 利用随机游走以及图遍历的方法, 量化并生成可解释且具有很好逻辑连贯性的脉络链。双盲实验表明, 与其他算法相比, 该方法取得较好的效果。  相似文献   

17.
随着互联网的广泛应用,聚集了海量的文本数据,内含丰富的时空信息。面向文本的时空信息挖掘成为当前地理信息科学(Geographical Information Science, GIS)的研究热点,不断涌现出各种以自然语言处理(Natural Language Processing, NLP)技术为基础的挖掘方法。面向政务文本数据,对其进行事件级的时空模型建模,目的实现政务文本数据在事件级的简单分类、构建文本数据的结构化表达模型、探究事件级中时间空间的关系。实验证明,该模型对比之前的事件模型能更好地概括政务文本中的关键信息,针对于政务文本的结构化表达效果理想。  相似文献   

18.
基于区间删失数据建模是当前复杂数据分析的热点之一。本研究在两类区间删失数据下建立Weibull比例优势模型,基于极大似然估计给出了模型参数,进一步讨论了估计量的渐近性质。数值模拟验证了模型参数的估计效果,并将提出的模型及方法应用到艾滋病临床试验数据和肺肿瘤试验数据中,给出了感兴趣事件的生存函数曲线,通过与生存函数的非参数极大似然估计比较,表明所提方法具有较好的拟合效果。  相似文献   

19.
中文新闻关键事件的主题句识别   总被引:2,自引:0,他引:2  
提出在单文档中通过提取主题句以获取关键事件信息的思想。根据新闻的体裁特点, 分析了新闻报道与事件的关系, 以及新闻标题在内容、形式和语言方面的特征。提出利用标题的提示性信息提取主题句来描述新闻关键事件的方法。该方法首先对新闻标题按信息含量进行分类, 然后结合新闻句子的词频、长度、位置、与标题的相似度等特征计算句子的重要性。实验表明, 该方法能够准确提取新闻主题句, 为进一步抽取事件信息打好了基础。  相似文献   

20.
海量新闻文本中往往涉及多个实体,并蕴含复杂多样的事件.为了挖掘这些实体、事件信息,先前的以事件为中心的事件抽取方法大多先检测事件,再抽取事件论元.受限于触发词和事件识别,该方法无法应用于真实工业场景下的新闻事件抽取.考虑到命名实体识别(named entity recognition, NER)的性能达到90%以上,提出了以目标实体为视角的事件抽取任务—目标依赖的事件识别(target-dependent event detection, TDED),旨在抽取出实体并识别其对应的事件.基于该任务,提出了先抽取实体再识别目标级事件类型的两阶段模型框架.该模型融合了事件关键词和句法依存距离特征,能够学习目标依赖的上下文信息.在构建好的真实中文金融数据集上的实验结果表明,该模型抽取性能较佳,即使在句中存在多个实体或事件的复杂情形下也能取得很好的性能表现.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号