首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对现有的主题模型不能随时空情境准确反映主题的周期变化和空间分布的问题,根据互联网信息通常包含发布时间地点等情境数据的特点,提出一种用于主题跟踪的时空情境主题模型.首先将数据集的多主题分布与时空信息关联起来建立时空情境主题模型,对主题周期和强度进行描述;然后通过EM算法估计模型参数,利用该参数分别计算主题快照和主题周期;最后利用时序相似度计算判断后续主题信息,实现主题跟踪.食品安全事件主题跟踪的实验表明:与单纯依赖文本特征的主题跟踪方法相比,文中提出的方法能够明显提高跟踪效率和多个主题的跟踪准确性,这有助于进一步实现精准的主题信息检索.  相似文献   

2.
在线新闻主题检测系统的设计与应用   总被引:3,自引:0,他引:3  
利用主题检测技术可以从海量新闻信息中实时检测到主题信息,从而将新闻信息按照主题组织并加以利用.文中通过改进加窗策略,采用自适应倒排文档频率,设计了一个中文新闻主题检测系统并进行了实验.结果表明了该系统的有效性.该系统在新华网数据中心的成功应用进一步表明系统达到了实用需求.  相似文献   

3.
李海峰 《科学技术与工程》2021,21(28):12185-12193
京津冀协同发展上升为国家战略,以报纸为代表的大众媒体对其进行密切而又广泛的报道。为了准确把握媒体报道主题的规律和特点,需要结合时间维度从大规模新闻文本的内容层面进行主题关联分析。以2014—2020年中国主流报纸媒体对京津冀协同发展的报道为研究对象,将数理统计、主题模型、主题关联和文本分析等方法相结合,分析了京津冀协同发展的主题分布、主题强度、主题关联关系,以"京津冀文旅产业协同发展"主题为例进行主题关联演化分析。结果表明:京津冀协同发展的报道主题呈多样化特点,报道时间分布规律与国家重要事件相契合,发现了政策宣传、产业转移和交通一体化等十大主题,说明新闻报道主题框架分布与国家政策推进重点相一致。研究结果进一步揭示了本文方法对国家战略新闻文本信息分析的有效性。  相似文献   

4.
面向信息处理的突发事件新闻语料库建设与应用研究   总被引:1,自引:0,他引:1  
研究了突发事件新闻语料库建设的过程、意义和典型应用,提出了突发事件新闻语料的分类体系和编码方案.研究结果对突发事件新闻语料库的建设、突发事件新闻信息处理、国家相关部门对突发事件应急处理方案制定以及对流行病学的医学研究等领域具有一定的理论意义和应用价值.  相似文献   

5.
使用JST模型对中文新闻文本进行情感分析,相对于评论文本,新闻文本主观性比较弱,而且大多是长文本,会影响JST模型的分类性能.给出一种抽取情感主题句的方法,将抽取得到的情感主题句结合现有的JST模型对新闻文本的情感倾向进行了分析.实验表明,使用情感主题句进行情感分析,避免了与主题情感无关的句子对分析结果的影响,提高了分类准确率.  相似文献   

6.
张冰 《科技资讯》2011,(17):240-240
如何写出一篇好的新闻作品,不仅要求记者要有过硬的基本功,更要有敏锐的洞察力,对发生的新闻事件进行深入挖掘,选准主题,提炼好主题,表现好主题,这样才能写出新闻精品。  相似文献   

7.
基于我国新冠肺炎疫情期间27万余条新闻报道数据,利用语义分析、社会网络分析与聚类分析等方法,借助新兴可视化工具,从时间、空间维度展开新闻舆情主题和情感研究.研究发现,新闻主题起初以疫情信息为主,中期政府举措与社会影响占比上升,后期各类主题呈现平衡态势,反映了新闻主题从集中到发散的过程;新闻情感呈现随时间推演逐渐好转的总体趋势,显示出我国在抗击疫情中及时有效的调控能力;新闻空间方面,新闻报道的情绪表现及热点主题以湖北省为中心向周边扩散,体现了公共卫生事件的地域关联特征.该研究能为今后相关突发公共卫生事件的新闻报道提供借鉴,使相关管理部门更科学地引导新闻舆论.  相似文献   

8.
针对舆情话题演化中的话题漂移和衍生效应,提出基于时序主题信息的舆情话题演化分析方法并通过加入时序标签,对舆情热点话题内容和强度的演化过程进行了可视化.实例证明,该文提出的话题追踪算法能够有效探测出各阶段的舆情热点话题、分析舆情演化趋势,为突发事件发展态势的预测提供理论借鉴.  相似文献   

9.
目前基于新闻内容的假新闻检测方法没有考虑到不同模态更高层的语义关联,缺少可以依据的信息对新闻进行判断,从而缺乏对有重要辨别特征的新闻的社交网络信息进行有效使用.针对这个问题,提出了基于新闻内容的假新闻检测方法,通过提取文本、图像和视频等多模态新闻的高层语义特征,分析不同模态高层语义信息,设计跨模态主题一致性和跨模态情感一致性计算方法 .在此基础上,设计了一种跨模态内容语义一致性的假新闻检测模型MMCSC(multi-modal feature content semantic consistency).实验证明,相比于传统方法,所提出的MMCSC有较好的检测效果.  相似文献   

10.
介绍面向侨务信息主题搜索引擎的工作原理和体系结构,根据侨务信息的特征对网页进行侨务信息的识别.针对主题式搜索,提出一种优化的,基于历史反馈(BHF)的搜索策略,并对该搜索策略进行实验测试.结果表明,以该方法设计的面向侨务信息主题的搜索引擎系统,具有较高的搜索速度与识别精度.  相似文献   

11.
我国的新闻发言人制度始于20世纪80年代,经历30余年的发展后,目前已形成中央、省部级和地方三级新闻发言人体制。文章以突发事件的应对为切入点,提出完善政府新闻发言人制度,应加快政府新闻发言人制度立法,以法律的形式确定政府及其新闻发言人的权力与义务,完善新闻发言人问责制度;完善危机信息收集机制,提高政府对突发事件信息的收集和发布水平;加强政府新闻发言人团队建设,提高政府新闻发言人媒体沟通素养。  相似文献   

12.
LDA可以实现大量数据集合中潜在主题的挖掘与文本信息的分类,模型假设,如果文档与某主题相关,那么文档中的所有单词都与该主题相关.然而,在面对实际环境中大规模的数据,这会导致主题范围的扩大,不能对主题单词的潜在语义进行准确定位,限制了模型的鲁棒性和有效性.本文针对LDA的这一弊端提出了新的文档主题分类算法gLDA,该模型通过增加主题类别分布参数确定主题的产生范围,提高分类的准确性.Reuters-21578数据集与复旦大学文本语料库中的数据结果证明,相对于传统的主题分类模型,该模型的分类效果得到了一定程度的提高.  相似文献   

13.
高校公共突发事件具有冲动性、集中性、隐蔽性和辐射性的特点,校园网络的发展规律和自身特性使其对校园公共突发事件的影响日益增强,必须通过构建校园网络信息的收集跟踪机制、及时发布机制、组织领导机制、和谐互动机制、宣传主导机制和对话交流机制,加强对网络信息的主导和引导.  相似文献   

14.
基于HTML标记信息的主题相关性判定方法   总被引:1,自引:0,他引:1  
从目前互联网的信息发展现状出发,讨论了在信息采集过程中判断要采集的网页与主题的相关性,给出了一个基于HTML标记信息的主题相关性判定模型和算法实现.通过对试验数据分析,算法显示较好性能.  相似文献   

15.
中文新闻事件检测的主要任务是从大量新闻中自动检测出潜在的新事件。人工构建事件特征词进行检测费时费力。单纯依靠密度聚类或谱聚类方法进行事件检测,存在不同事件的触发词相关性高时,容易误判为同一事件。为此,提出基于卷积神经网络和K-means结合的中文新闻事件检测与主题提取,将新闻中的文本向量化,通过深度学习抽取文本深层特征。实验结果表明:所提方法构建的模型准确率、召回率优于单一聚类方法,可对中文新闻事件准确识别,快速检测新事件,提取新事件主题。  相似文献   

16.
采用计算向量之间相似度的方法, 通过实验分析验证了表格信息在主题爬行中的重要性. 研究结果表明, 与整个网页相比, 表格所能提供的与用户相关的信息占整个网页信息总量的80%以上, 因而在主题爬行领域可以充分利用这一结论进行网页解析. 在舍弃除表格和标题之外的其他元素后, 提高了爬行程序的效率.  相似文献   

17.
汝霞 《科技信息》2012,(6):434-434
自进入21世纪以来,突发事件频发,对新闻媒体提出了严峻的考验。本文从突发事件的新闻价值入手,对突发事件的新闻报道策略进行了思考:报道中应坚持正确的舆论导向,强化责任意识,以广大受众的信息需求和根本利益为出发点和落脚点;创新报道方式,加强对突发事件的舆论监督工作。  相似文献   

18.
为了解决短文本的语义稀疏和特征信息难以提取问题,本文提出了一种基于深度学习的短文本分类方法.首先通过增加自注意机制的双向BiLSTM通道获取短文本特征词向量,引入外部CN-DBpedia知识库KBs来深度挖掘短文本语义,解决语义稀疏问题.其次通过BTM主题模型在短文本数据集上提取主体信息,为了得到准确的词向量拼接引入了超参数δ.最终将所得的特征词向量以及知识向量运用语义余弦相似度计算并拼接向量,将得到的拼接结果与主题信息通过Softmax分类器中进行分类.在中国微博情感分析数据集、产品评价数据集、中文新闻标题数据集、Sogou新闻数据集上进行实验.与TextCNN、TextRNN、TextRNN_Att、BiLSTM-MP、KPCNN算法相比,分类准确性有一定提高.  相似文献   

19.
基于SVM预测的金融主题爬虫   总被引:2,自引:2,他引:0  
随着Internet上信息的爆炸,利用通用搜索引擎检索用户相关的信息变得越来越困难,而主题爬虫成为WEB上检索主题相关信息的重要工具.目前大部分基于分类器预测的主题爬虫的训练数据是不同类别网页的内容,但是在实际预测过程只能根据父网页中的一些链接信息进行预测,所以造成主题爬虫的预测的准确率较低.本文使用SVM分类器对标注了类别的URL以及上下文和锚文本进行训练,并分别使用了DF和信息增益两种不同的特征选择方法进行特征筛选,对影响分类器的各种因素进行了实验对比,并对分类器进行了在线的实验.实验证明这种方法在实际预测过程中效率很高.  相似文献   

20.
基于综合方法的文本主题句的自动抽取   总被引:2,自引:0,他引:2  
提出了基于综合方法的主题句的提取方法,并着重讨论了文本主题概念的提取以及相应的权值体系.根据概念间的相互关系,对同义概念进行语义归并,对上下位概念进行语义聚焦,模拟人工标引专家在分析文本主题时的“兼顾各个方面的主题,同时又有所侧重”的原则.在调整文本主题上下位概念的权值时,既考虑下位概念对上位概念的增强作用,同时又考虑到这种调整不影响整个文本主题的分布,从而更精确地抽取出文本的主题概念.采用多种权重度量方式,综合评估句子反映主题的价值.在此基础上,采用主题句选择算法将文本的主题数与所抽取的主题句的数量关联在一起,保证每一个主要的主题都有对应的主题句被选中,并解决主题句的去重问题,从而进一步提高所抽出主题句的主题覆盖性和概括性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号