首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 500 毫秒
1.
李海峰 《科学技术与工程》2021,21(28):12185-12193
京津冀协同发展上升为国家战略,以报纸为代表的大众媒体对其进行密切而又广泛的报道。为了准确把握媒体报道主题的规律和特点,需要结合时间维度从大规模新闻文本的内容层面进行主题关联分析。以2014—2020年中国主流报纸媒体对京津冀协同发展的报道为研究对象,将数理统计、主题模型、主题关联和文本分析等方法相结合,分析了京津冀协同发展的主题分布、主题强度、主题关联关系,以"京津冀文旅产业协同发展"主题为例进行主题关联演化分析。结果表明:京津冀协同发展的报道主题呈多样化特点,报道时间分布规律与国家重要事件相契合,发现了政策宣传、产业转移和交通一体化等十大主题,说明新闻报道主题框架分布与国家政策推进重点相一致。研究结果进一步揭示了本文方法对国家战略新闻文本信息分析的有效性。  相似文献   

2.
以中国期刊全文数据库(CNKI)为数据来源,以“京津冀”协调发展为研究对象,利用词频挖掘和分析软件,对图书馆学、情报学和信息学研究论文的全文进行了主题词语的挖掘、整理和分析,阐述了3门学科在京津冀协调发展中的研究现状,探讨了3门学科研究的异同点及未来发展趋势。  相似文献   

3.
为了解决OLDA模型中的主题混合和新主题不能及时发现的问题,基于OLDA模型提出一种改进的在线LDA模型(improved online LDA,IOLDA)。该模型根据主题强度为每个主题设置不同的遗传度,提出一种新的主题强度度量方法,根据文档-主题分布的集中程度为文档设置不同的权值,该方法可以有效降低宽泛主题的强度得分;利用模型主题对齐的特点,采用Jensen-Shannon距离横向计算话题间的关联。实验结果表明:本文提出的方法能够有效地在线分析主题的演化。  相似文献   

4.
新兴主题识别是科技研究领域识别新兴技术的重要方式,高效精准地识别新兴主题是早期辨识新兴技术研究方向的前提.提出一种基于LDA模型的新兴主题识别与趋势预测方法,通过LDA模型提取科技文献中的研究主题,构建主题强度、主题新颖度和复合主题关注度的指标体系识别新兴主题,采用Prophet模型预测新兴主题的主题强度,探测未来发展趋势.以智慧农业领域最近14年的科研文献为数据集,对提出的识别和探测方法进行验证,识别出了5个新兴主题,并预测了未来3年的发展趋势,同时验证所提方法的有效性.  相似文献   

5.
以金融领域的科技文献作为实验数据,提出了一种新的用于动态挖掘领域相关的作者研究兴趣的复合主题演化模型。该模型能够获取作者在不同时间片下的主题概率分布以及主题下词汇概率分布,并充分考虑作者在合作作者文献中的排名对于其研究主题和主题变化的影响。通过金融领域的实证研究表明,该复合主题演化模型能够有效地揭示金融领域作者研究兴趣的动态变化。  相似文献   

6.
针对舆情话题演化中的话题漂移和衍生效应,提出基于时序主题信息的舆情话题演化分析方法并通过加入时序标签,对舆情热点话题内容和强度的演化过程进行了可视化.实例证明,该文提出的话题追踪算法能够有效探测出各阶段的舆情热点话题、分析舆情演化趋势,为突发事件发展态势的预测提供理论借鉴.  相似文献   

7.
随着智能终端的普及,文本的主题挖掘需求也越来越广泛,主题建模是文本主题挖掘的核心,LDA生成模型是基于贝叶斯框架的概率模型,它以语义关联为基础,很好地解决了文本潜在主题的提取问题。对文本聚类过程的核心技术LDA生成模型、数据采样、模型评价等作了较为深入的阐述和解析,结合网络教育平台的2 794篇学习刊物进行了主题发现和聚类实验,建立了包含3 800个词项的词库,通过kmeans算法和合并向量算法(UVM)分两步解决了主题聚类问题。提出了文本挖掘实验的一般方法,并对层次聚类中文本距离的算法提出了改进。实验结果表明,该平台刊物的主题整体相似度比较好,但主题过于集中使得许多刊物的内容不具有辨识度,影响用户对主题的定位。  相似文献   

8.
采用知识图谱分析工具绘制CSSCI数据库中京津冀协同研究文献的共被引图谱与关键词共现图谱,梳理京津冀协同发展领域的研究主题,探析研究热点与趋势。结果显示:该领域论文研究主要涉及京津冀协同发展战略与协同创新机理,京津冀地区的人口发展格局,京津冀地区环境保护、生态建设与生态补偿机制,京津冀城市群建设,以及政府合作与区域政策五大主题,今后京津冀协同发展将面临新时期新发展,"世界级城市群"、"协同创新"、"协同治理"等将成为新的研究热点。  相似文献   

9.
一种基于聚类分析的BBS主题发现算法研究   总被引:1,自引:1,他引:0  
针对已有的BBS论坛中有影响力主题计算方法的不足,提出了一种基于聚类分析的主题发现方法,其思想是借助潜在语义分析技术计算回帖之间的相似度,综合时间、空间因素,对主题进行聚类,发现主题并加以实现.  相似文献   

10.
主题模型可以学习用户和推荐项目的潜在主题分布。提出了一种基于双向主题模型的协同过滤算法,分别学习用户和推荐项目的潜在主题分布用于推荐服务。在真实的数据集上实验验证,该算法的性能均优于几个经典的协同过滤算法。  相似文献   

11.
基于LDA话题关联的话题演化   总被引:2,自引:0,他引:2  
话题演化可以帮助人们快速获取信息和了解趋势.提出了一种挖掘话题随时间变化的方法,通过话题抽取和话题关联实现话题的演化.对不同时间段的文集进行话题的自动抽取,话题数目在不同时间段是可变的;计算相邻时间段中任意2个话题的分布距离和话题的特征向量相似度实现话题的关联.实验结果证明,该方法不但可以描述同一个话题随时间的强度变化,还可以描述新话题的产生,旧话题的消失以及话题内容随时间的演化.  相似文献   

12.
基于局部和全局的LDA话题演化分析   总被引:1,自引:0,他引:1  
章建  李芳 《上海交通大学学报》2012,46(11):1753-1758
对话题演化进行形式化描述,探讨了基于全局和局部话题演化的2种建模方式,并应用话题相似度和困惑度进行评测.对房地产话题和奥运会话题进行实例分析,给出了2种不同建模方法在话题演化方面的优缺点.两会报告实验结果表明,全局话题演化能够获得较好的模型参数,方法简单可靠;而局部话题演化则能产生细粒度话题,反映新话题的产生和旧话题的消亡.  相似文献   

13.
一种结合有监督学习的动态主题模型   总被引:1,自引:0,他引:1  
针对传统主题模型存在的不足, 提出一种新的结合有监督学习的动态主题模型(Supervised Dynamic Topic Model, S-DTM)。该模型不仅能够随时间的变化对语言进行动态建模, 而且结合有监督学习技术, 在主题变分推理中加入标签约束, 从而建立主题与标签之间的映射关系, 提高主题的表达解释能力。通过在一个跨越25年“以自然语言处理领域的中文期刊论文为主导”的中文语料库上的实验, 证明该模型相较于静态的有监督主题模型和无监督的动态主题模型, 具有更好的语义解释概括能力, 能更准确地反映文档的主题结构, 更精确地捕捉主题?词汇概率分布的动态演化。  相似文献   

14.
利用新闻事件的话题、实体及其关联和发展趋势分析, 建立对新闻事件分析报告模型。该模型可以从多个角度描述新闻事件, 并依照新闻综述报告的写作特点, 制定出一种计算机自动分析报告生成的框架, 对新闻事件在话题和实体上的分析结果进行组合, 自动生成一篇观点分析透彻、图表信息生动准确的新闻事件分析报告。  相似文献   

15.
文章以话题检测与跟踪技术的理论为指导基础,建立向量空间模型的话题模型.结合演化理论对社区内话题的生命周期进行检测与跟踪,度量话题的强度,以描绘出话题的演化过程及趋势.研究藏语网络社区的话题演变,可便更加快捷方便地了解社区动态.  相似文献   

16.
针对相似话题难以区分的问题,提出了基于层叠模型的话题检测方法.该方法以Single-Pass聚类策略为基础,将新闻实体信息运用到话题检测中,改进时间相似度和地点相似度的计算方法,在底层利用文本内容相似度完成话题检测的任务,在高层结合时间相似度和地点相似度完成话题检测的任务.实验结果表明,该方法的性能优于传统的文本相似度算法.  相似文献   

17.
基于许多初学者在发表期刊论文投稿时由于选题不好而未获发表的现实,文章从选题来源、期刊的制约、选题的原则方法和路径以及要处理好的几个关系等方面进行了系统探讨.文章指出:期刊论文选题不仅是自我研究的需求,也是期刊的需求;作者应当从自我科研需求出发,结合期刊特点,严格依据学术规范确定期刊论文的选题,以达到事半功倍的效果.  相似文献   

18.
基于FIFA的主题相似性计算模型   总被引:2,自引:0,他引:2  
针对主题检测和追踪的第五个技术任务连接分析,提出了一种事件主题相似性分析技术·通过引入领域知识库,将基于词汇的分析技术提升到领域知识计算层面·当输入不同两个文档时,采用该分析技术进行识别文档内容所涉及到的事件主题是否一致·首先采用FIFA模型进行内容主题识别,然后采用LDM模型进行事件主题相似性计算分析·实验结果显示主题相似性计算正确率为64%,召回率为69%·  相似文献   

19.
如何通过有效的数据挖掘对互联网教育平台中的课程主题进行挖掘、聚类是当前互联网教育亟待解决的问题之一。实验基于文本信息对某互联网教育平台的1 472门课程体系的主题分布及类别进行了分析。采集了某平台1 472门课程的描述信息,进而通过自建词典和停用词库对文本进行切词分词,并通过TF-IDF对词频权重进行处理。利用LDA主题模型对课程的主题分布进行识别,发现了230个主题,并得到了每门课程在这230个主题下的文档–主题分布以及主题–词分布。进一步基于分布相似性函数对课程进行层次聚类,发现基于不同抽象层次主题的课程相互关联。最后将16个主题信息进行了可视化,这些主题分别从内容和数量两个角度反映出了课程的主题特征以及课程的聚合分布情况。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号