首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
京津冀协同发展是当前各学科领域共同关注的热点话题。为深入了解京津冀协同发展话题的研究趋势,以2009~2019年中国知网收录的14 235篇与京津冀协同发展相关的期刊论文为研究对象,采用概率主题模型方法,提出以困惑度、主题平均相似度为指标确定最优主题数,结合文献发表时间挖掘期刊论文潜在主题,从主题强度和主题相似度等多个角度分析主题演化趋势。通过数据分析,挖掘10个潜在主题,生成主题强度年度变化趋势,构建主题内容演化路径,分析主题演化规律。以期为深刻认识京津冀协同发展和科学决策提供理论依据。  相似文献   

2.
针对网络舆情分析的需求,给出了网络热点话题定义及其形式化描述,分析了流量内容中热点词语与热点话题的关系,提出了流量内容中热点词语的相关度计算算法.在此基础上,采用基于高密度连接区域的密度聚类方法得到热点词语簇,结合热点词语簇相关的网页标题及网站地址信息,得出网络热点话题的属性描述.实验结果表明,该算法能够有效获取当前网络中的热点话题,话题提取有效率达到16.7%,为网络热点话题传播特性研究提供了基础.与web挖掘、话题监测与跟踪方法相比,所提算法通过选取合适的数据源,能更大程度地还原网络用户行为,从而得到了更为准确的网络信息传播状况.  相似文献   

3.
食品安全问题一直是国民热切关注的话题,关系到社会的多个领域。为及时知晓食品安全领域关注的热点问题,对比了食品安全热点话题与其他热点话题在检测方法上的异同,构建了食品安全监理话题检测模型,运用聚类算法对食品安全数据进行文本挖掘来实现话题检测,并对食品安全数据进行分析。通过实验说明,采用Single-Pass算法的评价优于K-Means算法的评价,能够有效地对食品安全话题进行检测。  相似文献   

4.
传统热点检测算法仅从单一的某个维度衡量话题的热度,导致热点话题检测精度低,在对突发性热点话题进行检测时尤为明显。针对此问题,提出一种多维度热点话题度量模型。该模型对话题进行筛选,得到一个热点话题初始集,再融入话题热度的影响力因子,计算各个话题的综合权值,将话题的综合权值按照一定的权重与多维度热点话题度量模型进行有效融合,得到一种基于微博多维度及综合权值的热点话题检测模型。通过使用真实的微博数据进行实验对比分析,实验结果表明,提出的多维度热点话题度量模型在对突发性热点话题的检测中,其准确率(Precision)、召回率(Recall rate)和F1值(F-measure)3个评估指标相比传统算法有了较大提高;利用该模型对突发性热点话题进行跟踪,通过与官方指数进行对比,该模型能有效跟踪其发展趋势。  相似文献   

5.
利用新闻事件的话题、实体及其关联和发展趋势分析, 建立对新闻事件分析报告模型。该模型可以从多个角度描述新闻事件, 并依照新闻综述报告的写作特点, 制定出一种计算机自动分析报告生成的框架, 对新闻事件在话题和实体上的分析结果进行组合, 自动生成一篇观点分析透彻、图表信息生动准确的新闻事件分析报告。  相似文献   

6.
基于LDA话题关联的话题演化   总被引:2,自引:0,他引:2  
话题演化可以帮助人们快速获取信息和了解趋势.提出了一种挖掘话题随时间变化的方法,通过话题抽取和话题关联实现话题的演化.对不同时间段的文集进行话题的自动抽取,话题数目在不同时间段是可变的;计算相邻时间段中任意2个话题的分布距离和话题的特征向量相似度实现话题的关联.实验结果证明,该方法不但可以描述同一个话题随时间的强度变化,还可以描述新话题的产生,旧话题的消失以及话题内容随时间的演化.  相似文献   

7.
一种个性化的主题提取和层次发现算法   总被引:3,自引:0,他引:3  
从语义相关性角度分析超链归纳主题搜索(HITS) 算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,因此提出了一种个性化的主题提取和层次发现算法(PTDHE),通过个人查询日志扩展查询词,构造符合用户需要的个性化根集和基础集合,达到防止主题漂移的目的.PTDHE采用基于最小最大原则的图划分方法,层次地发现与用户查询相关的主题页面集合,利用HITS算法分别计算每个主题页面集合中页面的权威值,返回与查询相关的其他主题权威页面.在14个查询上的实验结果表明,与HITS算法相比,PTDHE算法不仅可以减少2%~66%的主题漂移率,而且可以发现与查询相关的多个主题.  相似文献   

8.
The procedure of hypertext induced topic search based on a semantic relation model is analyzed, and the reason for the topic drift of HITS algorithm was found to prove that Web pages are projected to a wrong latent semantic basis. A new concept-generalized similarity is introduced and, based on this, a new topic distillation algorithm GSTDA(generalized similarity based topic distillation algorithm) was presented to improve the quality of topic distillation. GSTDA was applied not only to avoid the topic drift, but also to explore relative topics to user query. The experimental results on 10 queries show that GSTDA reduces topic drift rate by 10% to 58% compared to that of HITS(hypertext induced topic search) algorithm, and discovers several relative topics to queries that have multiple meanings.  相似文献   

9.
在P2P网络结构中,提出一种基于主题划分的搜索策略(TONS),该策略基于主题将网络中的节点层次化、形成叠加网络.具体查询算法包括基于DHT的非结构化P2P网络和基于主题划分的叠加网络搜索索引结构.实验结果表明:包含相似主题的节点联系在一起,这样就能够确保将搜索局限在仅与查询主题相关的节点子集中.该策略为基于分布式哈希表的P2P系统提供了一种可满足复杂查询条件、部分匹配搜索数据要求的有效途径.  相似文献   

10.
李海峰 《科学技术与工程》2021,21(28):12185-12193
京津冀协同发展上升为国家战略,以报纸为代表的大众媒体对其进行密切而又广泛的报道。为了准确把握媒体报道主题的规律和特点,需要结合时间维度从大规模新闻文本的内容层面进行主题关联分析。以2014—2020年中国主流报纸媒体对京津冀协同发展的报道为研究对象,将数理统计、主题模型、主题关联和文本分析等方法相结合,分析了京津冀协同发展的主题分布、主题强度、主题关联关系,以"京津冀文旅产业协同发展"主题为例进行主题关联演化分析。结果表明:京津冀协同发展的报道主题呈多样化特点,报道时间分布规律与国家重要事件相契合,发现了政策宣传、产业转移和交通一体化等十大主题,说明新闻报道主题框架分布与国家政策推进重点相一致。研究结果进一步揭示了本文方法对国家战略新闻文本信息分析的有效性。  相似文献   

11.
追踪事件微博报道:一种流的动态话题模型   总被引:1,自引:0,他引:1  
为了解决微博中存在的话题漂移和大量噪声问题,提出了基于动态话题模型和微博信息熵相结合的流的动态话题模型。首先利用动态话题模型在整个追踪过程,从正反两个方面增强对追踪话题的描述,进一步克服了话题漂移问题。但由于微博中存在大量中间类微博,所以定义并使用微博信息熵来衡量一条微博对于话题报道的重要性,并将其扩展到动态话题模型中,用于区分新闻类和中间类微博。在超过17万用户的1 200万条微博上进行了话题追踪,实验结果表明,本文算法较之传统的动态话题模型更有效,追踪结果包含更少噪声。  相似文献   

12.
基于主题模型的中文词义归纳   总被引:1,自引:0,他引:1  
词义归纳是在给定包含多义词语料的条件下,识别出多义词词义的过程,通常是采用聚类的方法.本文提出了基于主题模型的方法来解决中文词义归纳问题,基于主题模型的词义归纳方法关键之处在于使用文档的主题概率分布来推断多义词的词义分布.实验结果表明,本文方法在测试数据上获得了77.58%FScore值.  相似文献   

13.
LDA主题模型是一种有效的文本语义信息提取工具,利用在文档层中实现词项的共现,将词项矩阵转化为主题矩阵,得到主题特征;然而在生成文档过程中会蕴含冗余主题。针对LDA主题模型提取主题特征时存在冗余的不足,提出一种基于邻域粗糙集的LDA主题模型约简算法NRS-LDA。利用邻域粗糙集构造主题决策系统,通过预先设定主题个数,计算出每个主题的重要度;根据重要度进行排序,将排序后重要度低的主题删除。将提出的NRS-LDA算法应用于K-means文本聚类问题上并与传统的文本特征提取算法及改进的算法进行比较,结果表明NRS-LDA方法可以得到更高的聚类精度。  相似文献   

14.
以金融领域的科技文献作为实验数据,提出了一种新的用于动态挖掘领域相关的作者研究兴趣的复合主题演化模型。该模型能够获取作者在不同时间片下的主题概率分布以及主题下词汇概率分布,并充分考虑作者在合作作者文献中的排名对于其研究主题和主题变化的影响。通过金融领域的实证研究表明,该复合主题演化模型能够有效地揭示金融领域作者研究兴趣的动态变化。  相似文献   

15.
本文运用文献资料法、数理统计法对2000—2007年我国186篇篮球硕士学位论文的选题进行统计分析和研究,总结归纳选题的特点,指出选题中存在的问题,并对未来选题方向进行了展望。  相似文献   

16.
基于局部和全局的LDA话题演化分析   总被引:1,自引:0,他引:1  
章建  李芳 《上海交通大学学报》2012,46(11):1753-1758
对话题演化进行形式化描述,探讨了基于全局和局部话题演化的2种建模方式,并应用话题相似度和困惑度进行评测.对房地产话题和奥运会话题进行实例分析,给出了2种不同建模方法在话题演化方面的优缺点.两会报告实验结果表明,全局话题演化能够获得较好的模型参数,方法简单可靠;而局部话题演化则能产生细粒度话题,反映新话题的产生和旧话题的消亡.  相似文献   

17.
一种结合有监督学习的动态主题模型   总被引:1,自引:0,他引:1  
针对传统主题模型存在的不足, 提出一种新的结合有监督学习的动态主题模型(Supervised Dynamic Topic Model, S-DTM)。该模型不仅能够随时间的变化对语言进行动态建模, 而且结合有监督学习技术, 在主题变分推理中加入标签约束, 从而建立主题与标签之间的映射关系, 提高主题的表达解释能力。通过在一个跨越25年“以自然语言处理领域的中文期刊论文为主导”的中文语料库上的实验, 证明该模型相较于静态的有监督主题模型和无监督的动态主题模型, 具有更好的语义解释概括能力, 能更准确地反映文档的主题结构, 更精确地捕捉主题?词汇概率分布的动态演化。  相似文献   

18.
互联网的迅速发展,数据不断增加,使得个性化数据的获取难度越来越大.主题爬虫作为一种垂直检索方式,已经成为一个热门研究领域.传统的主题爬虫往往是通过网页链接之间的关系下载网页,然后再计算下载的网页与给定主题之间的相关关系.传统的主题爬虫一方面割裂了网页链接结构和网页内容主题之间的关系,使得两个部分分开计算; 另一方面下载过程的网页主题相关性不强,会下载大量的主题无关网页.本文提出一种新的基于PageRank 算法主题爬虫算法将网页主题相似度计算与传统的PageRank 算法相结合,将网页链接结构与网页主题相关性结合在一起.另外本文将语义相似性引入到主题爬虫里,实验结果表明本文提出的基于语义相似聚合的主题爬虫算法大大提高了主题爬虫的查全率.  相似文献   

19.
如何通过有效的数据挖掘对互联网教育平台中的课程主题进行挖掘、聚类是当前互联网教育亟待解决的问题之一。实验基于文本信息对某互联网教育平台的1 472门课程体系的主题分布及类别进行了分析。采集了某平台1 472门课程的描述信息,进而通过自建词典和停用词库对文本进行切词分词,并通过TF-IDF对词频权重进行处理。利用LDA主题模型对课程的主题分布进行识别,发现了230个主题,并得到了每门课程在这230个主题下的文档–主题分布以及主题–词分布。进一步基于分布相似性函数对课程进行层次聚类,发现基于不同抽象层次主题的课程相互关联。最后将16个主题信息进行了可视化,这些主题分别从内容和数量两个角度反映出了课程的主题特征以及课程的聚合分布情况。  相似文献   

20.
提出了一种自适应于不同题材文本自动确定其包含的潜在主题数K的方法.考虑到大多数文本的潜在主题分布符合段落密度特性,提出以段落为中心的研究策略,通过采用基于K均值的聚类算法联同自定义判别函数的聚类分析方法,实现了段落自适应聚类下的文本潜在主题的自动发现.实验结果表明,该方法在一定程度上能有效处理普遍存在的文风自由且主题表达灵活多样的各式文本.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号