首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
基于局部和全局的LDA话题演化分析   总被引:1,自引:0,他引:1  
章建  李芳 《上海交通大学学报》2012,46(11):1753-1758
对话题演化进行形式化描述,探讨了基于全局和局部话题演化的2种建模方式,并应用话题相似度和困惑度进行评测.对房地产话题和奥运会话题进行实例分析,给出了2种不同建模方法在话题演化方面的优缺点.两会报告实验结果表明,全局话题演化能够获得较好的模型参数,方法简单可靠;而局部话题演化则能产生细粒度话题,反映新话题的产生和旧话题的消亡.  相似文献   

2.
着眼于舆情话题演化的时序特性、衍生特性和话题漂移现象,在分析话题演化特性的基础上构建了基于时间片划分的话题动态演化模型并通过数理分析和实验仿真对模型的有效性进行了验证.实验结果说明划分时间片的话题演化模型可以在保证热点话题追踪准确性前提下可进一步通过缩减信息流规模来提高话题追踪效率,从而解决以往话题追踪算法中由于舆情话题的漂移和衍生特性导致的追踪效率低下的问题.  相似文献   

3.
知网的话题更新与跟踪算法研究   总被引:1,自引:0,他引:1  
话题跟踪是一项面向新闻报道信息流进行已知话题跟踪的信息处理技术,本文在现有的向量空间描述文档的基础上,实现了一个基于话题更新的话题跟踪算法,提出了基于知网的近义动词分析的跟踪算法及基于知网的近义动词分析和话题更新的话题跟踪算法.实验表明话题更新和同义词近义词的消除提高了话题跟踪算法的性能.  相似文献   

4.
以非均匀磁场中受Dzyaloshinskii-Moriya相互作用的两量子比特海森堡XYZ自旋链模型为例,用共生纠缠、量子失协和失协的几何度量三种度量方式,计算了量子关联随时间的演化.利用选择性平均关联和纹波系数,评价不同时间间隔内或相同时间间隔内系统取不同参数的量子关联的品质高低.发现纠缠猝死后纠缠为零的时间段,量子失协和失协的几何度量的值也都很小,因而品质都很低.系统取定参数后,可以找到量子关联品质高的时间段;而优化参数,可以找到相同时长的品质更高的量子关联,有利于量子信息处理.  相似文献   

5.
针对相似话题难以区分的问题,提出了基于层叠模型的话题检测方法.该方法以Single-Pass聚类策略为基础,将新闻实体信息运用到话题检测中,改进时间相似度和地点相似度的计算方法,在底层利用文本内容相似度完成话题检测的任务,在高层结合时间相似度和地点相似度完成话题检测的任务.实验结果表明,该方法的性能优于传统的文本相似度算法.  相似文献   

6.
运用线性化近似方法计算了周期性信号加性输入时激光系统的光强关联函数,讨论了激光系统中输入信号、泵噪声强度、量子噪声强度、净增益系数以及交叉耦合系数变化时对光强关联函数随时间演化的不同影响.发现演化时间较短时,光强关联函数随时间的演化会出现单极值、双极值、一短时平台等形式;演化时间较长时,会出现稳定性周期振荡.  相似文献   

7.
利用新闻事件的话题、实体及其关联和发展趋势分析, 建立对新闻事件分析报告模型。该模型可以从多个角度描述新闻事件, 并依照新闻综述报告的写作特点, 制定出一种计算机自动分析报告生成的框架, 对新闻事件在话题和实体上的分析结果进行组合, 自动生成一篇观点分析透彻、图表信息生动准确的新闻事件分析报告。  相似文献   

8.
描述了一个基于Web的监督自适应话题追踪系统.在IBM的对称Okapi公式算法基础上,通过结合监督自适应机制,对报道进行评分.系统通过调整关键字权重和增量学习的方式,对话题追踪任务中的监督自适应机制提出了新的算法,弥补了现有话题追踪系统的不足.该算法还考虑话题追踪的时序性,引入了时间信息.以互联网的新闻报道作为测试语料,将有监督自适应话题追踪系统与无监督自适应话题追踪系统进行性能比较.结果表明,有监督的自适应方法能有效降低误报率和漏报率,提高话题追踪的性能.  相似文献   

9.
文章以话题检测与跟踪技术的理论为指导基础,建立向量空间模型的话题模型.结合演化理论对社区内话题的生命周期进行检测与跟踪,度量话题的强度,以描绘出话题的演化过程及趋势.研究藏语网络社区的话题演变,可便更加快捷方便地了解社区动态.  相似文献   

10.
浅议话题     
张丹丹 《科技信息》2009,(16):142-143
话题是汉语语法中一个很重要的概念,对它的彻底研究有助于正确分析汉语句子的基本结构。多年来功能语言学界和形式语言学界的研究者们分别从不同的角度对话题,尤其是汉语中的话题,进行了不同的研究。结合这两种观点,本文对话题的主要特点进行了界定。  相似文献   

11.
京津冀协同发展是当前各学科领域共同关注的热点话题。为深入了解京津冀协同发展话题的研究趋势,以2009~2019年中国知网收录的14 235篇与京津冀协同发展相关的期刊论文为研究对象,采用概率主题模型方法,提出以困惑度、主题平均相似度为指标确定最优主题数,结合文献发表时间挖掘期刊论文潜在主题,从主题强度和主题相似度等多个角度分析主题演化趋势。通过数据分析,挖掘10个潜在主题,生成主题强度年度变化趋势,构建主题内容演化路径,分析主题演化规律。以期为深刻认识京津冀协同发展和科学决策提供理论依据。  相似文献   

12.
一种结合有监督学习的动态主题模型   总被引:1,自引:0,他引:1  
针对传统主题模型存在的不足, 提出一种新的结合有监督学习的动态主题模型(Supervised Dynamic Topic Model, S-DTM)。该模型不仅能够随时间的变化对语言进行动态建模, 而且结合有监督学习技术, 在主题变分推理中加入标签约束, 从而建立主题与标签之间的映射关系, 提高主题的表达解释能力。通过在一个跨越25年“以自然语言处理领域的中文期刊论文为主导”的中文语料库上的实验, 证明该模型相较于静态的有监督主题模型和无监督的动态主题模型, 具有更好的语义解释概括能力, 能更准确地反映文档的主题结构, 更精确地捕捉主题?词汇概率分布的动态演化。  相似文献   

13.
一种个性化的主题提取和层次发现算法   总被引:3,自引:0,他引:3  
从语义相关性角度分析超链归纳主题搜索(HITS) 算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,因此提出了一种个性化的主题提取和层次发现算法(PTDHE),通过个人查询日志扩展查询词,构造符合用户需要的个性化根集和基础集合,达到防止主题漂移的目的.PTDHE采用基于最小最大原则的图划分方法,层次地发现与用户查询相关的主题页面集合,利用HITS算法分别计算每个主题页面集合中页面的权威值,返回与查询相关的其他主题权威页面.在14个查询上的实验结果表明,与HITS算法相比,PTDHE算法不仅可以减少2%~66%的主题漂移率,而且可以发现与查询相关的多个主题.  相似文献   

14.
LDA主题模型是一种有效的文本语义信息提取工具,利用在文档层中实现词项的共现,将词项矩阵转化为主题矩阵,得到主题特征;然而在生成文档过程中会蕴含冗余主题。针对LDA主题模型提取主题特征时存在冗余的不足,提出一种基于邻域粗糙集的LDA主题模型约简算法NRS-LDA。利用邻域粗糙集构造主题决策系统,通过预先设定主题个数,计算出每个主题的重要度;根据重要度进行排序,将排序后重要度低的主题删除。将提出的NRS-LDA算法应用于K-means文本聚类问题上并与传统的文本特征提取算法及改进的算法进行比较,结果表明NRS-LDA方法可以得到更高的聚类精度。  相似文献   

15.
随着智能终端的普及,文本的主题挖掘需求也越来越广泛,主题建模是文本主题挖掘的核心,LDA生成模型是基于贝叶斯框架的概率模型,它以语义关联为基础,很好地解决了文本潜在主题的提取问题。对文本聚类过程的核心技术LDA生成模型、数据采样、模型评价等作了较为深入的阐述和解析,结合网络教育平台的2 794篇学习刊物进行了主题发现和聚类实验,建立了包含3 800个词项的词库,通过kmeans算法和合并向量算法(UVM)分两步解决了主题聚类问题。提出了文本挖掘实验的一般方法,并对层次聚类中文本距离的算法提出了改进。实验结果表明,该平台刊物的主题整体相似度比较好,但主题过于集中使得许多刊物的内容不具有辨识度,影响用户对主题的定位。  相似文献   

16.
针对LDA(Latent Dirichlet Allocation)主题模型生成的大量topic,很大部分topic内部词语相关度很低,可解释性差,对语言模型后的应用效果带来一定的影响.针对这一问题,该文提出了一种基于主题加权LDA模型的情感分类方法,该模型实现不同主题中内部相关的词语特征加权计算,能够消除不同主题内具有相关度词语的相互影响.实验结果表明,与传统LDA模型分类方法对比,该文提出的基于主题加权LDA模型的情感分类方法平均F1值提高了6.7%~8.1%,验证了该文提出的方法是有效的,提高了分类效果.  相似文献   

17.
面向自动文摘的主题划分方法   总被引:1,自引:0,他引:1  
对当前主题划分方法进行了分类, 对主题划分算法TextSegFault (TSF)做了相关改进。根据文本的类型, 从TSF算法和改进的TSF算法中选择其一来进行主题划分, 以适应自动文摘任务的需要。实验结果表明, 引入本文的主题划分方法能有效地解决传统自动文摘方法造成的主题确实和主要主题冗余的问题, 使文摘的结构平衡化。  相似文献   

18.
提出了一种自适应于不同题材文本自动确定其包含的潜在主题数K的方法.考虑到大多数文本的潜在主题分布符合段落密度特性,提出以段落为中心的研究策略,通过采用基于K均值的聚类算法联同自定义判别函数的聚类分析方法,实现了段落自适应聚类下的文本潜在主题的自动发现.实验结果表明,该方法在一定程度上能有效处理普遍存在的文风自由且主题表达灵活多样的各式文本.  相似文献   

19.
李海峰 《科学技术与工程》2021,21(28):12185-12193
京津冀协同发展上升为国家战略,以报纸为代表的大众媒体对其进行密切而又广泛的报道。为了准确把握媒体报道主题的规律和特点,需要结合时间维度从大规模新闻文本的内容层面进行主题关联分析。以2014—2020年中国主流报纸媒体对京津冀协同发展的报道为研究对象,将数理统计、主题模型、主题关联和文本分析等方法相结合,分析了京津冀协同发展的主题分布、主题强度、主题关联关系,以"京津冀文旅产业协同发展"主题为例进行主题关联演化分析。结果表明:京津冀协同发展的报道主题呈多样化特点,报道时间分布规律与国家重要事件相契合,发现了政策宣传、产业转移和交通一体化等十大主题,说明新闻报道主题框架分布与国家政策推进重点相一致。研究结果进一步揭示了本文方法对国家战略新闻文本信息分析的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号