首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
基于局部和全局的LDA话题演化分析   总被引:1,自引:0,他引:1  
章建  李芳 《上海交通大学学报》2012,46(11):1753-1758
对话题演化进行形式化描述,探讨了基于全局和局部话题演化的2种建模方式,并应用话题相似度和困惑度进行评测.对房地产话题和奥运会话题进行实例分析,给出了2种不同建模方法在话题演化方面的优缺点.两会报告实验结果表明,全局话题演化能够获得较好的模型参数,方法简单可靠;而局部话题演化则能产生细粒度话题,反映新话题的产生和旧话题的消亡.  相似文献   

2.
着眼于舆情话题演化的时序特性、衍生特性和话题漂移现象,在分析话题演化特性的基础上构建了基于时间片划分的话题动态演化模型并通过数理分析和实验仿真对模型的有效性进行了验证.实验结果说明划分时间片的话题演化模型可以在保证热点话题追踪准确性前提下可进一步通过缩减信息流规模来提高话题追踪效率,从而解决以往话题追踪算法中由于舆情话题的漂移和衍生特性导致的追踪效率低下的问题.  相似文献   

3.
针对论坛缺乏热点话题提取方法的现状,提出一种将LDA(潜在狄利克雷分配)模型引入高校论坛场景主题的提取方式.在主题建模过程中,以回帖数量作为帖子热门程度的判定参数,根据帖子热门程度在语料中设置不同权重,随后使用Gibbs采样法提取主题.在此基础上设计并实现了包含数据抓取、文本预处理、主题提取三个模块的完整系统.将LDA模型引入系统并进行提取效果分析,实验结果表明LDA模型可以准确地提取出论坛文本中讨论的实时热点话题.  相似文献   

4.
针对舆情话题演化中的话题漂移和衍生效应,提出基于时序主题信息的舆情话题演化分析方法并通过加入时序标签,对舆情热点话题内容和强度的演化过程进行了可视化.实例证明,该文提出的话题追踪算法能够有效探测出各阶段的舆情热点话题、分析舆情演化趋势,为突发事件发展态势的预测提供理论借鉴.  相似文献   

5.
随着互联网的快速发展,网络舆情对社会的影响与日俱增.对互联网上网民产生的海量文本内容进行快速准确的分析,以及在此基础上捕捉网络舆情,并对其发展趋势进行预测,对社会经济发展无疑具有重要意义.为此,本文研究了论坛中帖子的热度预测问题,针对现有算法在度量帖子内容相似性时仅仅考虑字面上的相似性,未涉及语义层面,并且未考虑发帖人的特定喜好等不足,提出了LDA(潜在狄利克雷分配)与KNN(K近邻)相结合的热度预测算法,该算法利用LDA挖掘帖子表面文本隐藏的主题信息和用户感兴趣的主题信息,在概念层面上度量帖子之间的相似性,在此基础上基于KNN算法对帖子的热度进行预测.在两组数据集的实验结果表明,所提出的算法在预测准确率方面明显优于相关工作中的方法,平均准确率分别提高了4.34%和2.52%.  相似文献   

6.
从研究主题的角度出发,引入LDA主题模型,分析2011-2020年"高校科研管理"相关的期刊文献.结果 显示,我国高校科研管理研究文献呈倒"U"形趋势,自2015年峰值后下降明显,研究力量有所减弱.研究主题随高校科研发展的要求发生承接和转化.研究主题的选择从研究的外部规律(注重高校的管理主体等)向重视内部规律(科研人员...  相似文献   

7.
为了解决OLDA模型中的主题混合和新主题不能及时发现的问题,基于OLDA模型提出一种改进的在线LDA模型(improved online LDA,IOLDA)。该模型根据主题强度为每个主题设置不同的遗传度,提出一种新的主题强度度量方法,根据文档-主题分布的集中程度为文档设置不同的权值,该方法可以有效降低宽泛主题的强度得分;利用模型主题对齐的特点,采用Jensen-Shannon距离横向计算话题间的关联。实验结果表明:本文提出的方法能够有效地在线分析主题的演化。  相似文献   

8.
文章以话题检测与跟踪技术的理论为指导基础,建立向量空间模型的话题模型.结合演化理论对社区内话题的生命周期进行检测与跟踪,度量话题的强度,以描绘出话题的演化过程及趋势.研究藏语网络社区的话题演变,可便更加快捷方便地了解社区动态.  相似文献   

9.
线性判别分析(LDA)是人脸识别系统中用来降维的主要技术之一,但却受到小样本问题的限制,从而使其不能有效发挥其性能.本文通过把权值的概念引入LDA之中,使关联加权LDA方法有效地改善了小样本问题,但是它的分类效果却并不理想.为了解决这个问题,本文提出了基于Haar小波的关联加权LDA方法,该方法在Haar小波子带基础上,应用关联加权LDA方法,既解决了小样本问题,又改善了分类的效果.利用ORL及FERET两大人脸数据库进行了实验,其结果表明与最先进的几种方法相比较,HWRW-LDA方法具有更好的识别性能.  相似文献   

10.
针对社会化标签中资源之间存在独立同分布特性,并且其对应的标签资源作为资源内容的特殊语义内容,提出一种联合特征词加权-LDA(Joint Feature Word Weighting-LDA)在资源内容和标签下联合主题识别方法,从而解决资源存在的独立同分布特性以及特征词采样等问题.首先建立评论及对应标签资源在信息熵相似度...  相似文献   

11.
针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行实验的结果表明,该方法在处理大规模文本时,能获得接近线性的加速比,对主题模型的建立效果也有提高.   相似文献   

12.
一种改进的LDA主题模型   总被引:2,自引:0,他引:2  
由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关性以及复杂度(Perplexity)值都降低,说明改进模型在主题表达和预测性能方面都有所提高.  相似文献   

13.
针对基于语料库统计的词语相似度计算方法存在的一些缺陷,如:计算量大、向量的特征维度高、特征稀疏、忽略了词语的语义信息等,提出了一种基于latent Dirichlet allocation(LDA)的词语相似度计算方法,通过将词语的特征向量映射为词语的主题分布来计算词语间的相似度;通过与基于《知网》的词语相似度计算方法的对比,证明了该方法能有效降低特征维度,并具有较好的词语相似度计算效果。  相似文献   

14.
通过分析自动驾驶技术领域专利的引用信息和文本信息,结合社区发现、LDA(latent Dirichlet allocation)主题建模、主路径分析方法,针对自动驾驶专利数据集的特点建立分析框架进行自动驾驶技术演化分析。应用上述方法可以有效识别自动驾驶技术领域的主题分布,弥补传统单一方法不能反映技术全貌的缺陷。我国需重点突破多源传感器融合感知、复杂环境智能决策控制、车路协同、人机交互等关键技术;在测试和自动泊车技术上处于技术领先;在定位、高精度地图、执行机构、运动控制、硬件计算平台技术上处于技术跟随。  相似文献   

15.
将文本之间存在的时序关联性元信息和文档的标签信息, 引入到隐藏Dirichlet分配模型中, 提出一种在线增量标签主题(on line labeled incremental topic model, OLT)模型. 首先, 在线增量标签主题模型优化了文本标签元信息与主题之间的映射关系; 其次, 利用动态字典增加了模型与文本的拟合程度. 该模型优化了
先验分布超参数迁移计算的连续性, 解决了隐藏Dirichlet分配(LDA)模型不能利用文本属性与主题之间的相关性进行主题发现及演变分析的问题. 实验结果表明, 所提出的在线增量标签主题模型能显著改善多标签判别精度, 提高模型的泛化能力并提升模型的运行性能.  相似文献   

16.
基于主题情感混合模型的无监督文本情感分析   总被引:4,自引:0,他引:4  
针对有监督、半监督的文本情感分析存在标注样本不容易获取的问题, 通过在LDA模型中融入情感模型, 提出一种无监督的主题情感混合模型(UTSU模型)。UTSU模型对每个句子采样情感标签, 对每个词采样主题标签, 无须对样本进行标注, 就可以得到各个主题的主题情感词, 从而对文档集进行情感分类。情感分类实验对比表明, UTSU模型的分类性能比有监督情感分类方法稍差, 但在无监督的情感分类方法中效果最好, 情感分类综合指标比ASUM模型提高了约2%, 比JST模型提高了约16%。  相似文献   

17.
针对LDA(Latent Dirichlet Allocation)主题模型生成的大量topic,很大部分topic内部词语相关度很低,可解释性差,对语言模型后的应用效果带来一定的影响.针对这一问题,该文提出了一种基于主题加权LDA模型的情感分类方法,该模型实现不同主题中内部相关的词语特征加权计算,能够消除不同主题内具有相关度词语的相互影响.实验结果表明,与传统LDA模型分类方法对比,该文提出的基于主题加权LDA模型的情感分类方法平均F1值提高了6.7%~8.1%,验证了该文提出的方法是有效的,提高了分类效果.  相似文献   

18.
融合Sentence-BERT和LDA的评论文本主题识别(SBERT-LDA)方法,将LDA的主题数作为K-means算法中的k值,导致算法可解释性较差、主题一致性较低。为了解决上述问题,提出基于密度Canopy的SBERT-LDA优化方法(SBERT-LDA-DC),利用密度Canopy改进K-means算法。实验结果表明,提出的方法在一致性指标上要优于使用K-means以及K-means++对特征向量聚类的同类方法;与SBERT-LDA方法相比,在1 852条戏剧评论数据集上,一致性指标值提高了22.9%。因此,所提出的SBERT-LDA-DC方法是有效的,对产品或服务提供者更好地了解用户意见、完善自身产品或提升服务水平提供了新方法,具有较强的实际应用价值。  相似文献   

19.
随着智能终端的普及,文本的主题挖掘需求也越来越广泛,主题建模是文本主题挖掘的核心,LDA生成模型是基于贝叶斯框架的概率模型,它以语义关联为基础,很好地解决了文本潜在主题的提取问题。对文本聚类过程的核心技术LDA生成模型、数据采样、模型评价等作了较为深入的阐述和解析,结合网络教育平台的2 794篇学习刊物进行了主题发现和聚类实验,建立了包含3 800个词项的词库,通过kmeans算法和合并向量算法(UVM)分两步解决了主题聚类问题。提出了文本挖掘实验的一般方法,并对层次聚类中文本距离的算法提出了改进。实验结果表明,该平台刊物的主题整体相似度比较好,但主题过于集中使得许多刊物的内容不具有辨识度,影响用户对主题的定位。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号