首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上的分层现象;LDA建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数K的设定通常根据人的经验.这些将造成建模结果出现包含多个子话题的混合话题情况.针对上述问题,文中基于层次聚类算法,使用一种文档特征词序列对LDA模型分类结果粒度过粗、热点话题检测结果泛化所导致的舆情监控价值较低的情况进行子话题检测.首先对LDA模型建模结果进行优化,对话题-单词分布与文档-单词分布两个矩阵进行过滤;然后对重叠话题进行检测与合并,采用文档间紧密度度量方式发现泛话题与混合话题;最后通过层次聚类算法对话题下的文本进行二次聚类,得到话题下的子话题.实验结果表明:该算法对子话题的检测能够在更深层次上体现出热点话题的特性,便于舆情监控分析;与Single-Pass算法和K-均值聚类算法相比,该算法获得的结果更具有有效性;K的选取策略对基于层次聚类的子话题检测算法具有鲁棒性.  相似文献   

2.
随着互联网的快速发展,网络舆情对社会的影响与日俱增.对互联网上网民产生的海量文本内容进行快速准确的分析,以及在此基础上捕捉网络舆情,并对其发展趋势进行预测,对社会经济发展无疑具有重要意义.为此,本文研究了论坛中帖子的热度预测问题,针对现有算法在度量帖子内容相似性时仅仅考虑字面上的相似性,未涉及语义层面,并且未考虑发帖人的特定喜好等不足,提出了LDA(潜在狄利克雷分配)与KNN(K近邻)相结合的热度预测算法,该算法利用LDA挖掘帖子表面文本隐藏的主题信息和用户感兴趣的主题信息,在概念层面上度量帖子之间的相似性,在此基础上基于KNN算法对帖子的热度进行预测.在两组数据集的实验结果表明,所提出的算法在预测准确率方面明显优于相关工作中的方法,平均准确率分别提高了4.34%和2.52%.  相似文献   

3.
主题模型可以学习用户和推荐项目的潜在主题分布。提出了一种基于双向主题模型的协同过滤算法,分别学习用户和推荐项目的潜在主题分布用于推荐服务。在真实的数据集上实验验证,该算法的性能均优于几个经典的协同过滤算法。  相似文献   

4.
针对论坛缺乏热点话题提取方法的现状,提出一种将LDA(潜在狄利克雷分配)模型引入高校论坛场景主题的提取方式.在主题建模过程中,以回帖数量作为帖子热门程度的判定参数,根据帖子热门程度在语料中设置不同权重,随后使用Gibbs采样法提取主题.在此基础上设计并实现了包含数据抓取、文本预处理、主题提取三个模块的完整系统.将LDA模型引入系统并进行提取效果分析,实验结果表明LDA模型可以准确地提取出论坛文本中讨论的实时热点话题.  相似文献   

5.
基于OpenMP技术提出并行置信传播算法,在多核服务器上通过共享内存的方式快速推断潜在狄利克雷分布(LDA)主题模型的参数,建立文本中不同主题与文本表面单词之间的联系.利用Enron和Wikipedia数据集,通过3组实验对比了传统吉布斯算法和并行置信传播算法的运行效果.结果表明,并行置信传播算法能够快速推断LDA模型参数,高效处理大规模数据,比传统吉布斯采样算法具有更高的精度.  相似文献   

6.
近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历史访问网页地址(URL)信息,提出了基于加权潜在狄利克雷分配(LDA)模型的用户分类方法,将用户划分到不同的主题群体,实验表明,这种方法能达到很好的分类效果.  相似文献   

7.
以新浪微博为数据源,基于LDA主题模型构建话题分类模型,识别能耗双控话题相关文本中的7个舆情话题,并从话题内容、数量和时空分布等方面分析2021年9月20日至10月20日的舆论响应分布特点。研究发现:(1)话题内容整体呈现积极情感导向,主要围绕生活、生产、管理3个相关角度;(2)各话题响应时序存在明显差异,生活相关话题最先得到广泛响应,生产相关话题次之,而管理角度的理性分析话题存在滞后性;(3)各类话题存在空间差异,生活、管理角度话题讨论高值区主要集中在东北地区,生产角度话题讨论集中在长三角、珠三角等秦岭、淮河以南地区;(4)舆情发展过程中加工贸易相关行业和第三产业对于能耗双控政策的敏感性较高。  相似文献   

8.
微博话题的情感分析是分析出微博话题中隐含的情感并实现对微博消息的分类,该研究可以帮助网络监管人员和政府机关人员针对网络舆情及时做出积极有效的决策。微博话题情感分析的核心任务是分析微博话题中每条微博消息的情感倾向。本文提出的中文微博话题的情感分析是在基础情感词典之上,通过提取并构建程度副词、网络用词和否定词等相关词典,实现对基础情感词典的扩充,最后通过权值计算得到微博消息的情感极值,达到对微博消息进行情感分类的目的。实验结果证明所提出的方法的有效性。  相似文献   

9.
重叠社区发现是复杂网络挖掘中的重要基础工作,可以应用于社交网络、通讯网络、蛋白质相互作用网络、代谢路径网络、交通网络等多种网络的数据分析,从而服务智慧交通、传染病防治、舆情分析、新药研制和人力资源管理等领域.传统的单机运算架构已经难以满足各类大规模复杂网络的分析和计算要求.人工智能领域的研究人员提出将社区发现应用到网络...  相似文献   

10.
针对医学文本缺乏可量化数据结构,基于关键词模型的文本处理方法不适用的问题,在研究词之间潜在语义关联和关键词树结构的基础上,构造了一种基于潜在语义树的语义分析模型用于医学文本的数据挖掘。进一步地将隐含主题与潜在语义的研究相关联,设计出一种基于潜在狄利克雷分配和潜在语义树模型的文本处理方法,可针对不同类型的医学文本生成有一定可读性的自动批注。该方法形成的自动批注主观性低,其准确度和可读性均高于关键词模型的处理结果,可辅助医生进行医学文本的批注和分类,从而减轻其工作量。程序结果表明,该方法目前可应用于对医学图像所见形成诊断意见、对病人病历进行摘要形成和对病症描述给出对症处方等方面,批注的语义匹配度可达67.7%,文本的平均可读性为60.02%。  相似文献   

11.
基于主题情感混合模型的无监督文本情感分析   总被引:4,自引:0,他引:4  
针对有监督、半监督的文本情感分析存在标注样本不容易获取的问题, 通过在LDA模型中融入情感模型, 提出一种无监督的主题情感混合模型(UTSU模型)。UTSU模型对每个句子采样情感标签, 对每个词采样主题标签, 无须对样本进行标注, 就可以得到各个主题的主题情感词, 从而对文档集进行情感分类。情感分类实验对比表明, UTSU模型的分类性能比有监督情感分类方法稍差, 但在无监督的情感分类方法中效果最好, 情感分类综合指标比ASUM模型提高了约2%, 比JST模型提高了约16%。  相似文献   

12.
Recently, complex networks have attracted considerable research attention. Community detection is an important problem in the field of complex networks and is useful in a variety of applications such as information propagation, link prediction, recommendation, and marketing. In this study, we focus on discovering overlapping community structures by using link partitions. We propose a Latent Dirichlet Allocation (LDA)-Based Link Partition (LBLP) method, which can find communities with an adjustable range of overlapping. This method employs the LDA model to detect link partitions, which can calculate the community belonging factor for each link. On the basis of this factor, link partitions with bridge links can be found efficiently. We validate the effectiveness of the proposed solution by using both real-world and synthesized networks. The experimental results demonstrate that the approach can find a meaningful and relevant link community structure.  相似文献   

13.
基于LDA话题关联的话题演化   总被引:2,自引:0,他引:2  
话题演化可以帮助人们快速获取信息和了解趋势.提出了一种挖掘话题随时间变化的方法,通过话题抽取和话题关联实现话题的演化.对不同时间段的文集进行话题的自动抽取,话题数目在不同时间段是可变的;计算相邻时间段中任意2个话题的分布距离和话题的特征向量相似度实现话题的关联.实验结果证明,该方法不但可以描述同一个话题随时间的强度变化,还可以描述新话题的产生,旧话题的消失以及话题内容随时间的演化.  相似文献   

14.
针对基于语料库统计的词语相似度计算方法存在的一些缺陷,如:计算量大、向量的特征维度高、特征稀疏、忽略了词语的语义信息等,提出了一种基于latent Dirichlet allocation(LDA)的词语相似度计算方法,通过将词语的特征向量映射为词语的主题分布来计算词语间的相似度;通过与基于《知网》的词语相似度计算方法的对比,证明了该方法能有效降低特征维度,并具有较好的词语相似度计算效果。  相似文献   

15.
股市中存在与投资者舆情有关的非理性现象,舆情与股市关系的量化研究对发掘股市规律和辅助投资预测具有重要意义.本文基于论坛中的投资者发言,创新性地建立CNN-TLDA混合模型对舆情进行多角度量化分析,从积极度和关注主题两方面探究投资者舆情和股市的相互影响关系,并基于长短时记忆(LSTM)网络对舆情在股市预测中的作用进行探讨.研究表明:中国股市投资者普遍悲观,投资者乐观度和关注主题都与股市高度相关.多角度舆情分析使预测误差下降至41%.研究成果能够辅助投资者的投资决策,也能为股市中个体投资者舆情的分析与利用提供科学参考.  相似文献   

16.
将文本之间存在的时序关联性元信息和文档的标签信息, 引入到隐藏Dirichlet分配模型中, 提出一种在线增量标签主题(on line labeled incremental topic model, OLT)模型. 首先, 在线增量标签主题模型优化了文本标签元信息与主题之间的映射关系; 其次, 利用动态字典增加了模型与文本的拟合程度. 该模型优化了
先验分布超参数迁移计算的连续性, 解决了隐藏Dirichlet分配(LDA)模型不能利用文本属性与主题之间的相关性进行主题发现及演变分析的问题. 实验结果表明, 所提出的在线增量标签主题模型能显著改善多标签判别精度, 提高模型的泛化能力并提升模型的运行性能.  相似文献   

17.
针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行实验的结果表明,该方法在处理大规模文本时,能获得接近线性的加速比,对主题模型的建立效果也有提高.   相似文献   

18.
通过分析自动驾驶技术领域专利的引用信息和文本信息,结合社区发现、LDA(latent Dirichlet allocation)主题建模、主路径分析方法,针对自动驾驶专利数据集的特点建立分析框架进行自动驾驶技术演化分析。应用上述方法可以有效识别自动驾驶技术领域的主题分布,弥补传统单一方法不能反映技术全貌的缺陷。我国需重点突破多源传感器融合感知、复杂环境智能决策控制、车路协同、人机交互等关键技术;在测试和自动泊车技术上处于技术领先;在定位、高精度地图、执行机构、运动控制、硬件计算平台技术上处于技术跟随。  相似文献   

19.
一种改进的LDA主题模型   总被引:2,自引:0,他引:2  
由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关性以及复杂度(Perplexity)值都降低,说明改进模型在主题表达和预测性能方面都有所提高.  相似文献   

20.
针对现有的社团分析算法无法在大规模网络上应用的问题,提出一种社团抽取算法,可以高效地分析网络的社团特征.该方法无需事先获取网络的全部拓扑结构,采用网络搜索与社团判定相结合的思路,可有效地抽取结构未知的社交网络上的某个特定社团,从而使分析超大规模网络社团结构成为可能.在仿真数据集上进行实验,分析抽取准确率的影响因素,得出网络平均度越大抽取准确率越高.进一步实验结果表明,社团抽取算法的准确率与现有方法接近,并且执行效率明显高于现有方法,验证了该算法的可行性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号