首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 750 毫秒
1.
基于主题标签的在线社区话题发现   总被引:1,自引:0,他引:1  
面对海量的互联网信息,如何快速有效地提取到用户关心的话题成为网络信息处理的一项基本任务。话题发现实质是无指导的聚类研究,本文引入主题标签概念,针对在线社区数据,提出了主题标签的话题发现算法。该算法以词项为粒度,基于词项的权重和上下文信息获取论坛帖子线索文档的核心词汇,作为文档的主题标签,在向量空间模型的基础上结合主题标签间的相似性进行相关话题的聚类。该方法的提出,一方面获得的主题词项不仅准确,而且具有较强的语义关联性,有效的避免了向量空间模型中容易丢失特征词间语义信息的缺陷;另一方面,与潜在语义模型相比,本文在向量空间模型基础上的话题发现具有更高的效率和更好的聚类质量。  相似文献   

2.
论坛中"意见领袖"的自动发现对于我们掌握舆情,及时引导舆论有重要作用.为此设计了一个从论坛中自动发现意见领袖的算法.根据构成意见领袖的基本属性,设计了基于贝叶斯信息增益最大化准则的X-means迭代聚类筛选模型,然后利用该模型找到特征空间中的意见领袖特征点.实验表明,应用该模型的算法在发现意见领袖的查全率,查准率方面性能优越,可以有效实现网络舆情监控.  相似文献   

3.
基于核密度估计的层次聚类算法   总被引:12,自引:0,他引:12  
淦文燕  李德毅 《系统仿真学报》2004,16(2):302-305,309
聚类分析是统计、模式识别和数据挖掘等领域中一个非常基础且非常重要的研究课题,具有广泛的应用前景。在众多的聚类方法中,基于密度的方法是一种相当有效的聚类方法,能够发现任意形状的聚类,对噪声数据不敏感,但是聚类结果严重依赖于用户参数的合理选择。以DENCLUE算法为基础,一种基于核密度估计的层次聚类算法被提出,该算法首先优选窗宽σ产生较好的核密度估计结果,然后以密度函数的局部极大值点为聚类中心形成数据的初始划分,最后根据密度函数的鞍点递归合并初始聚类产生不同层次的划分模式。理论分析和仿真实验结果显示,该算法能够发现任意形状、大小和密度的聚类,能够有效处理噪声数据,而且聚类结果不依赖于用户参数的仔细选择。  相似文献   

4.
基于核主元聚类的股票分类   总被引:1,自引:1,他引:0  
为了正确区分不同的股票类别, 降低分类的复杂度,论文结合核主元分析和K均值聚类构造核主元聚类方法对上市公司股票进行了分类处理.在核主元聚类方法中, 首先对样本数据进行预处理,然后利用核主元分析以非线性方式降低数据的维数,再利用K均值聚类方法对降维后数据进行聚类,并最终得到不同的股票分类情况.选择了沪深股市中20支上市公司股票来进行实证分析.实证结果表明:核主元聚类方法取得了较好的分类结果,为上市公司股票分类和评估提供了很好的依据, 具有较好的适用性.  相似文献   

5.
网络媒体报道倾向对互联网新闻舆情热点传播及公众认知有着重要影响.为揭示互联网媒体在新闻报道中存在语义和传播倾向,采用纳入文档协变量的结构化主题模型量化不同媒体报道热点主题的语义强度,同时结合格兰杰因果分析检验不同媒体对热点主题时间序列的影响.研究结果表明, 5家互联网媒体在报道共享单车热点新闻时,存在主题选择及传播倾向性.表现在与用户关系密切的话题,媒体间存在跟风造势的倾向,与用户关联不大的话题,媒体间则较少传播或单向传播.提出的融合结构化主题模型的格兰杰因果分析方法为测度网络舆情主体对网络舆情事件的演化影响提供了新手段.  相似文献   

6.
在分析谱聚类实现思路和已有算法基础上,对规范切判据,最小最大切判据和自动确定聚类数目的谱聚类典型算法进行了研究和应用,通过理论分析算法各自实现机理的联系与区别,讨论它们各自的聚类特点,并利用UCI(University of California,Irvire)机器学习数据集试验对比了三种算法的聚类效果.发现谱聚类算法实现数据聚类的有效性,以及参数及相似度度量对算法性能有很大影响,在此基础上提出了算法用于解决可建模为模式识别的工程问题的可行思路,为工程实践提供了借鉴.  相似文献   

7.
与通常的聚类方法相比,客观聚类分析方法能自动、客观地确定聚类个数并找到最优聚类方案.通过算法步骤的剖析和算例分析,对客观聚类分析方法的核心构件,即一致性准则的不足进行了评价.利用偶极子给出了新的一致性准则,提出了数据分组处理(GMDH)聚类分析方法.从理论分析和实证比较两方面论证了新的一致性准则的优越性,指出了GMDH聚类分析方法是客观聚类分析方法的发展.  相似文献   

8.
在自建的经济物理学科学家合作网络的基础上,实现了层次聚类法和介数聚类法.并将他们应用到对经济物理学科学家合作网络结构的聚类分析中,在理论层次对两种方法进行了比较,同时将两种算法的计算结果与现实进行对照,发现介数聚类的结果与现实吻合得较好。在充分理解Newman提出的Q函数的基础上,讨论了聚类过程中的最佳集团数。  相似文献   

9.
微博舆论场逐渐成为了突发事件网络舆情的策源地,在舆情生成演化中扮演重要角色.本文以微博舆论场为研究视角,首先运用超网络建模理论,构建了集社交、信息、心理、观点四层子场为一体的微博舆论场超网络模型,并对各层子场内部以及子场间关系进行建模分析;然后提出了微博舆论场超网络模型的衡量指标,对微博舆论场"场强"进行了量化分析;最后使用社会计算和数据挖掘算法,定量分析了微博舆论场对新进入的无知者和感染者的作用过程,以及对新个体发生作用后,微博舆论场中舆情的演化.以期对突发事件舆情态势进行预测预警,为舆情干预治理提供理论依据,有效引导突发事件舆情良性发展.  相似文献   

10.
对并行图聚类算法进行了研究。基于Spark 提出了一个新的并行图聚类算法;由于Spark 中的top 操作需要耗费大量的内存,提出了一个新算法来替代top 操作,有效减少了所消耗的内存;通过对自底向上的层次聚类算法进行改进提高了聚类的速度;基于图数据的特征提出了一种图数据过滤的方法来减少算法运行的时间以及所占用的空间并对其有效性进行了说明。仿真结果表明,运行效果优于进行比较的其他并行化图聚类算法。  相似文献   

11.
构建大规模网络舆情演化仿真模型,对新冠疫情武汉重灾区与全国其他地区采取差异化的应急管理和舆情疏导具有指导价值。为实现主题细粒度的舆情情感演化仿真,将LDA(Latent Dirichlet Allocation)主题模型与BERT(Bidirectional Encoder Representations from Transformers)词向量深度融合,优化主题向量助力文本主题聚类;同时,在改进BERT预训练任务的基础上,叠加深度预训练任务,以提高模型在情感分类中的精确度。结果表明:在主题向量训练过程中,改进的BERT-LDA模型较原始LDA模型NPMI(Normalized Pointwise Mutual Information)值提升0.357;在疫情事件情感分类任务上,AUC(Area Under the Curve)值超过了99.6%,证明其能够有效运用于大规模网络舆情演化仿真。  相似文献   

12.
Topics and trends of the on-line public concerns based on Tianya forum   总被引:1,自引:1,他引:0  
Many social events spread fast through the Internet and arouse wide community discussions. Those on-line public opinions emerge into diverse topics along the time. Moreover, the strength of the topics is fluctuating. How to catch both primary topics and trend of topics over the shifting on-line discussions are not only of theoretical importance for scientific research, but also of practical importance for societal management especially in current China. To try the cutting-edge text analytic technologies to deal with unstructured on-line public opinions and provide support for social problem-solving in the big data era is worth an endeavour. This paper applies dynamic topic model (DTM) to explore the changing topics of new posts collected from Tianya Zatan Board of Tianya Club, the most influential Chinese BBS in mainland China. By analysis of the hot and cold terms trends, we catch the topics shift of main on-line concerns with illustrations of topics of school bus and environment in December of 2011. An algorithm is proposed to compute the strength fluctuation of each topic. With visualized analysis of the respective main topics in several months of 2012, some patterns of the topics fluctuation on the board are summarized.  相似文献   

13.
基于音视频特征和文字信息自动分段新闻故事   总被引:6,自引:0,他引:6  
刘华咏 《系统仿真学报》2004,16(11):2608-2610
提出了一种新的基于音视频特征和文字信息自动分段新闻故事的方法。其基本思想是先对新闻视频进行镜头边界检测;其次,通过文字检测算法检测包含有主题字幕文本的帧来获得新闻故事分段的线索;接着用短时能量和短时平均过零率(ZCR)来检测新闻视频中存在的静音片段;最后,综合音视频特征和文字信息实现故事自动分段。在包含135,400帧的实验素材上获得了85.8%的准确率和97.5%的查全率,实验结果证明该方法是十分有效的。  相似文献   

14.
主要解决海量互联网信息的舆情分析问题。以概念倾向性和话题属性新概念为基础,建立了具有人工及自我双重训练功能的、具有自我反馈机制的舆情统计分析模型。以互联网为平台构建了虚拟的弹性自组织网,解决了网络舆情分布式计算、规模自由扩展及大规模舆情信息视觉化等的问题,并根据力学抽象使其具备了网络拓扑结构的自优化、自更新功能。实验表明,模型具有分析效率高、准确、结果直观等特点。  相似文献   

15.
舆论演化的社会影响级联效应模型   总被引:1,自引:1,他引:0  
舆论建模跳出传统的基于最近邻("person-person")的交互范式,引入次近邻("personperson-person")的影响,刻画网络中邻居的邻居对观点改变的作用,提出舆论演化的社会影响级联模型,分析其在可变聚类系数网络上舆论的演化性质.通过调节网络聚类系数,使用异步更新的方式,观察网络集聚特性对舆论演化的影响.结果表明,1)相比于传统的最近邻影响模型,社会影响级联模型的社会强化作用更大,系统更容易达成共识,初始状态中主流观点的影响将被放大;2)舆论演化结果与网络集聚性和初始状态相关:当系统初始状态p_+≠p_,系统观点演化达到稳态后,网络聚类系数越大,越容易产生主流观点;当初始观点p_+=p_时,即正、负力量势均力敌时,系统共识则难以确定.这种情况和现实社会舆论的演化结果符合.  相似文献   

16.
基于K-means算法的改进蚁群聚类算法及其应用   总被引:2,自引:0,他引:2  
基于化学识别的蚁群聚类算法无需给定聚类数目就能自动实现数据集的聚集,但大量采用随机策略使得蚂蚁达到平衡的运行时间长,效率不高。为此提出了一种用K-means算法做初次聚类、蚁群聚类算法再次聚类的新算法,结果表明该算法具有较高的正确率。最后将该算法应用于系统应用协同中,得到了较好的分析结果。  相似文献   

17.
一种基于区间数多指标信息的FCM聚类算法   总被引:8,自引:0,他引:8  
针对一类具有不确定性区间数多指标信息的聚类分析问题,基于传统的数值信息FCM(fuzzy c-means)聚类算法,提出了一种新的聚类分析算法.首先描述了具有区间数多指标信息的聚类分析问题,其次提出并证明了基于区间数多指标信息的关于最优划分和最优聚类中心确定的两个定理.然后根据提出的两个定理,进一步给出了基于区间数信息的FCM聚类算法的迭代步骤.最后,通过一个算例说明了给出的聚类算法.  相似文献   

18.
一种基于三角模糊数多指标信息的聚类方法   总被引:1,自引:0,他引:1  
针对一类特征指标值及指标权重均为三角模糊数的多指标信息聚类问题,提出了一种新的最大树聚类分析方法。首先对三角模糊数多指标信息聚类问题进行了描述;然后依据传统的基于数值信息的最大树模糊聚类分析方法的基本思路,给出了解决三角模糊数多指标信息聚类问题的计算步骤。最后,通过算例说明了本文给出的聚类方法。  相似文献   

19.
近年来,网络舆情已经成为情报学、传播学等领域研究的热点主题,新媒体是推动网络舆情出现的主要力量.新媒体舆情的形成、演化、预警、治理策略的研究较多,但是新媒体信息对特定行业人群信息决策行为的作用机理及其影响程度的研究较少.本文以新浪微博为例,利用Probit、Ordered Probit等回归模型实证分析了新媒体形成的网络舆情对审计意见决策的影响及其作用机理,以期了解和掌握新媒体对特定行业人群信息决策行为的影响,为新媒体治理和监管提供借鉴和支持.研究结果表明,审计师同时关注了新媒体发布的原创信息和转载的已有信息;新媒体发布和传播的公司负面信息越多,审计师越有可能对上市公司的年报出具非标准审计意见;新媒体负面信息缩短了公司违规被监管部门处罚的时间期限,在一定程度上增加了审计师面临的诉讼风险预期.  相似文献   

20.
Patent documents are unique external sources of information that reveal the core technology underlying new inventions.Patents also serve as a strategic data source that can be mined to discover state-of-the-art technical development and subsequently help guide R&D investments.This research incorporates an ontology schema to extract and represent patent concepts.A clustering algorithm with non-exhaustive overlaps is proposed to overcome deficiencies with exhaustive clustering methods used in patent mining and technology discovery.The non-exhaustive clustering approach allows for the clustering of patent documents with overlapping technical findings and claims,a feature that enables the grouping of patents that define related key innovations.Legal advisors can use this approach to study potential cases of patent infringement or devise strategies to avoid litigation.The case study demonstrates the use of non-exhaustive overlaps algorithm by clustering US and Japan radio frequency identification (RFID) patents and by analyzing the legal implications of automated discovery of patent infringement.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号