共查询到19条相似文献,搜索用时 78 毫秒
1.
基于改进Single-Pass算法的BBS热点话题发现 总被引:1,自引:0,他引:1
详细介绍了经典增量式聚类算法Single-Pass的特点,针对该算法中"聚类质心不唯一"的缺陷提出"设定唯一聚类质心"的改进方案,降低了算法的时间复杂度;针对"算法聚类中心随机性强"的不足提出了"不断优化聚类中心"的改进方案,使得聚类中心的代表性更强.最后,基于"中华网BBS"文本数据对改进后的算法进行验证、分析,并与经典Single-Pass算法的聚类结果进行对比,得到了更为理想的实验结果,表明算法可行有效. 相似文献
2.
针对传统Single-Pass聚类算法存在的缺陷,提出了一种基于自编码神经网络的Single-Pass聚类算法。通过多个深层的隐藏层对原始数据进行降维,以更好地提取出原始数据的特征信息;并通过对边缘文本重计算来降低误检率,提高聚类精度。实验结果表明,该算法相比传统Single-Pass算法具有更高的聚类准确度,解决了聚类结果受数据顺序影响的问题。 相似文献
3.
详细介绍了经典划分式聚类算法K-means的特点,针对该算法中"聚类中心难以确定"的不足提出"选择最优聚类质心"的改进方案,改进后的算法得到了可靠的聚类质心.最后,基于"中华网BBS"文本数据对改进后的算法进行验证、分析,并与经典K-means算法聚类结果进行对比,得到了更为理想的实验结果,表明算法可行有效. 相似文献
4.
话题检测的提出是为了帮助人们从海量的新闻报道中发现未知的新话题,其中文本聚类算法的研究,是实现藏文新闻文本的话题检测技术的核心.本文提出一种聚类算法,是基于简易聚类算法的改进,首先改进了文本顺序对聚类结果产生的影响,其次通过确定种子话题,来确定话题的类别.本研究的聚类算法在较小规模的语料中比改进前源算法有一定程度的提高.本文的研究对象是藏文网站中的新闻文本. 相似文献
5.
中文微博具有更新快、时效性强等特点,产生的热点话题均具有一定的突发性,与此同时文本中有代表性的特征词也会随之激增。利用这一特性,在传统的TF-IDF(term frequency-inverse document frequency)基础上提出一种改进的特征权重算法,称之为TF-IDF-KE(term frequency-inverse document frequency-kinetic energy),用以解决突发性热点话题在聚类时特征不明显的问题。该算法结合物体的动能原理,将特征项的突发值用动能的概念进行描述,加入权值计算,提高突发性特征项的权重,最后使用CURE(clustering using representatives)算法,实现微博的话题检测。该方法描述了文本和特征项所具有的动态属性,实验结果表明,该方法能够有效地提高话题检测的效果。 相似文献
6.
引进文本相关度这一影响因子,提出了一种基于蚁群聚类算法的突发话题检测算法,该算法结合蚁群聚类算法的优势,综合考虑文本聚类和文本相关度的影响,得到对网络突发话题检测的最优聚类效果,并对近年来网络突发话题进行实验,达到了很好的聚类速度和聚类效果,验证了算法对突发话题检测的准确性和即时性. 相似文献
7.
8.
9.
周期分类和Single-Pass聚类相结合的话题识别与跟踪方法 总被引:1,自引:0,他引:1
针对增量式聚类初始时话题模型不够充分和准确,随处理报道数量增加,误检与漏检的累积效应被放大的问题,提出了周期分类和Single-Pass聚类相结合的话题识别与跟踪方法.首先采用增量式聚类算法进行话题识别与跟踪,当新闻文本每积累到一定程度之后,对已经聚类的报道进行周期分类,使话题簇精度提高,从而提高后续话题识别与跟踪精度.实验表明这种方法是有效的,能够降低漏检率与错检率,减少归一化错误识别代价. 相似文献
10.
基于多中心模型的网络热点话题发现算法 总被引:1,自引:0,他引:1
为了有效消除网络话题相关报道内容侧重点变化对网络话题发现准确性的影响,提出了网络话题多中心模型.将报道内容之间的关联关系层次化,提高了对网络话题的描述能力.提出了基于多中心模型的网络热点话题发现算法,利用话题中心判别新出现的报道是否属于已有网络话题,算法基于单遍聚类思想,通过引入话题中心的策略优化了算法的计算开销.实验结果表明:该算法可以全面、准确地发现网络热点话题,同时具有较为理想的性能,可应用于大规模网络动态流式数据环境下的热点话题发现. 相似文献
11.
随着智能终端的普及,文本的主题挖掘需求也越来越广泛,主题建模是文本主题挖掘的核心,LDA生成模型是基于贝叶斯框架的概率模型,它以语义关联为基础,很好地解决了文本潜在主题的提取问题。对文本聚类过程的核心技术LDA生成模型、数据采样、模型评价等作了较为深入的阐述和解析,结合网络教育平台的2 794篇学习刊物进行了主题发现和聚类实验,建立了包含3 800个词项的词库,通过kmeans算法和合并向量算法(UVM)分两步解决了主题聚类问题。提出了文本挖掘实验的一般方法,并对层次聚类中文本距离的算法提出了改进。实验结果表明,该平台刊物的主题整体相似度比较好,但主题过于集中使得许多刊物的内容不具有辨识度,影响用户对主题的定位。 相似文献
12.
提出了一种自适应于不同题材文本自动确定其包含的潜在主题数K的方法.考虑到大多数文本的潜在主题分布符合段落密度特性,提出以段落为中心的研究策略,通过采用基于K均值的聚类算法联同自定义判别函数的聚类分析方法,实现了段落自适应聚类下的文本潜在主题的自动发现.实验结果表明,该方法在一定程度上能有效处理普遍存在的文风自由且主题表达灵活多样的各式文本. 相似文献
13.
如何通过有效的数据挖掘对互联网教育平台中的课程主题进行挖掘、聚类是当前互联网教育亟待解决的问题之一。实验基于文本信息对某互联网教育平台的1 472门课程体系的主题分布及类别进行了分析。采集了某平台1 472门课程的描述信息,进而通过自建词典和停用词库对文本进行切词分词,并通过TF-IDF对词频权重进行处理。利用LDA主题模型对课程的主题分布进行识别,发现了230个主题,并得到了每门课程在这230个主题下的文档–主题分布以及主题–词分布。进一步基于分布相似性函数对课程进行层次聚类,发现基于不同抽象层次主题的课程相互关联。最后将16个主题信息进行了可视化,这些主题分别从内容和数量两个角度反映出了课程的主题特征以及课程的聚合分布情况。 相似文献
14.
针对传统的社区发现算法无法发现社区中的核心成员和边界成员的缺点,提出了基于PCM聚类算法的Blog社区发现算法,用来识别Blog社区的核心和边界.首先,使用随机行走的方法计算可以衡量两个Blog亲密度的对称社会距离;然后,在对称社区距离的基础上使用PCM聚类算法对Blog进行聚类,得到每个社区中的成员属于社区的概率表示.最后,通过确定相应的概率阈值,确定社区的核心和边界.实验结果表明:该算法能够获得社区中的成员属于社区的概率,根据这个概率可以确定社区中的核心成员和边界成员. 相似文献
15.
逻辑网络拓扑发现的缺陷在于,它仅发现网络层的网络拓扑,而不发现在物理层及链路层的网络拓扑结构,且无法发现和管理虚拟网.针对这一不足,将多层网络拓扑发现的功能引入网络管理系统软件之中,提出基于园区网络、Windows平台的多层网络拓扑发现的算法.研究结果对制作具有自己版权的网络管理系统软件将有参考意义. 相似文献
16.
谢坤武 《湖北民族学院学报(自然科学版)》2009,27(3)
当处理的半结构数据时,从中挖掘出其隐含的结构显得愈来愈重要了,不仅对于用户而且对于整个系统来说,其重要性也是不言而喻的.算法structure_discovery将聚类算法应用到半结构化数据的结构发现上,将描述同一类对象的共有结构按照相似度聚集到一起形成类,然后从类中发现满足用户兴趣度的结构.与同类算法比较,structure_discovery为增量式算法,同时,聚类技术的使用提高了结构发现效率. 相似文献
17.
针对股评论坛主题发现,提出基于频繁项集与潜在语义相结合的短文本聚类(STC_FL)框架.在基于知网的知识获取后得到概念向量空间,挖掘并筛选出重要频繁项集,然后采用统计和潜在语义相结合的方法进行重要频繁项集的自适应聚类.最后,提出TSC-SN(text soft classifying based on similarity threshold and non-overlapping)算法,通过参数调优策略选择和控制文本软聚类过程.股吧论坛数据实证分析发现:所提出的STC_FL框架和TSC-SN算法可充分挖掘文本潜在语义信息,并有效降低特征空间维度,最终实现对短文本的深层次信息挖掘和主题归类. 相似文献
18.
京津冀协同发展上升为国家战略,以报纸为代表的大众媒体对其进行密切而又广泛的报道。为了准确把握媒体报道主题的规律和特点,需要结合时间维度从大规模新闻文本的内容层面进行主题关联分析。以2014—2020年中国主流报纸媒体对京津冀协同发展的报道为研究对象,将数理统计、主题模型、主题关联和文本分析等方法相结合,分析了京津冀协同发展的主题分布、主题强度、主题关联关系,以"京津冀文旅产业协同发展"主题为例进行主题关联演化分析。结果表明:京津冀协同发展的报道主题呈多样化特点,报道时间分布规律与国家重要事件相契合,发现了政策宣传、产业转移和交通一体化等十大主题,说明新闻报道主题框架分布与国家政策推进重点相一致。研究结果进一步揭示了本文方法对国家战略新闻文本信息分析的有效性。 相似文献
19.
网络管理系统中的自动拓扑发现算法 总被引:4,自引:0,他引:4
针对网络管理系统中的配置管理模块.提出一种基于ICMP和SNMP协议特性采用主动探测与被动监视的自动拓扑发现算法,分析了该算法涉及的协议理论和行为,并就算法的性能和效率作出评测,同时给出Windows95&NT环境下实现该算法的关键思想及函数调用. 相似文献