首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
话题检测的提出是为了帮助人们从海量的新闻报道中发现未知的新话题,其中文本聚类算法的研究,是实现藏文新闻文本的话题检测技术的核心.本文提出一种聚类算法,是基于简易聚类算法的改进,首先改进了文本顺序对聚类结果产生的影响,其次通过确定种子话题,来确定话题的类别.本研究的聚类算法在较小规模的语料中比改进前源算法有一定程度的提高.本文的研究对象是藏文网站中的新闻文本.  相似文献   

2.
分析了目前动态社区发现及其演化所存在的问题,提出了一种新的动态社区演化方法.该方法利用静态社区挖掘算法提取不同时间快照的每个社区,然后计算出相邻快照的社区之间的演化影响力,进一步分析连续快照中社区结构的发展演化过程.在新浪微博、网络测量Gnutella等大规模实验数据集上的验证,证明了该方法的有效性.此外,实验中还分析了社会网络中节点的出现和消失的频繁程度会影响社区稳定性以及社区结构的演化.   相似文献   

3.
着眼于舆情话题演化的时序特性、衍生特性和话题漂移现象,在分析话题演化特性的基础上构建了基于时间片划分的话题动态演化模型并通过数理分析和实验仿真对模型的有效性进行了验证.实验结果说明划分时间片的话题演化模型可以在保证热点话题追踪准确性前提下可进一步通过缩减信息流规模来提高话题追踪效率,从而解决以往话题追踪算法中由于舆情话题的漂移和衍生特性导致的追踪效率低下的问题.  相似文献   

4.
基于LDA话题关联的话题演化   总被引:2,自引:0,他引:2  
话题演化可以帮助人们快速获取信息和了解趋势.提出了一种挖掘话题随时间变化的方法,通过话题抽取和话题关联实现话题的演化.对不同时间段的文集进行话题的自动抽取,话题数目在不同时间段是可变的;计算相邻时间段中任意2个话题的分布距离和话题的特征向量相似度实现话题的关联.实验结果证明,该方法不但可以描述同一个话题随时间的强度变化,还可以描述新话题的产生,旧话题的消失以及话题内容随时间的演化.  相似文献   

5.
社交媒体话题检测一直是个热点问题,由于社交数据杂乱异构,且具有时效性,语义模糊性等特点,话题检测也是个难点问题.研究利用复杂网络对社交文本数据进行建模,并结合一种基于极大团凝聚层次聚类的重叠社团发现方法实现了社交话题的检测.文本数据建模中,通过自定义突发系数量化话题词,即把话题词看作具有时域分布偏好的关键词,并通过自定义相关系数连接话题词,构建话题网络.为使自定义系数更适用于动态数据环境,实验结合真实数据进行了适应性测试优化系数.文章把采用EAGLE重叠社团发现方法在公开数据集上评测,根据Q函数值显示结果明显优于当前一些重叠社团发现策略,研究对采样的60万条青少年社交数据进行了话题分析并可视化了分析结果.  相似文献   

6.
层次化话题发现与跟踪方法及系统实现   总被引:2,自引:0,他引:2  
自1996年话题发现与跟踪评测启动以来,该研究受到普遍关注,取得巨大进步,也遇到诸多困难。通过分析大量话题数据,提出层次化话题与层次聚类的区别在于话题的层次是由事件的构成决定的,层次化话题应当分为三层,即微类、中类和上类。原因在于计算机自动分析产生的层次化话题必须与现实世界有客观的联系。据此提出一个面向大规模真实数据的有充分理论依据的层次化话题发现与跟踪方法,并在集群系统上予以实现。  相似文献   

7.
引进文本相关度这一影响因子,提出了一种基于蚁群聚类算法的突发话题检测算法,该算法结合蚁群聚类算法的优势,综合考虑文本聚类和文本相关度的影响,得到对网络突发话题检测的最优聚类效果,并对近年来网络突发话题进行实验,达到了很好的聚类速度和聚类效果,验证了算法对突发话题检测的准确性和即时性.  相似文献   

8.
符号网络是一种具有正负项关系的社会网络,对其社区结构的检测可以挖掘其中有用的信息.将符号网络划分为全正和全负的子矩阵分别进行操作,同时引入更加适合符号网络社区检测的相关策略,如基于标签传播的种群初始化、改进的双点交叉算子、带局部搜索的突变算子等.在基准网络和随机网络上的测试数据表明,本文算法具有较好的检测社区检测效果.  相似文献   

9.
知网的话题更新与跟踪算法研究   总被引:1,自引:0,他引:1  
话题跟踪是一项面向新闻报道信息流进行已知话题跟踪的信息处理技术,本文在现有的向量空间描述文档的基础上,实现了一个基于话题更新的话题跟踪算法,提出了基于知网的近义动词分析的跟踪算法及基于知网的近义动词分析和话题更新的话题跟踪算法.实验表明话题更新和同义词近义词的消除提高了话题跟踪算法的性能.  相似文献   

10.
针对舆情话题演化中的话题漂移和衍生效应,提出基于时序主题信息的舆情话题演化分析方法并通过加入时序标签,对舆情热点话题内容和强度的演化过程进行了可视化.实例证明,该文提出的话题追踪算法能够有效探测出各阶段的舆情热点话题、分析舆情演化趋势,为突发事件发展态势的预测提供理论借鉴.  相似文献   

11.
任何一种语言的发展演变都有它的内部发展规律和发展趋向。随着西藏城镇化发展的加剧,更多农牧民迁居城市,与汉族及其他少数民族之间的交往日渐频繁,使西藏城镇化人口的语言使用必然会呈现出新的发展特点及规律。文章对西藏城镇化过程中藏语发展演变的因素、类型、特点等方面进行了探讨。  相似文献   

12.
根据藏语语料库建设的实际需求,提出一个基于语料库的藏语词类标注和分类方法,以便为藏语语料库建设提供一个可供参考的标准和方法.  相似文献   

13.
Internet AS级拓扑社团特征及其演化分析   总被引:1,自引:0,他引:1  
以CAIDA组织提供的海量的Internet AS级拓扑数据作为样本数据,分析了样本的覆盖问题和采样偏见问题,并对数据进行了修正.在此基础上,对2001年到2007年之间的Internet AS级拓扑数据进行了社团划分,并计算了模块度、社团规模等与社团演化相关的特征量,发现Internet AS级拓扑数据的社团特征越来越明显;同时,根据社团相关特征量分析了AS域内节点的动态行为特征.最后,根据分析结果研究了导致社团特征演化的成因.  相似文献   

14.
基于局部和全局的LDA话题演化分析   总被引:1,自引:0,他引:1  
章建  李芳 《上海交通大学学报》2012,46(11):1753-1758
对话题演化进行形式化描述,探讨了基于全局和局部话题演化的2种建模方式,并应用话题相似度和困惑度进行评测.对房地产话题和奥运会话题进行实例分析,给出了2种不同建模方法在话题演化方面的优缺点.两会报告实验结果表明,全局话题演化能够获得较好的模型参数,方法简单可靠;而局部话题演化则能产生细粒度话题,反映新话题的产生和旧话题的消亡.  相似文献   

15.
藏语语音合成语料数据库的优劣对合成语音质量有很大的影响,语料的设计考虑了音段和韵律,语料库中包含藏语的音节、词语、独白语句和情景对话语等.  相似文献   

16.
在自然语言处理中,词类划分属于基础研究,其重要性不可忽视。文章以明确藏语词类划分的标准入手,根据藏语自身的特点和规律性、系统性,从藏文信息处理的角度出发,提出了自己的见解和分类方法,致力于探索藏语词类的划分标准,为藏文信息处理各个层次的发展进行最基础的研究。  相似文献   

17.
基于藏语信息处理的词类体系研究   总被引:2,自引:0,他引:2  
在自然语言处理中,词类划分属于基础研究,其重要性不可忽视。文章以明确藏语词类划分的标准入手,根据藏语自身的特点和规律性、系统性,从藏文信息处理的角度出发,提出了自己的见解和分类方法,致力于探索藏语词类的划分标准,为藏文信息处理各个层次的发展进行最基础的研究。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号