共查询到20条相似文献,搜索用时 78 毫秒
1.
层次化话题发现与跟踪方法及系统实现 总被引:2,自引:0,他引:2
自1996年话题发现与跟踪评测启动以来,该研究受到普遍关注,取得巨大进步,也遇到诸多困难。通过分析大量话题数据,提出层次化话题与层次聚类的区别在于话题的层次是由事件的构成决定的,层次化话题应当分为三层,即微类、中类和上类。原因在于计算机自动分析产生的层次化话题必须与现实世界有客观的联系。据此提出一个面向大规模真实数据的有充分理论依据的层次化话题发现与跟踪方法,并在集群系统上予以实现。 相似文献
2.
周期分类和Single-Pass聚类相结合的话题识别与跟踪方法 总被引:1,自引:0,他引:1
针对增量式聚类初始时话题模型不够充分和准确,随处理报道数量增加,误检与漏检的累积效应被放大的问题,提出了周期分类和Single-Pass聚类相结合的话题识别与跟踪方法.首先采用增量式聚类算法进行话题识别与跟踪,当新闻文本每积累到一定程度之后,对已经聚类的报道进行周期分类,使话题簇精度提高,从而提高后续话题识别与跟踪精度.实验表明这种方法是有效的,能够降低漏检率与错检率,减少归一化错误识别代价. 相似文献
3.
由于互联网+提出的,网络信息呈现爆炸的趋势。面对海量数据如何准确找到热点事件成了网民关注的话题。文章从实际应用出发,首先对每一篇文本选取5句话作为该文本关键句,然后用TF-IDF计算特征词值,特征向量选择时不考虑单个字的权重,再用K-means算法进行聚类。以新浪新闻为例,将环境、住房和违法三类话题共322篇文本作为测试语料进行聚类,聚类准备率达到70%以上,说明选取关键句比将整个文本作为聚类对象的聚类效果好。 相似文献
4.
一种突发性热点话题在线发现与跟踪方法 总被引:1,自引:0,他引:1
针对在线发现与跟踪动态突发性文本流中的热点话题问题,在突发性热点词发现与度量方法的基础上提出了一种动态文本模型—动态突发性向量空间模型,用于有效描述文本的动态属性,并且结合文本聚类方法,提出了突发性热点话题的在线发现与跟踪方法.该方法可有效解决传统的基于静态向量空间模型的热点话题发现与跟踪方法仅可分析静态文本的缺陷,并... 相似文献
5.
对象迁移自动机(OMA)是一种能够较好地解决话题识别与跟踪(TDT)中聚类问题的方法,但是,传统OMA模型由于聚类速度慢等缺点,难以满足TDT实时和增量聚类的要求.针对这一问题,本文一方面改进传统的OMA模型中自动机的动作设计,同时提出文档选择策略,加快了OMA的聚类速度.改进的方法在中等文档集上进行了实验,实验结果表明,该方法具有较好的聚类效果. 相似文献
6.
通过改进的Single Pass增量文本聚类算法, 以话题为粒度对新闻信息进行组织, 实现网络新闻话题的发现. 该方法考虑了新闻的动态性和时间特性, 在特征词项权重计算中从词项在标题和正文中的位置信息及词项的增量文档频率两方面进行优化, 同时在相似度的计算中添加了时间因素及聚类中动态更新话题的质心向量. 应用
基于主题的网络爬虫构建的新闻等语料作为测试数据集, 实验结果表明, 改进算法较传统算法在耗费代价和错检率上分别降低0.34%和1.57%, 验证了改进算法的有效性和准确性. 相似文献
7.
话题检测的提出是为了帮助人们从海量的新闻报道中发现未知的新话题,其中文本聚类算法的研究,是实现藏文新闻文本的话题检测技术的核心.本文提出一种聚类算法,是基于简易聚类算法的改进,首先改进了文本顺序对聚类结果产生的影响,其次通过确定种子话题,来确定话题的类别.本研究的聚类算法在较小规模的语料中比改进前源算法有一定程度的提高.本文的研究对象是藏文网站中的新闻文本. 相似文献
8.
网络舆情热点发现是一种常用且处理速度要求较高的应用.针对网络舆情热点发现这一特殊应用场合,本文提出了一种基于随机N-Gram的文本聚类方法AR-Grams.该方法通过随机N-Gram的文本相似度计算方法,确立待聚类文档集中各个初始聚类的标志文档并完成初步的聚类操作,继而通过聚类元素数阈值来确定初始聚类,并可根据实际情况确定是否执行聚类合并.该方法生成的聚类内聚性好,准确率高.另外,为了便于评估整体的聚类效果,提出了聚类的整体覆盖率和正确覆盖率.实验结果表明:与对比方法DR-Grams相比,在低阈值时,AR-Grams的准确率、召回率、F-score、正确覆盖率分别提高了11.9%、9.1%、10.2%和9.2%,提升效果尤为明显;在高阈值时,效果基本相当;在整体上,前述4项指标则分别提高了4.5%、2.9%、3.5%和3.0%,优于对比方法DR-Grams. 相似文献
9.
10.
11.
城乡一体化是工业化、城市化、农业产业化的融合、深化和延伸,是经济社会发展变化的高级形态。发挥骨干企业在珠江上游城乡一体化进程中的主体作用,是由珠江上游城乡一体化的历史任务和骨干企业的特有地位决定的。针对骨干企业在珠江上游城乡一体化中发挥作用的有利条件和不利因素,应主动采取培育农业产业化龙头企业、加强骨干企业同农村产业的联系、推动骨干企业向劳动密集型产业延伸等基本策略,以有效推进珠江上游城乡一体化进程。 相似文献
12.
13.
冯钟宁 《广西民族大学学报》1997,(2)
在科学探索中的机遇,需要具有二个方面的涵义:(1)有科学的头脑,用科学假说与科学思维来推测,符合历史发展的客观规律的逻辑思维来指导思路.(2)有促进机遇形成的条件,使机遇的形成具有逻辑性、完善性. 相似文献
14.
以山西省企业专利申请的总体发展趋势、专利类型构成、专利技术领域、专利申请人等角度为切入点,对山西省企业重点技术领域专利申请状况进行深入分析,旨在为山西省企业提高自主创新能力,实现转型跨越发展提供决策参考。 相似文献
15.
董雁适 《上海交通大学学报》2005,39(10):1668-1671
由于传统的组分分离-测试方法效率低并难以发现组分间的协同关系,逐步回归等传统统计分析方法又不可靠.用因果关系发现算法发现了关键化学组分,针对组效关系数据多为高维小样本的特点,提出了一种新的关系发现算法,并用此算法成功辨识出一种中药材川芎的关键组分,证明了该方法的可行性. 相似文献
16.
在AutoCAD Object ARX丰富类库的基础上,设计若干关键算法来完整地实现对多个指定区域内图形的识别及分类的想法.通过推广点是否在区域内的判定算法发展出新的图形区域重叠判别算法.在关键功能模块的实现中,采用基于图块识别技术进行分类统计.这里所实现的技术对大规模建筑群内的建筑材料、装饰家具等基本构件的布置、判别、统计及其报价的智能化具有重要意义. 相似文献
17.
传统的TLD目标跟踪算法由于检测区域过大导致检测时间过长,并对相似目标跟踪效果不理想且只能对单个目标快速跟踪.针对这些问题,利用双Kalman滤波加速预测的DKF检测区域优化算法构造了一种检测区域可自适应调整的多目标跟踪算法——TLD-DOMO算法.TLD-DOMO算法的多目标检测器可对各目标的潜在运动范围进行预测,使其检测区域的大小及位置自适应地调整至最佳状态,以此提升对多目标跟踪的精度及效率.此外,该方法可有效地降低多目标间的相互干扰,支持对多相似目标的同时跟踪.实验结果表明:TLD-DOMO算法在对各测试视频的多目标跟踪中,跟踪速度均有提升,加速比为1.55~2.94倍;在多相似目标跟踪中,对各目标的检测与识别效果优于原TLD算法. 相似文献
18.
刘耀斌 《淮阴师范学院学报(自然科学版)》2010,9(3):231-235
数学具有高度的抽象性、严密性与应用的广泛性等特点.数学抽象舍弃了事物的质的方面,而仅仅保留量及其关系,这种量与关系不只存在于一种特定的运动形态中,而是存在于所有的运动形态中,凸显了数学在科学发现中的重要作用. 相似文献
19.
为了挖掘桃蚜(Myzus persicae)的关键抗性基因并构建抗性调控网络,通过加权基因共表达网络分析(WGCNA)和差异表达基因分析(DEGs)对桃蚜抗性研究的GEO数据库进行分析,筛选出2 426个枢纽基因和2 263个差异表达基因探针.将关键抗性基因在String数据库中进行蛋白质相互作用(PPI)分析,获得154个桃蚜关键抗性基因,并绘制桃蚜的抗性调控网络.结果表明:acpp基因的上调表达可能是大多数Cry蛋白不能有效杀死桃蚜的原因之一;参考抗蚜Cry1Cb2蛋白和11个靶标蛋白的对接规则,通过同源建模和分子对接等生物信息学技术,预测了10个新的Cry蛋白可能对桃蚜具有杀虫活性. 相似文献
20.
近年来,有机电化学研究一直备受研究者关注,其研究成果被广泛应用于医药中间体、农药、染料、新型功能材料、新能源等众多领域中.从有机电化学在分析与合成两个方面,对目前有机电化学的研究现状和热点进行了概述. 相似文献