首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
针对微博对社会舆情影响力日趋增大,设计了基于层次聚类的微博敏感话题检测算法,通过对微博内容的自动抓取,利用层次聚类算法实现对微博内容的智能识别,并以敏感话题为单位对微博内容进行分类.重点对层次聚类算法的实现过程进行研究,引入了词频、词性等关键参数因子,提高层次聚类算法分类精度.通过测试表明,检测算法的检测分类精度为95.3%,话题误判率不超过6%.  相似文献   

2.
提出了基于K-means的二阶段多类SVM分类方法.该方法分为二个阶段:第一阶段采用K-means聚类,通过抽样精度来提高聚类准确度;第二阶段采用LIBSVM进行分类.通过使用LIBSVM提供的语料进行实验,结果显示比直接使用LIBSVM进行分类准确度提高了9.35%.  相似文献   

3.
一种基于聚类树的增量式数据清洗算法   总被引:2,自引:0,他引:2  
研究了在数据模式与匹配规则不变的前提下 ,数据集动态增加时近似重复记录的识别问题 ,提出了一种基于聚类树的增量式数据清洗算法IACT .该算法通过构建聚类树先对记录进行分区 ,然后在划分的区域内进行相似度的计算识别出近似重复记录 ,从而完成了增量式相似重复记录的检测 .实验结果证明了IACT算法在无损精度的情况下 ,在效率上优于多趟邻近排序 (MPN)算法 .  相似文献   

4.
针对高分辨率极化SAR数据特征分布不再符合同质区域假设,进而导致基于统计分布的极化SAR影像非监督分类方法精度下降的问题,将具有广泛适用性的KummerU分布嵌入粒子群寻优聚类算法,提出了新的极化SAR影像非监督分类算法(PSO-KummerU方法):首先基于极化SAR统计特征对数据进行初分类,然后采用极化SAR统计特征与粒子群优化算法进一步进行聚类中心求解,分类准则部分采用KummerU距离改进代替传统的Wishart距离度量准则;采用3种非监督分类方法(H/α-Wishart、PSO-Wishart、PSO-KummerU方法)进行分类对比实验.实验结果表明:基于KummerU分布的PSO-KummerU方法与采用Wishart距离的聚类方法相比,目视效果明显改进,整体分类精度提高14%以上.  相似文献   

5.
不平衡数据的分类是机器学习的热点问题.传统的分类方法在分类时会倾向于多数类而使得分类精度不高.对不平衡数据集的分类,提出一种基于FCM结合KFDA方法,首先采用FCM算法对样本数据进行聚类,将数据聚类后的样本数据映射到特征空间里,再采用KFDA算法对数据进行分类,可以克服不平衡数据对分类性能的影响.对UCI数据集进行仿真实验,结果表明FCM-KFDA算法可以有效地提高数据识别率.  相似文献   

6.
针对多目标识别跟踪算法中存在的低效率、高能耗,易产生误检、漏检等问题,以跟踪精确率、能量损耗为评价指标展开研究.对目前定位与跟踪的相关算法进行分析,提出一种基于空间划分的目标图像识别与跟踪算法.利用空间分簇机制,实时收集目标的位置信息,同时,建立目标丢失与恢复机制,显著提高了目标的识别与跟踪精度,减少能量损耗.结果表明:与常规算法相比,所提算法跟踪成功率提高了10%左右,并能有效减少能量消耗,具有一定的实用价值.  相似文献   

7.
针对暴雨和冰雹2种强对流天气的区分问题,研究了主成分分析联合线性鉴别分析对雷达图像中提取的冰雹及暴雨特征降维和去相关的作用,设计了基于聚类评分的暴雨/冰雹分类模型,采用K均值聚类评分的办法确定具有高分类性的主成分,并以此主成分设计分类器对暴雨和冰雹进行区分.结果表明:主成分分析联合线性鉴别分析进行特征处理能够在降维的同时保留大部分分类性信息,基于聚类评分的分类模型有利于提高冰雹识别的命中率并降低其误警率,且对一般类型公共数据分类问题有效.  相似文献   

8.
在对高维大数量模式样本进行分类时,一般都要用逐步聚类方法多次完成。首先要尽量获取和利用先验知识进行初始划分,找出凝聚中心;再逐步调整进行细分类。本文提出一种新的聚类方法——(0,1)模型阵法。它可简单快速地完成高维大数量模式样本的粗分类,对提高后续的细调整分类提供一个良好的初始条件。在模式样本可分性较好或精度要求不高情况下,此方法是一种快速一次完成聚类法,不必再作后续精调。  相似文献   

9.
针对YOLOv3在道路目标检测中漏检率高和检测精度低的问题,提出一种基于改进YOLOv3的道路目标检测方法 。通过将原有YOLOv3的3个特征尺度增至4个,从而提升了对于小目标的检测准确率。使用CIoU损失函数提高模型的准确性,利用K-Means++聚类算法对道路目标重新聚类,得到新的候选框。在BDD100K数据集上的验证结果 表明,改进的YOLOv3算法在降低漏检率和提高检测精度方面效果较好。  相似文献   

10.
对象迁移自动机(OMA)是一种能够较好地解决话题识别与跟踪(TDT)中聚类问题的方法,但是,传统OMA模型由于聚类速度慢等缺点,难以满足TDT实时和增量聚类的要求.针对这一问题,本文一方面改进传统的OMA模型中自动机的动作设计,同时提出文档选择策略,加快了OMA的聚类速度.改进的方法在中等文档集上进行了实验,实验结果表明,该方法具有较好的聚类效果.  相似文献   

11.
随着现代档案管理数据量的不断增长,有效地对档案文本进行聚类划分能够提升档案分类和检索的效率。文中提出2种增量多模态文本数据聚类方法,通过对文本内容进行多视角分析,融合挖掘文本的潜在主题特征,提升文本聚类的准确性。此外,设计文本聚类多模态增量学习模型,提升海量、动态文本划分的效率。在文本数据集上的实验结果表明,文中提出的增量多模态文本聚类方法优于单模态和多模态聚类算法,能够对文本数据进行有效划分。  相似文献   

12.
针对MinMax k-means算法易产生空解、 收敛速度慢和计算效率低的问题, 提出一种增量式MinMax k-means聚类算法. 该算法从给定的初始聚类个数开始, 以固定步长递增式产生新的聚类中心, 采用基于数据均衡的快速分裂方法产生增量聚类中心, 从而避免了传统增量聚类中心选择中遍历数据、k-means聚类算法运行次数过多导致的大计算量问题. 与MinMax k-means及相关算法的对比实验结果表明, 该算法在计算效率和求解精度上均优于对比算法, 有效改善了MinMax k-means聚类对初始化中心敏感和易产生空解的问题.  相似文献   

13.
将文本之间存在的时序关联性元信息和文档的标签信息, 引入到隐藏Dirichlet分配模型中, 提出一种在线增量标签主题(on line labeled incremental topic model, OLT)模型. 首先, 在线增量标签主题模型优化了文本标签元信息与主题之间的映射关系; 其次, 利用动态字典增加了模型与文本的拟合程度. 该模型优化了
先验分布超参数迁移计算的连续性, 解决了隐藏Dirichlet分配(LDA)模型不能利用文本属性与主题之间的相关性进行主题发现及演变分析的问题. 实验结果表明, 所提出的在线增量标签主题模型能显著改善多标签判别精度, 提高模型的泛化能力并提升模型的运行性能.  相似文献   

14.
In this study, we address the problems encountered by incremental face clustering. Without the benefit of having observed the entire data distribution, incremental face clustering is more challenging than static dataset clustering. Conventional methods rely on the statistical information of previous clusters to improve the efficiency of incremental clustering; thus, error accumulation may occur. Therefore, this study proposes to predict the summaries of previous data directly from data distribution via supervised learning. Moreover, an efficient framework to cluster previous summaries with new data is explored. Although learning summaries from original data costs more than those from previous clusters, the entire framework consumes just a little bit more time because clustering current data and generating summaries for new data share most of the calculations. Experiments show that the proposed approach significantly outperforms the existing incremental face clustering methods, as evidenced by the improvement of average F-score from 0.644 to 0.762. Compared with state-of-the-art static face clustering methods, our method can yield comparable accuracy while consuming much less time.  相似文献   

15.
针对聚类算法在入侵检测应用中存在的参数预设、聚类有效性评价、未知攻击类型检测等问题,提出了一种基于密度和最优聚类数的改进算法,根据样本的分布情况启发式地确定初始聚类中心,从样本的几何结构角度提出一种新的内部评价指标,给出了最优聚类数确定方法,在此基础上,设计了一个增量式的入侵检测模型,实现了聚类中心和聚类数目的动态调整.实验结果表明,与K-means及其他两种改进聚类算法相比,新算法收敛速度更快、聚类准确率更高,能够对未知网络行为进行有效聚类,具有较好的入侵检测效果.  相似文献   

16.
通过改进的Single Pass增量文本聚类算法, 以话题为粒度对新闻信息进行组织, 实现网络新闻话题的发现. 该方法考虑了新闻的动态性和时间特性, 在特征词项权重计算中从词项在标题和正文中的位置信息及词项的增量文档频率两方面进行优化, 同时在相似度的计算中添加了时间因素及聚类中动态更新话题的质心向量. 应用 基于主题的网络爬虫构建的新闻等语料作为测试数据集, 实验结果表明, 改进算法较传统算法在耗费代价和错检率上分别降低0.34%和1.57%, 验证了改进算法的有效性和准确性.  相似文献   

17.
针对传统属性相似度告警聚类不能充分挖掘告警属性语义信息的不足,结合自动交换光网络(automatically switched optical network,ASON)的告警特点,分析了告警属性语义信息对告警聚类的作用,定义了具有分层特点的属性相似度函数,增强了聚类结果的客观性,并利用历史告警库复杂度和聚类扩充率对聚类效果进行了比较分析。实验表明,新方法与传统的告警属性相似度聚类方法相比,具有更高的准确性。对于在特定时间段内故障类型较多的情况,新方法具有较好的适应性。  相似文献   

18.
针对批量钻削工序质量检测问题,采用声发射传感器采集工序加工过程中的声发射信号,提取其时域统计特征,构造工序过程信号的特征向量,根据密度带噪声的空间增量聚类算法(InDBSCAN)对工序过程中的声发射信号特征向量进行增量聚类,以分析批量工序质量.考虑到插入数据点在促成新类创建的同时可能引起已存在的不同类合并的情况,改进InDBSCAN算法.实验结果表明:改进的InDBSCAN算法使插入数据点的增量聚类更加合理,工序质量分布状况检测准确率达84.03%.  相似文献   

19.
增量聚类算法综述   总被引:2,自引:1,他引:1  
给出了增量聚类的概念,分析了增量聚类方法可以用于解决数据的变化和大量存储空间的需求问题。增量聚类算法选择恰当时,可以保证数据在变化时有效地提高聚类的精度和效率。从传统聚类、生物智能聚类和数据流聚类三个角度研究了增量聚类问题,分析了增量聚类问题的研究进展,包括发展的过程及特点,阐述了研究增量聚类问题的关键技术,最后给出了未来的发展趋势。  相似文献   

20.
提出了一种基于簇特征的文本增量聚类算法:充分利用简单、有效的k-means算法来进行初始聚类,并保留聚类后每个簇的簇中心、均值、方差、文档数、3阶中心矩和4阶中心矩作为该簇的簇特征,当出现新增数据时,利用初始簇的簇特征对新增数据进行聚类.在20newsgroups数据集上的实验结果表明:相比于对整个数据集进行重新聚类,该算法具有一定的优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号