首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
针对微博对社会舆情影响力日趋增大,设计了基于层次聚类的微博敏感话题检测算法,通过对微博内容的自动抓取,利用层次聚类算法实现对微博内容的智能识别,并以敏感话题为单位对微博内容进行分类.重点对层次聚类算法的实现过程进行研究,引入了词频、词性等关键参数因子,提高层次聚类算法分类精度.通过测试表明,检测算法的检测分类精度为95.3%,话题误判率不超过6%.  相似文献   

2.
针对大学生就业问题,以层次聚类策略为技术支撑,架构出一种就业去向短期预测系统.根据待挖掘数据量,选取簇间距离度量标准,架构簇与子簇构成的层次聚类树,完成目标数据的聚类或分类处理.构建层次聚类算法模块中相关算法运行流程,结合预测系统用户与管理员的角色职责,设计多个系统数据库实体.建立各实体间关系的映射模型,基于此完成数据...  相似文献   

3.
聚类是数据挖掘中重要的功能算法,其主要的功能是发现数据中潜在的知识.目前文献发表的聚类算法多数仅限于处理单一数值型数据或者分类型数据,其主要原因是含有多种类型的混合型数据间的相似性很难度量.本文提出了一种混合数据相似性度量方法:对于分类型属性,利用互信息构建贝叶斯信念网络,利用贝叶斯信念网络构建关系层次,继而为层次附上距离,形成关系层次距离,而对于数值型属性则利用标准化的曼哈顿距离来度量其相似性,最后结合分类型属性与数值型属性来对整个数据集进行相似性的度量.在此基础上,设计实现了用于混合型数据聚类算法CRHD,并通过UCI中的多个数据集和已有算法进行仿真实验对比,证明了CRHD算法的有效性.  相似文献   

4.
目的利用层次聚类与人工免疫模式识别相结合的方法解决无监督结构健康监测中对结构故障识别和分类的问题.方法通过凝聚型层次聚类实现样本数据的分类,通过模仿生物免疫识别和学习机理来训练记忆细胞集合,进而实现对结构故障的识别与分类.结果在benchmark结构模型上的仿真实验测试结果表明在抗原样本数据中采用凝聚型层次聚类和方法能够成功地确定抗原样本数据的模式数目,继而采用人工免疫模式识别算法对实测数据进行模式识别与分类,分类成功率为81%.结论基于层次聚类和人工免疫的无监督结构故障检测与分类算法通过免疫学习和进化产生高质量的记忆细胞,从而有效地识别结构故障模式.  相似文献   

5.
针对传统FCM算法在图像分割中存在的过度依赖初始聚类中心、计算复杂度高等问题,结合层次聚类与直方图峰值检测,提出了一种新的FCM图像分割算法.首先根据图像灰度直方图统计信息对图像进行层次聚类,然后将得到的聚类中心作为FCM算法的初始聚类中心对图像进行分割.该算法无需预先设置聚类数目,能自动搜索全局最佳聚类中心.实验结果表明,相比传统FCM算法和峰值检测的FCM算法,该算法不仅可以有效地提高图像的分割效率,而且分割结果更加精确.  相似文献   

6.
基于信息熵改进的 K-means 动态聚类算法   总被引:3,自引:2,他引:1  
初始聚类中心及聚类过程产生的冗余信息是影响K-means算法聚类性能的主要因素,也是阻碍该算法性能提升的主要问题.因此,提出一个改进的K-means算法.改进算法通过采用信息熵对聚类对象进行赋权来修正聚类对象间的距离函数,并利用初始聚类的赋权函数选出质量较高的初始聚类中心点;然后,为算法的终止条件设定标准阈值来减少算法迭代次数,从而减少学习时间;最后,通过删除由信息动态变化而产生的冗余信息来减少动态聚类过程中的干扰,以使算法达到更准确更高效的聚类效果.实验结果表明,当数据样本数量较多时,相比于传统的K-means算法和其他改进的K-means算法,提出的算法在准确率和执行效率上都有较大提升.  相似文献   

7.
CABOSFV_C是一种针对分类属性高维数据的高效聚类算法,该算法采用集合稀疏差异度进行距离计算,并采用稀疏特征向量实现数据压缩。该算法的聚类效果受集合稀疏差异度上限参数的影响,而该参数的选取没有明确的指导。针对该问题提出基于集合稀疏差异度的启发式分类属性数据层次聚类算法( heuristic hierarchical clustering algorithm of categorical data based on sparse feature dissimilarity,HABOS),该方法从聚结型层次聚类思想的角度出发,在聚类数上限参数的约束下,应用新的内部聚类有效性评价指标( clustering validation index based on sparse feature dissimilarity, CVISFD)进行启发式度量,从而实现对聚类层次的自动选取。 UCI基准数据集的实验结果表明,HABOS有效地提高了聚类准确性和稳定性。  相似文献   

8.
针对电子病历中疾病诊断文本同义词识别和命名标准化问题,提出了一种自适应的文本聚类方法.首先提出了一种新的基于集合的文本相似性度量算法;然后采用基于相似度分布的文本聚类算法实现同义文本识别,该算法能够自动确定类簇个数;最后采用基于序列模式的中心概念提取算法实现了疾病命名的标准化,同时对聚类簇进行合并和优化,进一步提升了聚类的准确性.测试结果表明,所述方法具有较高的准确率和聚类效率,在病历文本的预处理、分类和分析中具有广泛意义.  相似文献   

9.
基因表达模式分析及软件系统   总被引:2,自引:0,他引:2  
研究和实现了4种基因表达模式的聚类方法,开发了基因表达模式分析软件系统.该软件包含了两两平均连锁聚类法、系统聚类法、自组织特征映射法和模糊聚类等聚类算法,其中模糊聚类算法是首次用于基因表达模式分析.该软件同时具有数据过滤、多种相似性度量选择、聚类方法选择和结果可视化等功能.对于同一组基因表达数据,可通过不同的聚类算法的组合,提供更多的基因分类信息,为生物体复杂的基因表达模式研究提供了一个重要的综合分析平台.  相似文献   

10.
针对传统Mashup服务推荐在网络构建方式的成本和计算复杂性过高问题, 提出一种基于半监督层次聚类描述的Mashup服务推荐算法. 首先, 利用网爬工具收集ProgrammableWeb上的Mashup服务信息, 并采用后缀剥离算法把Mashup服务的标签信息修改为名词形式, 以此作为研究分析的数据集; 其次, 为提高聚类精度, 提出一种半监督层次描述聚类算法, 通过植入层次聚类算法顶层核心集方式, 有效解决了传统层次描述聚类因顶层分类集构造失败而影响Mashup服务推荐算法的准确度. 通过在聚类数据集和网爬Mashup服务数据库上的实验表明, 该算法的Mashup服务推荐准确率优于对比算法.  相似文献   

11.
提出了一种基于机器学习的Web文本自动分类的信息检索解决方案。采用层次约束法完成文本自动抓取功能,文本频度与词条频度相结合的文本特征选择算法实现特征提取,并采用特征加权技术进一步提高文本分类性能。该算法不仅实现中文文本的自动分类,有效地提高Web信息检索的精度,而且能大大降低人工二次浏览筛选的工作量,还可用于电子政务和电子商务信息的自动分类。  相似文献   

12.
基于潜在语义空间维度特性的多层文档聚类   总被引:2,自引:0,他引:2  
为实现文档在不同概念层次下的自动聚类,研究了潜在语义空间中维度的统计特性,发现对应大奇异值的维度描述了语义元素间的共性,对应小奇异值的维度描述了语义元素间的特性,呈现出潜在语义空间维度与概念粒度之间隐含的对应关系.基于这种认识,通过采用不同维度来实现文档在不同概念粒度下的聚类,并获得了很好的聚类准确率.另外,在基于潜在语义分析的文档聚类算法中,采用文档自检索矩阵的行向量,代替低维文档向量作为聚类对象,获得了更好的聚类准确率.  相似文献   

13.
一种基于密度的聚类算法实现   总被引:1,自引:0,他引:1  
基于密度的聚类算法OPTICS是一种大规模数据库的聚类算法,它是基于核心对象和可达距离来实现的.对于每一个核心对象将其邻域内的所有对象按到该核心对象的可达距离进行排序,每次都选择1个到该核心对象具有最小的可达距离的对象进行信息更新.算法实现采用优先队列保存候选对象以加快处理速度,最后用UCI数据集对算法进行聚类效果测试,结果表明OPTICS算法对数据集产生一个基于密度的簇排序结构.  相似文献   

14.
谱聚类是目前最有效的视频镜头聚类算法之一,但是如何自动选择最优化的分类个数仍是谱聚类算法中的难题。该文提出一种基于最优化分类的视频镜头谱聚类算法,对每个镜头采用分区域的Gauss混合模型(DGMM)进行特征建模,并提取模型参数特征作为镜头谱聚类的特征向量,通过构造DGMM和谱聚类的联合评价函数来自动选择最优化的分类个数和特征空间维数。实验结果表明,该文提出的算法比原有谱聚类算法分类结果更加准确和有效。  相似文献   

15.
基于K-均值聚类算法的中药叶片显微图像分割   总被引:1,自引:0,他引:1  
本文试图利用图像分割技术,实现叶片自动分类。为了充分利用像素的色彩,分割算法在RGB颜色空间进行。颜色空间数据量巨大,直接进行聚类效率太低,因此,本文运用一种特殊的存储结构存储颜色空间数据,按颜色的密度特征对图像中的颜色进行排序和聚类,并根据待聚类色彩与已有聚类中心距离是否小于类内最大距离来决定归入已有的类或形成一个新的类。实验结果表明算法具有较好的分类效果。  相似文献   

16.
研究并提出了基于Hyperlink聚类的分类算法,它不需要分析Web文档内容,只根据Web图来聚类,算法性能比传统文本分类方法有很大提高,大大增强了网页分类的能力和效率,适合于海量网页分类,实验表明基于Hyperlink聚类的分类算法,应用于Web文档信息分类,比传统的文本分类方法更加有效。  相似文献   

17.
为了探究面向汽车主动安全技术功能验证的测试场景的科学构建方法,构建符合真实交通状况的高保真测试场景。以自动紧急制动(autonomous emergency braking, AEB)系统为研究对象,以美国高速公路安全管理局事故数据库中筛选出的AEB系统功能适用的6 639起道路交通事故为研究样本,通过机器学习方法实现了由事故数据到测试场景的科学转换。针对传统聚类算法的缺陷,提出了基于层次聚类和K-means聚类相结合的融合聚类算法,并引入聚类曲线以开展事故数据样本的聚类分析。根据聚类获取的12类典型事故场景,构建了面向AEB系统功能验证的14种测试场景。结果表明:相比于传统的K-means聚类算法,融合聚类算法平均减少了8次迭代次数;聚类结果平均减少3%的波动;实现事故数据样本的科学准确聚类且提升数据聚类效率。所提出的测试场景在实现对现有AEB测试场景有效覆盖的同时,为标准测试场景的进一步扩充提供了有力支撑。  相似文献   

18.
基于分类的统计语言模型是解决N-gram语言模型中数据稀疏问题的有效方法之一,词的自动聚类算法一直是一个难点.如何设计一种计算速度快、收敛性好的算法是关键.提出一种根据词的上下文环境,综合考虑语言模型的困惑度和词的相似度的自动聚类算法.把词的自动聚类和提高基于分类的语言模型的性能联合起来考虑.实验结果表明,该算法执行效率高、聚类效果好.  相似文献   

19.
提出了一种图聚类方法,即发现软件系统中组合横切关注的方面挖掘方法.该图聚类方法不仅考虑了连接度,亦考虑了相似度.采用一个新的图聚类算法来发现组合横切关注,一个组合横切关注也是一个软件模块,既包含相似的元素,又包含连接紧密的元素.利用程序元素之间的相似度和连接度,采用基于authorityshift的有向图层次聚类算法,来发现属于同一软件模块的程序元素集合;然后采用fan-in技术来确认组合横切关注模块.对比实验结果验证了该方面挖掘方法的有效性.  相似文献   

20.
传统的聚类分析方法一般都没有考虑大容量数据集合的问题,而数据挖掘技术的研究重点之一就是如何从海量数据中高效率地获取知识。结合基于分类方法的K-means中心点算法以及基于层次方法的BIRCH增量算法提出核心树(Core-Tree)的思想来弥补两个算法的缺点,使用中心点的思想来表示BIRCH算法中汇总信息,利用类核心的思想来提高确定中心点的效率。因此,提出一种聚类算法,主要集中在如何提高大型数据集合的聚类效率、如何处理具有各种特征的数据集合。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号