共查询到19条相似文献,搜索用时 46 毫秒
1.
聚类作为一种无监督的学习方法,利用对数据的分析从中发掘有用的信息。聚类质量的高低通常取决于聚类方法所使用的相似性度量方法和实现方式。文章中提出了一种有效的面向高维数值型数据的聚类方法——新的线性相似性度(LM),可以较好地识别开难于区分的数值型数据。通过与三种经典方法比较,实验结果显示该类方法对数值型高维数据有较高的灵敏度。 相似文献
2.
目的通过对现有聚类常用算法的研究,给出一种适用于大规模中文文本数据集聚类的算法DBTC(density basedtextclustering)。方法采用在DBSCAN算法基础上改进提出的DBTC算法,对中文文本数据集进行聚类。结果DBTC算法可以发现任意形状的簇,对中文文本聚类的准确率高达80%以上。结论经过分析和实验证明DBTC算法比基本的DBSCAN算法更适合于大规模数据集。 相似文献
3.
聚类分析是数据挖掘与知识发现领域的一个重要研究方向.多数聚类算法中相似性是其核心概念之一,对象之间的相似性会被直接或者间接的计算出来.传统的相似性度量方法多是基于单一的粒度去观察两个被测对象.在人类认知过程中,通常采用多粒度来更合理有效地进行问题求解.本文借鉴人类的这种多粒度认知机理,提出一种新的相似性学习方法,称作全粒度相似性度量方法,基于此发展了一种全粒度聚类算法.而全粒度相似性度量从各个角度观察被测对象,进而会得到两个对象间更加真实的相似度.从UCI数据集中选取5组数据进行实验,最后通过与两种传统的聚类方法比较验证了全粒度聚类算法的合理性与有效性. 相似文献
4.
刘健 《科技情报开发与经济》2008,18(20):132-133
提出了一种基于资源相似性的Web访问序列模式的相似度量方法,并且考虑了用户访问资源的时间因素,经过检验,证明其能够有效真实地反映实际情况。 相似文献
5.
在对我国证券市场交易数据的研究基础上,提出了一种新的面向金融时间序列的相似度量模型。此模型的数学定义清晰,易于计算机实现,能够有效完成形态搜索的自动化。给出了模型的形式化定义和模型的性质,并在实际股票交易数据上进行了相似性搜索实验,实验结果验证了模型的识别能力。 相似文献
6.
7.
8.
冯少荣 《同济大学学报(自然科学版)》2008,36(12)
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题. 相似文献
9.
定义了一种基于滑动匹配的相似度, 并在此基础上提出一种能够自适应确定聚类数目的全局K-均值算法, 解决了现有共调控基因聚类方法无法考虑到基因的正反、 延时、 部分时间和差异表达全部4种共调控关系的问题. 将提出的算法应用于微阵列数据中, 并将实验结果与CLUSTER 3.0算法进行了比较, 验证了算法的可行性和有效性. 相似文献
10.
高维聚类中的一种特征筛选方法 总被引:3,自引:0,他引:3
聚类分析是数据挖掘领域中一个基础而活跃的研究课题。由于大多数的聚类方法在处理高维数据时会出现高维失效问题,维简约成为高维聚类中一个非常重要的处理步骤。通过分析对象间相似性度量与原始数据分布间的关系,提出一种基于熵的特征筛选方法。该方法通过构造一个基于对象间相似度的熵度量,对原始特征集中的每个特征进行重要性评估,从而获得重要特征子集。实验结果显示,该方法可以有效剔除高维数据集中的不重要或噪声特征,改善聚类算法的性能和聚类结果的可理解性。 相似文献
11.
为了实现对数据流的序列模式挖掘,提出了基于数据流的序列模式挖掘算法MFSDS-1和MFSDS-2,它们均通过调整入选度的大小来调整保存信息的粒度.算法MFSDS-2利用分层存储结构,不仅能更好地保存序列信息,而且可以通过与全局序列模式的对比得到当前活动的一些异常序列模式.实验结果表明,基于分层存储的算法MFSDS-2的效率比算法MSFDS-1高. 相似文献
12.
董萍 《长春师范学院学报》2008,27(1):35-37
生物序列相对于传统序列来说具有自己的特征。不同的序列模式挖掘算法应用到生物序列中有不同的特点和效率。本文分析目前比较流行的五种模式挖掘算法的运行过程,当应用到生物序列中时,分析了各个算法的性能,从而可以得出哪种算法更适应于不同类型的生物序列频繁模式挖掘。 相似文献
13.
宋楚平 《重庆邮电大学学报(自然科学版)》2014,26(2):280-284
针对光纤接入(fiber to the x,FTTx)网络规划中频繁路径挖掘问题,在经典算法FP-Growth,SPADE的基础上,结合格理论,利用频繁项集扩展枚举树作为搜索空间,并引入位图方便扩展运算和支持度计算,提出了一个改进的频繁序列挖掘算法FSM+。详细介绍了该算法的相关性质和基本理论,阐述了该算法的基本思想和实现伪码。在VC++6.0和单机的环境下,利用不同规模用户装机数据集和最小支持度比较了该算法与SPADE,FP-Growth算法的性能和准确性。实验证明,FSM+算法在小规模数据集下性能优势并不明显,但在大数据集下其计算性能分别是SPADE,FP-Growth的5倍和7倍多,挖掘结果与SPADE,FP-Growth算法相同。从而在实际网络规划过程中,快速计算信任度较高的频繁模式,并与人工经验干预相结合,来进一步保证预测路径准确有效。 相似文献
14.
DONG Ping 《长春师范学院学报》2008,(2)
生物序列相对于传统序列来说具有自己的特征。不同的序列模式挖掘算法应用到生物序列中有不同的特点和效率。本文分析目前比较流行的五种模式挖掘算法的运行过程,当应用到生物序列中时,分析了各个算法的性能,从而可以得出哪种算法更适应于不同类型的生物序列频繁模式挖掘。 相似文献
15.
跳频序列的选择是决定跳频电台异步组网质量的重要因素。针对异步组网跳频序列的优选问题,结合异步组网跳频通信特点,定义了频率相似度、序列相似度和总体相似度,构建了异步组网可选跳频序列相似度模型。通过引入层次聚类分析法,解析了跳频序列在特征空间中的聚类结构。根据网间互扰度与序列相似度正相关的原则,从不同聚类中优选序列,组成跳频序列对,选出相似度最小的一组,即为异步组网的最优跳频序列组合。理论和仿真实验分析表明,层次聚类分析法简单易懂,可操作性强,具有较好的适应性和效率,所建相似度模型合理有效,能够较好地解决异步组网中跳频序列的优选问题。 相似文献
16.
频繁序列模式挖掘算法 总被引:5,自引:0,他引:5
为解决从数据库中挖掘长模式和支持度较低时可能遇到计算复杂度较高的问题,提出一种新的算法--EFSPAN(Effective Frequent Sequential PAtterN mining algorithm).算法采用了深度优先挖掘策略,并将基于前缀序列格的深度优先遍历与两种高效的剪枝策略相结合.实验结果表明:新算法在模式较长和支持度较低时,能使搜索空间中60%以上的节点免被搜索;从而大大缩小了搜索空间,降低了序列模式挖掘算法的计算复杂度. 相似文献
17.
频繁模式不能反映模式内部各项目之间的关联和相关关系,频繁关联模式挖掘与孥繁相关苎式兰苎已越来越受到人们的重视.按照相关模式定义,如果一个模式是相关模式,其超模式一定是相关模式,最小频繁相关模式挖掘将大大减少挖掘出来的数量,有利于用户分析.给出最小频繁相关模式挖掘算法,并在标准数据挖掘数据集蘑菇数据上测试,实验证明算法是正确有效的. 相似文献
18.
为了实现对数据流的序列模式挖掘,提出了基于数据流的序列模式挖掘算法MFSDS-1和MFSDS-2,它们均通过调整入选度的大小来调整保存信息的粒度.算法MFSDS-2利用分层存储结构,不仅能更好地保存序列信息,而且可以通过与全局序列模式的对比得到当前活动的一些异常序列模式.实验结果表明,基于分层存储的算法MFSDS-2的效率比算法MSFDS-1高. 相似文献
19.
一个基于时间窗口的入侵检测算法 总被引:1,自引:0,他引:1
入侵检测是计算机安全机制的一个重要组成部分 ,由于它需要从大量的系统审计数据中进行准确、高效的分析 ,因而适宜用数据挖掘的方法来发现规则 .本文给出了一个基于时间窗口的数据挖掘算法来发现入侵行为 ,在文章末对算法的优缺点进行了讨论 相似文献