首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
文章研究了利用序列模式的挖掘结果对序列数据库进行再发现的问题,提出一种利用已发现序列模式对数据库中的数据序列进行聚类的方法SPSC.该方法利用发现的序列模式定义了数据序列之间相似度函数和数据序列分组的平均值,使得经典聚类方法k-means可以应用于序列型数据,实现了对包含相似模式的数据序列进行聚类;理论分析和实验表明,与已有的序列聚类方法相比,该文所提出的方法不仅可以得到更加优化的聚类,而且效率更高.  相似文献   

2.
一种增量式文本软聚类算法   总被引:1,自引:0,他引:1  
针对传统文本聚类算法时间复杂度较高,而与距离无关的算法又不适用于动态、变化的文本集等问题,提出了一种基于语义序列的增量式文本软聚类算法.该算法考虑了长文本的多主题特性,并利用语义序列相似关系计算相似语义序列集合的覆盖度,同时将每次选择的具有最小熵重叠值的候选类作为一个结果聚类,这样在整个聚类的过程中大大减小了文本向量空间的维数,缩短了计算时间.由于所提算法的语义序列只与文本自身相关,所以它适用于增量式聚类.实验结果表明,算法的聚类精度高于同条件下的其他聚类算法,尤其适合于长文本集的软聚类.  相似文献   

3.
针对文本在聚类或分类时,由于数据高维稀疏导致相似度值低的问题,提出一种基于改进文本相似度计算的聚类方法.首先,利用向量空间模型VSM表示文本,采用余弦函数计算文本之间的相似度;然后,基于网络中节点的相似性传播原理,通过设置阈值找到与各个文本相似度较大的文本集合,进而使用Jaccard系数将两个文本之间相似度计算转化为两个文本集合之间的相似度计算;最后根据得到的文本相似度矩阵,利用谱聚类算法对文本进行聚类.在WebKB上的实验结果表明,与传统的K-means、谱聚类方法相比,该方法提高了聚类的准确度,召回率与F值.  相似文献   

4.
跳频序列的选择是决定跳频电台异步组网质量的重要因素。针对异步组网跳频序列的优选问题,结合异步组网跳频通信特点,定义了频率相似度、序列相似度和总体相似度,构建了异步组网可选跳频序列相似度模型。通过引入层次聚类分析法,解析了跳频序列在特征空间中的聚类结构。根据网间互扰度与序列相似度正相关的原则,从不同聚类中优选序列,组成跳频序列对,选出相似度最小的一组,即为异步组网的最优跳频序列组合。理论和仿真实验分析表明,层次聚类分析法简单易懂,可操作性强,具有较好的适应性和效率,所建相似度模型合理有效,能够较好地解决异步组网中跳频序列的优选问题。  相似文献   

5.
为了通过预测分析检索量数据来指导商家调整产品开发及经营策略,将检索量数据组织为时间序列,对其用自回归滑动平均(ARMA)模型进行建模预测.先将时间序列进行聚类,仅对聚类中心序列进行ARMA模型识别,同类序列用该模型进行近似建模预测:经过数据预处理、相似性分析、基于相似度的聚类、时间序列预测等过程,得到检索量数据的预测值...  相似文献   

6.
灰色关联聚类是灰色系统分析的重要研究领域.现有的灰关联聚类方法在处理不同长度序列数据时,通常采用补齐或删除数据方式进行处理,增加了系统的不确定性.在动态时间弯曲距离基础上,提出了一种新的灰关联聚类方法,通过计算序列间距离矩阵的最短路径来度量相似程度,最终完成序列的灰关联聚类.该方法无需对序列数据进行人工干预,具有更强的鲁棒性.实验结果表明,在处理不同长度数据序列时,聚类结果更为准确.  相似文献   

7.
将序列数据的相似度度量方法S3M引入蚁群聚类算法中,提出一种基于序列相似性的蚁群聚类算法。该算法既继承了蚁群聚类算法原有的优点,又能有效地对序列数据聚类,更适合处理序列数据。  相似文献   

8.
Gen-Cluster:一个基因表达数据的高维聚类算法   总被引:1,自引:0,他引:1  
基因表达数据聚类是分析基因之间共调控关系的重要手段.挖掘子空间中表达值存在差异但变化趋势保守的序列已成为基因表达数据聚类的主要研究内容之一.在N-同维趋势相似定义的基础上,提出了一个基因表达数据的高维聚类算法Gen-Cluster,将基因表达值转化为序列形式,采用无重复投影且无候选生成的序列模式挖掘策略自底向上挖掘N-同维趋势模式,并解决了OP-Cluster算法不能挖掘含有项集的序列模式问题,最终得到表达值变化趋势保守的基因序列形成的N-同维趋势簇.实验采用Breast Tumor和MicroRNA表达数据集,验证挖掘结果是有效的,且较OP-Cluster算法表现更高效率,并涵盖其结果.  相似文献   

9.
AP算法是Fey BJ.等人提出的一种聚类算法.与传统的K均值聚类算法相比,AP算法不需要选择初始的聚类中心点,因此,聚类结果更客观.但AP算法中相似度矩阵对角线上的偏向值需要人为设定,而这个值会影响到聚类数目;另外,当AP算法发生震荡时,算法无法自动退出震荡.为解决AP算法中的振荡问题及相似度矩阵对角线上元素值的确定问题,王开军等人提出了自适应AP算法,逐步改变偏向值p,得到不同的聚类结果,再根据聚类结果的Silhouette指标,找出最好的Silhouette指标对应的偏向值及聚类结果.当震荡发生时,逐步增加阻尼因子?值,直到算法退出震荡.使用MATLAB实现了自适应AP算法和Silhouette评价指标,为后续的研究工作打下基础.  相似文献   

10.
移动时间层次聚类(Travel-Time based Hierarchical Clustering,TTHC)是一种新的势能聚类算法,尽管具有较好的聚类效果,但是该算法需要人工设定聚类数目,而且在分配样本的时候仅根据相似度,忽略了距离和势能的影响.针对以上问题,提出一种自动确定聚类中心的移动时间势能聚类算法.首先计算每个数据点的势能和相似度,然后根据相似度确定数据点的父节点,得到数据点与父节点的距离;然后,根据数据点与父节点的相似度、距离和数据点的势能得到综合考量值,根据综合考量值自动确定聚类中心;最后,将剩余数据点分配到比其势能小且与其相似度最大的数据点所属类簇,得到聚类结果.将新算法与TTHC算法进行比较,在人工数据集和真实数据集上的实验结果表明,新算法不仅能够自动确定聚类数目,而且采用了更优的分配机制,可以产生更好的聚类结果.  相似文献   

11.
粗糙集理论是建立在等价关系的基础上发展起来的,但等价关系性质的应用领域是有限的,等价关系不能对现实世界中的元素关系给出客观的描述.为此提出用模糊相似关系和弱模糊相似关系的概念来代替等价关系,同时引入了弱模糊相似关系的相似度概念和相似类概念,定义了基于弱模糊相似关系的广义粗糙集及标准的广义粗糙集上下近似;研究了两对上下近似算子的性质,讨论了3种粗糙隶属函数的性质并验证了它们的性质.  相似文献   

12.
基于粗集的模糊聚类方法和结果评估   总被引:3,自引:0,他引:3  
粗集的决策表的属性包括定量属性和定性属性,针对这种情况,根据一种对象的相似性度量方法,使用模糊聚类方法对粗集对象进行模糊聚类,对聚类结果进行了评估(根据这种聚类方法得到的结果和实际的分类结果进行比较).在这种相似性度量方法基础上,证明了粗集的等价关系可以被转化为模糊等价矩阵.基于粗集的聚类步骤如下:首先,一个粗集等价关系都可以转化为一个模糊相似矩阵,其次,转化成一个模糊等价矩阵,最后,进行模糊聚类.对此方法进行了实验,并对实验的结果进行评估.实验结果说明了这种方法的简单高效.  相似文献   

13.
研究集合S上的变换群的直觉模糊子群和S上的直觉相似关系之间的密切联系,证明了S上的变换群的任一直觉模糊子群可确定S上的一个直觉相似关系,反之,S上的任一个直觉相似关系可确定S上的变换群的一个直觉模糊子群.同时研究了直觉相似关系和伪度量之间的联系.利用这个联系进一步研究了直觉模糊子群和伪度量之间的联系,即由S上的变换群的直觉模糊子群可确定一个超伪度量,反之,由一个超伪度量可确定S上的变换群的直觉模糊子群.  相似文献   

14.
研究了L fuzzy拓扑空间中T-1分离性与导算子保并性的关系 ,证明了在菱形格上的拓扑空间中T-1分离性是导算子保并的充分条件 ,同时给出了在一类六元格上的拓扑空间中T-1分离性不能保证导算子保并性的反例 .这个结果回答了导算子在一般T-1的L fuzzy拓扑空间中是否保并这一公开问题 .  相似文献   

15.
根据数据之间的相似关系,构造了基于模糊相似关系传递闭包的聚类方法.该方法用数据之间的距离定义模糊相似关系,利用模糊关系的合成算子,构造该关系的传递闭包,该传递闭包是等价关系.以等价类为聚类.实验结果表明该聚类方法可得到与传统K-均值方法相同的聚类结果.  相似文献   

16.
在模糊XML数据管理中,模糊XML文档和模糊DTD的相似性是模糊XML数据整合、模糊XML文档聚类的关键步骤.为了研究模糊XML文档和模糊DTD的相似性,对模糊DTD树进行了规则变换,主要解决元素和属性的析取约束和基数约束问题,即由析取范式转化为合取范式,将元素或属性的重复次数确定化,然后利用树编辑距离算法对模糊XML文档树和转化后的模糊DTD树集合进行相似性对比.通过实验验证了所提方法的性能优势.  相似文献   

17.
描述高维崎变模式的有效方法——Fuzzy 树文法   总被引:1,自引:0,他引:1  
为了有效地描述带有Fuzziness 的高维模式,本文首先提出了Fuzzy 树文法与Fuzzy 树自动机的概念,进而研究了二者的关系.即:对每个Fuzzy 树文法,都可以构造与之等价的Fuzzy 树自动机.从而达到了自动识别Fuzzy 树语言的目的.  相似文献   

18.
提出了一种新型的决策规则约简方法。基于均匀划分和正态分布隶属度函数,对决策表的连续属性进行模糊化,用欧氏距离贴近度来构建相似矩阵,并提出了一种论域的模糊划分算法;依据粗糙集隶属度进行属性约简的基础上,给出了一种决策规则约简算法,从而达到发掘知识并简化知识的目的。  相似文献   

19.
具有连续属性的不完备信息系统Rough集扩展   总被引:1,自引:0,他引:1  
在模糊相似关系的基础上,针对具有连续属性的不完备信息系统提出了Rough集的扩展模型;利用模糊区间数来表示不完备信息表中缺失的连续属性值,并根据属性值的概率分布情况计算模糊区间数的可能度,在模糊关系的基础上给出了不完备信息表的上近似和下近似的定义;利用基于欧氏距离的贴近度法计算模糊相似度,构造相似矩阵,实现了对论域的划分;给出决策规则的约简和表示方法,应用实例说明了所提出的Rough集模型及规则的实用性。  相似文献   

20.
多粒度是近年来粗糙集领域研究的一个热点方向, 为使多粒度模型更适用于实际数据, 提高模型的可用性, 模糊思想被引入到多粒度粗糙集模型中。本文构建了基于模糊相似关系下的多粒度模糊粗糙集模型, 并建立了模糊信任结构。在该信任结构下根据多粒度模糊粗糙集的上、下近似构造信任函数与似然函数。研究多粒度模糊粗糙集在模糊等价关系下的属性约简, 并给出相关算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号