首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
一种基于网格密度与空间划分树的聚类算法   总被引:1,自引:0,他引:1  
基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.文章提出了一种新的基于网格密度和空间划分树的CGDSFF(Clustering based on Grid - Density andSpatial Partition Tree)聚类算法.其创新点在于,将数据空间划分成多个体积相等的单元格,然后基于单元格定义了密度、簇等概念,对单元格建立了一种基于空间划分的空间索引结构(空间划分树)来对数据进行聚类.CGDSPT算法保持了基于密度的聚类算法的上述优点,而且CGDSFF算法具有线性的时间复杂性,因此CGDSPT算法适合对大规模数据的挖掘.理论分析和实验结果也证明了CGDSPT算法的优点.  相似文献   

2.
为了提高海量XML文档集的聚类质量,提出了一种基于向量空间模型的矩阵迭代自组织XML辅助聚类算法。该算法以XML键为基础,把XML文档转化为向量矩阵,通过矩阵迭代自组织学习对XML文档实施取消、分裂与合并等优化措施。为了加速算法的收敛性,在算法中引入辅助策略,虽然不一定达到矩阵向量分类间隔最大化的目标,却在尽可能分类的情况下使得运算时间缩短,其XML键权重调整更有利聚类效果。对比其它向量聚类算法,一系列仿真实验表明所提出算法具有一定的有效性及合理性。  相似文献   

3.
自适应的混沌粒子群算法优化XML文档聚类策略   总被引:1,自引:0,他引:1  
为了提高海量XML文档集的聚类质量,提出了一种基于粒子群的XML自适应混沌聚类算法(简称ACPSO):为了简化XML文档相似性判定,该算法以XML键为基础,结合混沌原理与粒子群算法划分XML文档:为了加速算法的收敛性,通过对算法相关参数的自适应学习与权重调整,增强XML文档的全局寻优能力,改善XML文档聚类的质量.对比其它聚类算法,仿真表明本算法不仅能有效避免聚类停滞现象的发生,而且是一种高效的XML文档聚类方法.  相似文献   

4.
基于属性加权的模糊K-Modes聚类算法   总被引:6,自引:3,他引:6  
提出了一种基于属性加权的模糊K Modes算法。该算法假定不同属性对聚类结果有不同程度的影响 ,定义新的适应度函数 ,利用进化策略优化加权矩阵 ,以基于划分相似度的聚类精确度作为聚类结果的评价准则。实验表明 ,此算法具有较好的聚类效果 ,且属性加权矩阵反映了数据各个属性的重要程度 ,从而可以进行属性的提取和选择。  相似文献   

5.
陈晓红  秦杨 《系统工程》2004,22(7):80-83
传统特征选择算法在多维Web数据中由于其数据对象自身固有的稀缺性而常常失效。在典型多维Web数据挖掘应用中,不同数据对象集合对于不同雏度集合而言可能聚类会更好,且在每个簇的具体子空间中维度数将可能非常大。事实上,为所有簇查找出单个的小雏度集合是不可能的。本文应用映射簇的概念来明确簇与雏度的关系,将聚类问题转化为映射簇问题,从而简化计算提高挖掘效率。最后给出相应的算法。  相似文献   

6.
自适应特征熵权模糊C均值聚类算法的研究   总被引:1,自引:0,他引:1  
特征权重算法对聚类效果有很大的影响,而传统的特征权重算法忽略了特征项在类间和类内的分布情况.因此,研究聚类后样本特征属性表现的有序性程度对聚类结果的影响,分析聚类后样本特征属性的分布情况,提出了一种自适应特征熵权模糊C均值聚类算法.该算法以聚类后的特征熵和信息增益作为准则调整特征权值,通过聚类与权重更新逐步迭代优化,直至获得最优的特征权值.实验表明,自适应特征熵权模糊C均值聚类算法能够有效地区分各个特征属性对聚类效果的重要程度;较于其它加权模糊C均值聚类算法,该算法能够得到更高的聚类准确率.  相似文献   

7.
Web日志挖掘可以发现访问者兴趣和需求, 提出了一种改进的以访问时间、点击次数以及访问路径共同刻画用户的访问兴趣的Web日志挖掘算法. 首先以Web日志为基础构建相关矩阵, 使用平均访问时间相似度和访问路径相似度共同度量用户访问兴趣的相似程度, 最后采用直接聚类去除相交项的聚类算法将相似用户和相关URL聚类. 实证分析结果表明该算法能较好地解释用户的实际访问兴趣, 从而为网站提供相应的运营建议.  相似文献   

8.
基于加权k-均值聚类与粒子群优化的多航迹规划   总被引:1,自引:0,他引:1  
针对复杂环境下的无人机多航迹规划问题,提出了将粒子群优化(particle swarm optimization, PSO)算法与加权k-均值聚类算法相结合的规划方法。每个粒子表示一条航迹,采用加权k-均值聚类算法对粒子进行分类,得到多个粒子子群,在每个子群内部进行一条可行航迹的优化,最终得到多条不同的可行航迹。对传统k-均值聚类算法进行改进,采用排挤机制产生初始聚类中心,针对实际环境中突发威胁的分布不均性,在聚类过程中,对航迹节点按照所在区域突发威胁的出现概率进行加权,提出了加权k-均值聚类算法。仿真实验表明,所提出的方法能够有效地得到无人机的多条可行航迹。  相似文献   

9.
一种基于会话聚类算法的Web使用挖掘方法   总被引:1,自引:0,他引:1  
Web使用挖掘作为数据挖掘的一个重要任务,有助于了解用户群体的特征,从而为其提供个性化服务.提出了一种基于用户会话聚类的Wei使用挖掘算法.首先,对Web日志预处理采用基于时间窗的用户会话识别方法,提出了一种基于三元组的用户会话表示方法,并在此基础上给出了基于网页语义相似性的会话处理方法,该方法能够在保持用户兴趣不变的情况下有效降低会话维度;其次,提出了一种基于时间及频次的用户会话相似性度量方法;最后,设计了一种两阶段PS-KM会话聚类算法,先用PSO方法进行全局搜索再转入基于K-means方法的局部聚类过程.仿真表明了算法的有效性.  相似文献   

10.
针对基于安全多方计算聚类算法的低效问题,提出了基于聚类特征树结构的隐私保护的层次k-means聚类算法.算法基于半诚信模型,在第三方内存中保留对各记录的索引信息及聚类特征树的当前层信息,减少了I/O次数和通信量,克服了难以适应多数据方和因过于信赖第三方导致隐私泄漏等缺陷.算法通过基于安全多方计算的标准化协议、距离计算协议和聚类中心计算协议,实现了数据的有效保护,综合层次和k-means聚类算法的优点,提高了计算精度和算法的可伸缩性.理论证明了算法的安全性和高效性,实验结果表明所提算法优于同类算法.  相似文献   

11.
球型模糊c均值算法在中文文本聚类中的应用   总被引:3,自引:1,他引:2  
一般的聚类算法只能将给定的文本归到一个类,但实际的文本往往属于多个类。提出一种基于球形的模糊c-均值算法的中文文本聚类方法。聚类方法仅考虑文本向量的方向而不考虑文本向量的大小。同时,聚类方法能充分考虑文本隶属于类的程度,并能通过用户给定的阈值将给定的文本归到多个类。实验表明,球形的模糊c-均值算法不仅具有好的聚类精度,而且能找出属于多个类的文本。  相似文献   

12.
一种改进的人工免疫文本聚类算法   总被引:1,自引:0,他引:1  
构造了一种能准确描述文本之间相似性(亲和力)的新方法,并在此基础上提出了一种改进的人工免疫文本聚类算法。仿真结果表明,与传统的文本聚类算法相比,新算法不仅能自动发现新类,而且具有聚类精度更高、数据压缩比更大、与输入初始配置无关、可增量处理的优势。  相似文献   

13.
基于关键姿态映射的运动重定向   总被引:2,自引:1,他引:1  
提出一种基于关键姿态映射的运动重定向方法,实现不同角色之间运动序列的快速映射。首先,对源运动数据降维,在低维空间中做聚类分析,提取关键姿态;其次,参数化运动序列,计算运动权值;最后,自动求解目标角色的关键姿态,结合运动权值重构目标角色的运动。实验结果表明,该方法较为完整的保留了源运动序列的特征,且重定向得到的运动较为平滑自然。  相似文献   

14.
针对在CORBA环境下使用Web Services时存在的问题,通过对分布式网络环境下的Web Services与CORBA的链接机制的分析,将Web Services作为建立在CORBA中间件之上的中间件,设计了Web Services与CORBA的双层中间件架构的链接模型,从而解决了广域网络用户与子网络中的CORBA对象的通信和互操作问题,同时提出了Web Services在CORBA中的应用方法,并对其中的XML数据封装等部分的实现和信息交互程序流程等关键问题进行了研究,最后给出在CORBA环境下的多级电力监控网络的Web应用实例。  相似文献   

15.
Suffix trees are the key data structure for text string matching, and are used in wide application areas such as bioinformatics and data compression. Ukkonen algorithm is deeply investigated and a new algorithm, which decreases the number of memory operations in construction and keeps the result tree sequential, is proposed. The experiment result shows that both the construction and the matching procedure are more efficient than Ukkonen algorithm.  相似文献   

16.
大规模数据库的建立和海量数据的不断涌现,需要从海量数据库和大量繁杂信息中提取有价值的知识,可以进一步提高网络安全信息的利用率. 另一方面,网络信息安全分析在面临海量数据时,其查询效率会大大降低. 分区技术使用户可以将大表分解为更小且更易管理的分区,从而解决海量数据带来的一些问题. 本文讨论了分区条件下部分最值的查询方法,介绍了一种用于提高这种查询效率的RBP-T (rank bisection partition tree)树型结构,并给出了相应的搜索算法. 通过实验证明,我们的方法对解决海量数据情况下的部分最值查询问题是有效的.  相似文献   

17.
针对目前基于三元组知识构建的知识图谱结构逻辑性弱、难以形成知识体系的问题, 以公文应用背景为牵引, 提出多模态知识结构要素抽取模型, 构建多模态公文文档数据集GovDoc-CN, 在文本和图像两个模态对文档中包括各级标题、摘要、作者、成文时间、文档编号等在内的知识结构要素进行抽取。设计文档结构树模型对抽取的文档知识结构要素进行组织, 并构建结构化图网络实现文档的组织和管理。实验证明, 相较于单一模态的抽取模型, 多模态知识结构要素抽取模型取得了明显的效果提升, 文档结构树模型和基于文档结构树模型构建的结构化图网络为文档知识的组织与管理提供了一种新途径, 具有重要的应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号