共查询到17条相似文献,搜索用时 140 毫秒
1.
一种基于网格密度与空间划分树的聚类算法 总被引:1,自引:0,他引:1
基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.文章提出了一种新的基于网格密度和空间划分树的CGDSFF(Clustering based on Grid - Density andSpatial Partition Tree)聚类算法.其创新点在于,将数据空间划分成多个体积相等的单元格,然后基于单元格定义了密度、簇等概念,对单元格建立了一种基于空间划分的空间索引结构(空间划分树)来对数据进行聚类.CGDSPT算法保持了基于密度的聚类算法的上述优点,而且CGDSFF算法具有线性的时间复杂性,因此CGDSPT算法适合对大规模数据的挖掘.理论分析和实验结果也证明了CGDSPT算法的优点. 相似文献
2.
为了提高海量XML文档集的聚类质量,提出了一种基于向量空间模型的矩阵迭代自组织XML辅助聚类算法。该算法以XML键为基础,把XML文档转化为向量矩阵,通过矩阵迭代自组织学习对XML文档实施取消、分裂与合并等优化措施。为了加速算法的收敛性,在算法中引入辅助策略,虽然不一定达到矩阵向量分类间隔最大化的目标,却在尽可能分类的情况下使得运算时间缩短,其XML键权重调整更有利聚类效果。对比其它向量聚类算法,一系列仿真实验表明所提出算法具有一定的有效性及合理性。 相似文献
3.
4.
基于属性加权的模糊K-Modes聚类算法 总被引:6,自引:3,他引:6
提出了一种基于属性加权的模糊K Modes算法。该算法假定不同属性对聚类结果有不同程度的影响 ,定义新的适应度函数 ,利用进化策略优化加权矩阵 ,以基于划分相似度的聚类精确度作为聚类结果的评价准则。实验表明 ,此算法具有较好的聚类效果 ,且属性加权矩阵反映了数据各个属性的重要程度 ,从而可以进行属性的提取和选择。 相似文献
5.
传统特征选择算法在多维Web数据中由于其数据对象自身固有的稀缺性而常常失效。在典型多维Web数据挖掘应用中,不同数据对象集合对于不同雏度集合而言可能聚类会更好,且在每个簇的具体子空间中维度数将可能非常大。事实上,为所有簇查找出单个的小雏度集合是不可能的。本文应用映射簇的概念来明确簇与雏度的关系,将聚类问题转化为映射簇问题,从而简化计算提高挖掘效率。最后给出相应的算法。 相似文献
6.
自适应特征熵权模糊C均值聚类算法的研究 总被引:1,自引:0,他引:1
特征权重算法对聚类效果有很大的影响,而传统的特征权重算法忽略了特征项在类间和类内的分布情况.因此,研究聚类后样本特征属性表现的有序性程度对聚类结果的影响,分析聚类后样本特征属性的分布情况,提出了一种自适应特征熵权模糊C均值聚类算法.该算法以聚类后的特征熵和信息增益作为准则调整特征权值,通过聚类与权重更新逐步迭代优化,直至获得最优的特征权值.实验表明,自适应特征熵权模糊C均值聚类算法能够有效地区分各个特征属性对聚类效果的重要程度;较于其它加权模糊C均值聚类算法,该算法能够得到更高的聚类准确率. 相似文献
7.
Web日志挖掘可以发现访问者兴趣和需求, 提出了一种改进的以访问时间、点击次数以及访问路径共同刻画用户的访问兴趣的Web日志挖掘算法. 首先以Web日志为基础构建相关矩阵, 使用平均访问时间相似度和访问路径相似度共同度量用户访问兴趣的相似程度, 最后采用直接聚类去除相交项的聚类算法将相似用户和相关URL聚类. 实证分析结果表明该算法能较好地解释用户的实际访问兴趣, 从而为网站提供相应的运营建议. 相似文献
8.
基于加权k-均值聚类与粒子群优化的多航迹规划 总被引:1,自引:0,他引:1
针对复杂环境下的无人机多航迹规划问题,提出了将粒子群优化(particle swarm optimization, PSO)算法与加权k-均值聚类算法相结合的规划方法。每个粒子表示一条航迹,采用加权k-均值聚类算法对粒子进行分类,得到多个粒子子群,在每个子群内部进行一条可行航迹的优化,最终得到多条不同的可行航迹。对传统k-均值聚类算法进行改进,采用排挤机制产生初始聚类中心,针对实际环境中突发威胁的分布不均性,在聚类过程中,对航迹节点按照所在区域突发威胁的出现概率进行加权,提出了加权k-均值聚类算法。仿真实验表明,所提出的方法能够有效地得到无人机的多条可行航迹。 相似文献
9.
一种基于会话聚类算法的Web使用挖掘方法 总被引:1,自引:0,他引:1
Web使用挖掘作为数据挖掘的一个重要任务,有助于了解用户群体的特征,从而为其提供个性化服务.提出了一种基于用户会话聚类的Wei使用挖掘算法.首先,对Web日志预处理采用基于时间窗的用户会话识别方法,提出了一种基于三元组的用户会话表示方法,并在此基础上给出了基于网页语义相似性的会话处理方法,该方法能够在保持用户兴趣不变的情况下有效降低会话维度;其次,提出了一种基于时间及频次的用户会话相似性度量方法;最后,设计了一种两阶段PS-KM会话聚类算法,先用PSO方法进行全局搜索再转入基于K-means方法的局部聚类过程.仿真表明了算法的有效性. 相似文献
10.
针对基于安全多方计算聚类算法的低效问题,提出了基于聚类特征树结构的隐私保护的层次k-means聚类算法.算法基于半诚信模型,在第三方内存中保留对各记录的索引信息及聚类特征树的当前层信息,减少了I/O次数和通信量,克服了难以适应多数据方和因过于信赖第三方导致隐私泄漏等缺陷.算法通过基于安全多方计算的标准化协议、距离计算协议和聚类中心计算协议,实现了数据的有效保护,综合层次和k-means聚类算法的优点,提高了计算精度和算法的可伸缩性.理论证明了算法的安全性和高效性,实验结果表明所提算法优于同类算法. 相似文献
11.
12.
13.
14.
针对在CORBA环境下使用Web Services时存在的问题,通过对分布式网络环境下的Web Services与CORBA的链接机制的分析,将Web Services作为建立在CORBA中间件之上的中间件,设计了Web Services与CORBA的双层中间件架构的链接模型,从而解决了广域网络用户与子网络中的CORBA对象的通信和互操作问题,同时提出了Web Services在CORBA中的应用方法,并对其中的XML数据封装等部分的实现和信息交互程序流程等关键问题进行了研究,最后给出在CORBA环境下的多级电力监控网络的Web应用实例。 相似文献
15.
Suffix trees are the key data structure for text string matching, and are used in wide application areas such as bioinformatics and data compression. Ukkonen algorithm is deeply investigated and a new algorithm, which decreases the number of memory operations in construction and keeps the result tree sequential, is proposed. The experiment result shows that both the construction and the matching procedure are more efficient than Ukkonen algorithm. 相似文献
16.
大规模数据库的建立和海量数据的不断涌现,需要从海量数据库和大量繁杂信息中提取有价值的知识,可以进一步提高网络安全信息的利用率. 另一方面,网络信息安全分析在面临海量数据时,其查询效率会大大降低. 分区技术使用户可以将大表分解为更小且更易管理的分区,从而解决海量数据带来的一些问题. 本文讨论了分区条件下部分最值的查询方法,介绍了一种用于提高这种查询效率的RBP-T (rank bisection partition tree)树型结构,并给出了相应的搜索算法. 通过实验证明,我们的方法对解决海量数据情况下的部分最值查询问题是有效的. 相似文献
17.
针对目前基于三元组知识构建的知识图谱结构逻辑性弱、难以形成知识体系的问题, 以公文应用背景为牵引, 提出多模态知识结构要素抽取模型, 构建多模态公文文档数据集GovDoc-CN, 在文本和图像两个模态对文档中包括各级标题、摘要、作者、成文时间、文档编号等在内的知识结构要素进行抽取。设计文档结构树模型对抽取的文档知识结构要素进行组织, 并构建结构化图网络实现文档的组织和管理。实验证明, 相较于单一模态的抽取模型, 多模态知识结构要素抽取模型取得了明显的效果提升, 文档结构树模型和基于文档结构树模型构建的结构化图网络为文档知识的组织与管理提供了一种新途径, 具有重要的应用价值。 相似文献