首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
一种基于本体的文本聚类方法   总被引:2,自引:0,他引:2  
基于本体的文本聚类方法,在文本表示上引入WordNet,并定义了关键概念集,使用WordNet中的概念节点及概念间的语义关系减少文本特征向量维数,提高聚类效果.聚类过程中,算法使用文本的关键概念集和概念特征向量计算文本相似度,利用文本的关键概念集标注聚簇为聚类结果中的各个簇提供解释.实验结果表明,该方法有效地减少了文本特征向量的维数,提高了文本聚类效果以及聚类结果的可解释性.  相似文献   

2.
针对缺乏良好组织的本体难以被重用的问题,提出了对本体中术语进行语义重组的方法.该方法首先从本体文档中抽取类之间的关系,建立类关系图,进而对不同类型的关系赋以权重.然后将多本体中语义高度相关的术语进行组合,对语义相关度低的术语进行分割.最后分别通过基于划分、基于层次化的聚类算法将类关系图重组为一组虚拟本体,实现了对本体的有效重用.以语义搜索引擎Falcons索引的本体作为数据集,对生成的虚拟本体进行了时间性能和聚类合理性评估,并对比了2种聚类方法在虚拟本体生成中的作用.实验证明该方法生成的虚拟本体具有较好的语义内聚性,达到了对本体中术语进行语义重组的目的.  相似文献   

3.
研究了基于改进混合蛙跳算法优化的模糊C均值聚类解决模块化产品族设计中产品平台的确定问题.建立了该产品开发过程中的部件关联矩阵,采用变个体长度的混合蛙跳算法同时优化模糊聚类数和聚类中心,求得产品构成部件的最优模糊划分.切断算子和拼接算子用来对个体进行重新组合而形成新个体,采用ISODATA迭代算法进行局部寻优.通过对纸币清分机进行的产品族设计的仿真研究,表明所提方法为产品族模块化设计提供了定量数学分析和快速配置的理论依据.  相似文献   

4.
为解决网格聚类算法中对参数过于敏感、无法自动识别不同密度梯度类以及不同梯度类间划分不够精确等问题,提出了相交网格下基于最优划分的多密度梯度网格聚类算法(OPMDG).该算法只需用户输入一个大致的密度阀值范围,网格边长自动计算并可自动调节适应,减少了算法对参数的敏感性;提出了二重划分技术,可挖掘不同密度梯度的类;对于处于不同类上的交界点,引入了电荷间吸引力的概念,能有效解决类间聚类精度不高等问题.实验结果表明该算法是有效的.  相似文献   

5.
聚类分析是重要的数据挖掘方法,在商务智能、地理信息系统、医学等方面有广泛的应用.随着聚类分析的蓬勃发展,涌现出了许多聚类算法,其中最重要的算法之一是基于密度的空间聚类以及其多种变种——基于密度连通链、基于加权密度、基于引力连通集合的算法.这些算法在概念上相似但没有统一的描述.本文针对基于密度的空间聚类及其变种提出了拓扑的概念.给出了聚类拓扑结构的定义,把簇定义为拓扑连通集合.此外,本文运用全新的拓扑思想改进典型的算法,提出了一种拓扑聚类的新算法.实例证明此算法有效.  相似文献   

6.
一种基于网格划分的模糊聚类算法   总被引:1,自引:0,他引:1  
提出了一种改进的模糊聚类算法GBFC(Grid—Based Fuzzy Clustering).在定义隶属度函数前先做网格划分,形成数据簇的基本形状,并提供真实的参数信息参与此后的隶属度函数定义.隶属度函数综合考虑了影响簇形状的因素,具有合理直观的几何意义且形式简洁.算法通过网格划分加速聚类过程,通过模糊隶属度函数容忍噪声数据,克服了传统模糊聚类算法时间耗费量大的缺点.实验表明该算法具有良好的聚类性能.  相似文献   

7.
针对聚类算法应用于复杂产品模块化过程中的不足,提出了基于零件关联关系量化准则构建设计结构矩阵的方法,同时给出了以总联系信息流量为依据的模块化定量评价指标,建立了一套基于聚类算法的复杂产品模块化方法,并将其应用于某型航空发动机高压压气机产品研发中。研究结果表明:该方法能够为高压压气机产品核心研发团队的组建、职责分工提供指导。在研究范围内,将高压压气机构成零件划分为四个模块以及一个公共类属于最佳模块化方案。  相似文献   

8.
聚类集成已经成为数据挖掘和机器学习中的热门研究课题,尽管近年来取得了重大进展,但目前聚类集成的研究仍存在两个具有挑战性的问题.首先,大部分集成算法倾向于在对象的层面研究相似度,缺乏发掘簇层面信息的能力;其次,目前许多集成算法仅仅关注簇内对象的直接共现,忽略了簇与簇之间的关系.针对这两个问题,提出一种基于簇间连接的元聚类集成算法,首先根据Jaccard相似度构造一个簇相似度矩阵,然后利用连接三元组细化这个相似度矩阵,最后通过图划分和成员分配得到最后的结果 .理论分析和实验测试表明,提出的算法不仅能产生较好的聚类结果,而且受聚类集成规模的影响较小.  相似文献   

9.
针对互联网中开放式中文文本关系难以抽取的问题, 提出一个新的关系抽取方法。 为缓解关系三元组抽 取较难的问题, 给出一个新的基于属性和概念实例的关系三元组构造方法, 抽取的大量概念实例关系三元组中 不仅包含大量显式关系三元组, 还包含部分隐式关系三元组。 在此基础上, 针对关系三元组含有噪声和错误的 问题, 使用基于 Adaboost 迭代算法的协同训练方法对关系抽取模型进行优化。 以大学类别领域百科条目真实 文本为实验数据进行实验的结果表明, 与同类关系抽取方法对比, 该方法在召回率和 F 值上能取得较好的抽取 性能。  相似文献   

10.
子空间聚类已经广泛应用于多个涉及高维数据聚类应用领域,受到机器学习研究者的广泛关注.子空间聚类方法是一种使用特征选择的聚类分析技术,通过选择重要特征子集实现对高维空间的低维表示,在实际应用中能够取得更好的性能,成为流行的高维数据聚类方法.与硬聚类方法相比,软聚类能够给出复杂数据更有意义的划分.扩展k-均值聚类并提出基于可靠性的正则化加权软k-均值新的子空间聚类方法(Reliability-based regularized weighted soft k-means clustering algorithm,RRWSKM),该方法能够计算每个特征对每个聚类的贡献度,从而找到与不同聚类相关的重要特征子集.另外,该方法能够通过调整模型参数准确地辨识数据模式,具有良好的聚类性能.该方法把维度加权熵和划分熵作为正则化项引入到目标函数,避免过拟合问题同时使更多的特征参与辨识聚类.为了提高算法的鲁棒性,使用可靠性测度获得特征权重初始值,提高算法的可靠性和性能.考虑到该算法是非凸优化问题,使用迭代优化方法得到优化问题的最优解.使用多个实际数据集对本文算法进行仿真验证,结果表明,与其他子空间聚类算法相比,该算法能够有效发现高维数据的低维表示,具有良好的聚类性能,适合高维数据的聚类.  相似文献   

11.
改进k中值聚类及其应用   总被引:1,自引:0,他引:1  
文章对划分方法、层次聚类方法以及小波变换进行了介绍,并详细分析了划分方法和层次聚类方法中存在的不足,将划分方法和层次聚类方法相结合,各取所长,提出改进的中值聚类,该方法分别从相似性度量、初始聚类簇及其簇中心的获取两方面对原始的基于划分的聚类方法进行改进.通过在混合数据聚类以及图像分割中的具体应用,验证了本文算法聚类的有效性及适用性.其中,在图像分割应用中,由于数据量的大小直接与图像本身的大小相关,当处理大型图像时,考虑首先对图像进行小波变换,通过对低频信号进行层次聚类从而能够快速有效地获取初始的聚类簇及其中心.  相似文献   

12.
考虑加权排序的分类数据聚类算法   总被引:1,自引:0,他引:1  
针对部分聚类算法对数据输入顺序敏感的问题,定义了不干涉序列指数,提出了应用不干涉序列指数对分类数据进行加权排序的方法,并基于该方法对受数据输入顺序影响的CABOSFV C分类数据高效聚类算法进行改进,提出了考虑加权排序的聚类算法(CABOSFV CSW),消除了算法对数据输入顺序的敏感性.采用UCI基准数据集进行实验,发现应用加权升序排序的CABOSFV CSW算法在处理分类数据时,聚类质量较原始CABOSFV C算法和其他受数据输入顺序影响的算法在准确性上有改善,在稳定性上有显著提高.  相似文献   

13.
设计和实现了一种改进的蚂蚁聚类算法.基于海上空袭目标攻击方向划分问题,分析了传统的聚类算法解决此类问题的不足,提出了一种动态调整的空袭方向划分混合蚂蚁聚类算法.该算法能充分利用空中目标信息动态调整参数,以获取合理聚类数和加速算法收敛,对孤立数据处理的鲁棒性较强.用人工数据集和真实数据集进行实验.结果表明,该算法是一种高效率的聚类算法,提高了空袭方向划分的准确性和科学性.  相似文献   

14.
一种动态调整的混合蚂蚁聚类算法   总被引:1,自引:0,他引:1  
设计和实现了一种改进的蚂蚁聚类算法.基于海上空袭目标攻击方向划分问题,分析了传统的聚类算法解决此类问题的不足,提出了一种动态调整的空袭方向划分混合蚂蚁聚类算法.该算法能充分利用空中目标信息动态调整参数,以获取合理聚类数和加速算法收敛,对孤立数据处理的鲁棒性较强.用人工数据集和真实数据集进行实验.结果表明,该算法是一种高效率的聚类算法,提高了空袭方向划分的准确性和科学性.  相似文献   

15.
针对目前软件过程领域知识缺乏明确统一的表示、不同组织构造的过程模型缺少互操作性而难以共享和重用的情况,划分并描述了软件过程的顶层本体;在此基础上,对其中包含的任务描述、过程模型和过程实施与改进三个核心本体分别进行了展开和细化,给出了涉及到的关键概念的形式化定义.传统的本体系统并不适宜描述动态过程,因此使用谓词逻辑定义了过程本体中概念间的基本关系,以此来表示和描述软件过程模型的“柔性”和动态知识,使不同的参与者易于交流而达成共识,为构造可共享、易重用的过程模型元模型提供坚实、统一的基础.  相似文献   

16.
高维数据聚类问题是当前聚类分析研究的重点。笔者提出了一种改进的基于超网络的高维数据聚类算法。首先,将高维数据映射到一个大规模带权超网络中;其次,定义超网络中边的权重;再次,采用优化的超图划分方法划分带权超网络;最后实现高维数据聚类。这样有效过滤掉聚类中的噪声数据,避免了传统聚类方法在降维过程中产生的弊端。实验证明,该算法具有较理想的有效性和精确度。  相似文献   

17.
基于人工免疫数据聚类分析算法在电梯客流交通时段自动划分中的具体应用和分析.实例分析表明,该算法可以有效减少聚类数据的冗余信息,特别适合于解决分级聚类等传统方法不适应的大数据量聚类问题,对解决电梯客流交通时段的自动划分等数据聚类问题是可行的和有效的.  相似文献   

18.
目前多数多视角聚类算法不考虑噪声问题,为了更有效地分析含有噪声数据的聚簇结构,提出了一种基于可能性C-均值的鲁棒多视角聚类(PCM-RMVC)算法,该算法同时利用多个视角空间中的特征信息,最小化每个视角空间中数据对象与聚簇中心的距离.推导出数据隶属度和每个视角权重的迭代更新规则,设计出聚类过程的迭代算法.实验表明:PCM-RMVC算法对噪声具有较强的鲁棒性,并且聚类效果优于五种有代表性的多视角聚类算法.  相似文献   

19.
利用数据点的密度堆积起来的山脉能反映数据的结构,从而催生了山峰聚类(Mountains Clustering).遗憾的是,目前的山峰聚类算法深受数据分布结构的影响.提出一个新的聚类方法,称为分割-合并聚类算法(divisionjoin clustering framework,DJCF),它能发现由密度堆积的整个山脉中所有的山峰,然后将这些山峰根据彼此之间的关系进行合并,得到的结果对应最终的聚类.通过由两个阶段组成的一个流程,DJCF算法能对任何形状和分布的数据进行聚类.算法第一个阶段的目的是将数据集分割成多个划分(partition),真正的类由若干个划分组合而成.在这个阶段中利用K-近邻(KNN)设计了一种密度计算方式,然后将新密度计算方式运用到Cluster-dp算法中,使用了新密度计算方式的Cluster-dp算法能更准确地找到数据集的划分.算法的第二个阶段是将找出来的划分根据彼此之间的关系组合成最终的聚类.在人工数据和实际数据中的实验验证了该算法的简单和有效性.  相似文献   

20.
提出的基于距离浓度的K-均值聚类算法把聚类的数据对象视为抗原,聚类中心看作是免疫系统中的抗体,聚类过程表示为免疫系统不断产生抗体,识别抗原,最后产生出可以捕获抗原的最佳抗体过程.定义了抗体浓度和亲和度,使得抗体之间的距离越大,其距离浓度越小,反之则浓度越大,从而提高了算法的搜索效率.设计了抗体的期望繁殖率计算方法和克隆变异方法.仿真结果表明:该算法不仅克服了传统的K-均值聚类算法易陷入局部极小值的缺点,而且避免了对初始化选值敏感性的问题,同时也有较快的收敛速度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号