首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 908 毫秒
1.
谱聚类作为一种建立在谱图理论基础上的聚类方法,具有能够处理任意空间形状数据且收敛于全局最优解的优点,但其对参数非常敏感,参数值微小的变化都会影响聚类精度.提出一种将基于差异信息理论的灰关联分析结合到谱聚类中的新方法,利用序列的均衡接近度描述数据点的相似程度,在克服参数影响的同时提高了传统谱聚类算法的性能.实验结果证明了新方法的有效性.  相似文献   

2.
针对一种可快速搜索和寻找到聚类密度峰值点聚类算法的缺陷,利用线性回归与残差分析的方法进行改进,可自动、快速地确定聚类中心且优化样本点密度值。算法利用样本点的近邻信息重新度量点的密度值,提高聚类中心点位置稳定性;利用一元线性回归与残差分析,快速、自动地选出聚类中心点,去除了人为选择的主观性。通过理论分析以及在人工数据集和真实数据集的对比实验表明,提出的基于线性回归分析的快速搜索聚类中心算法能够克服原有算法的缺陷,并且在聚类效果和计算时间上优于原有算法、基于密度的带有噪声的空间聚类算法(density based spatial clustering of applications with noise, DBSCAN)以及K-means算法。  相似文献   

3.
传统聚类算法在解决含有不确定性的聚类问题时具有很大的局限性,为了更好地解决聚类问题中的不确定性,论文基于区间二型模糊集理论,提出了基于二型模糊等价关系的聚类分析算法.论文首先将语言变量信息完整地转化为区间二型模糊集,接着把语言变量和区间二型模糊集的优势相结合,通过区间二型模糊集的Jaccard相似度,提出了基于区间二型模糊语言变量的模糊等价关系聚类分析新方法,并设计了具体的算法流程.新聚类算法相对于传统的模糊等价关系的聚类算法,具有更好地处理不确定性问题的能力,避免了聚类计算过程中的信息丢失.同时新聚类算法可以灵活给出随聚类相似性参数变化的动态聚类结果.论文最后以电商平台的手机品牌聚类为例,验证了新算法的可行性和合理性.  相似文献   

4.
一种基于结构熵的类内聚度度量方法   总被引:1,自引:0,他引:1  
内聚度是指模块内各成分之间的联结强度。在面向对象软件系统中,内聚度主要是指类内部的属性和方法之间的联结强度。在类依赖图的基础上,提出了一种基于结构熵类内聚度度量方法,从类的属性与属性、属性与方法和方法与方法之间依赖关系3个方面对类的内聚度进行度量。并综合以上3种内聚度给出了一个类内聚度的度量方法,为评价类的内聚度提供了指南。  相似文献   

5.
当前我国高速铁路的运营统计指标体系有待完善,本文从旅客感知和高速铁路企业运营两个角度构建了高速铁路运营统计指标体系。首先,运用灰色关联分析进行灰色聚类,采用F-统计量确定最佳阈值,得到准确的信息数据;然后,运用粗糙集属性约简理论,采用动态聚类的方法进行指标约简,得到指标的客观权重,权重较高的指标即为核心指标;最后,根据新指标体系形成关联分析图,直观地反映出指标之间的相互关系,且大多数运营统计指标之间可相互转换。结果表明,采用灰色关联聚类与粗糙集属性约简相结合的方法可实现高速铁路运营统计指标体系的有效优化筛选。  相似文献   

6.
针对超高维删失数据,通过降维技术可以进行特征选取,去除大数据中的噪声数据,以便挖掘高维大数据的重要信息,进行大数据的相关分析和应用.本文提出了一种稳健的偏相关系数来进行特征筛选,并引入逆概率加权方法来处理删失,发展出一种新的联合特征筛选方法.本文利用响应变量的条件分布函数来构造偏相关性度量,可以全面地刻画其与协变量间的相关性,且相较于传统的皮尔逊偏相关系数,该度量对于响应存在异常值,厚尾分布以及异方差结构时具有稳健性.其次,基于该度量所提出的联合特征筛选方法通过投影作用来消除由协变量之间的相关关系产生的干扰作用,故能够较好地改善假阴性错误、假阳性错误及协变量的共线性问题.我们推导了该方法的理论性质,给出了快速的迭代算法,并进一步通过模拟和实例分析来考察该算法在有限样本下的数值表现.  相似文献   

7.
可追溯食品消费偏好等实证调查中具有大量的分类属性的数据,而常用的-means聚类方法主要适用于连续的数值型数据,难以精确分析可追溯食品消费者类别。为此,本文引入-modes聚类方法,通过改进聚类精度,改善聚类流程,改进了现有的-modes算法,以更好地应用于分类属性数据的聚类分析。以分类正确率、类精度、召回率、平均迭代次数为评价检验的具体指标,相关检验表明,与经典-modes聚类算法等相比较,本文改进后的-modes聚类算法在标准数据集上实验结果良好。在此基础上,以可追溯猪肉为案例,通过菜单选择实验法收集消费者对可追溯猪肉信息属性偏好的数据,建立仿真分析流程,运用改进后的-modes算法进行聚类分析,研究了消费者对可追溯猪肉属性的群体性偏好。仿真结果显示,消费者对可追溯猪肉信息属性的偏好具有明显的层次性、差异性,可基于消费偏好将消费者划分为4个类别。  相似文献   

8.
一类加权连续属性的多变量决策树构造方法   总被引:6,自引:0,他引:6  
首先利用粗集理论和模糊聚类理论确定连续多变量属性的选择问题,然后利用聚类中心算法建立等级标准中心以解决连续变量的区间划分问题,其次将等价关系相对泛化的概念用于决策树中多变量检验的构造。最后通过实例说明了本方法是可行的。  相似文献   

9.
针对态势认知中目标数量多、信息不确定、数据不精确等问题, 提出一种基于区间数聚类的目标分群算法。首先, 考虑到传感器测量数据具有误差且数据不完全等因素, 采用区间数对传感器探测到的目标进行特征描述。然后, 为有效利用区间数信息定义了一种新的距离度量, 并给出了改进的区间数聚类目标分群算法。最后, 构造4类相互独立的区间数据集, 对区间数据进行分类测试, 并通过典型想定场景设定多类目标实体, 基于目标空间位置、运动特征和属性等要素进行空间分群和任务分群。仿真结果验证了算法能够有效对目标进行分群, 具有较强的稳定性。  相似文献   

10.
针对现有直觉模糊相似度量大都基于距离测度的现状,提出一种基于包含度的直觉模糊相似度量推理方法。所提方法利用模糊蕴涵算子及集合基数建立一系列直觉模糊包含度函数,并对基于包含度的强相似度量进行定义,给出满足强相似度量的若干性质,揭示了包含度与相似度之间的关系,进而将基于包含度的直觉模糊相似度量引入直觉模糊推理,提出了基于包含度的直觉模糊相似度量推理方法。以现有的10种直觉模糊相似度量方法与所提方法进行比较,并通过典型的实验数据分别展示了基于包含度的直觉模糊相似度量方法的优越性与较强的区分能力,实验目标样本的推理结果验证了所提方法具有较高的推理精度。  相似文献   

11.
基于引力的入侵检测方法   总被引:6,自引:2,他引:4  
将万有引力的思想引入聚类分析,提出一种基于引力的聚类方法和度量聚类异常程度的引力因子概念,同时给出了一种计算聚类闽值的简单而有效的方法,在此基础上提出一种新的入侵检测方法GBID,GBID关于数据库的大小、属性个数具有近似线性时间复杂度,这使得GBID具有好的扩展性。在KDDCUP99数据集上的测试结果表明,GBID在准确性方面优于文献中已有无指导入侵检测方法,且对新的入侵有一定的检测能力。  相似文献   

12.
Most of the earlier work on clustering mainly focused on numeric data whose inherent geometric properties can be exploited to naturally define distance functions between data points. However, data mining applications frequently involve many datasets that also consists of mixed numeric and categorical attributes. In this paper we present a clustering algorithm which is based on the k-means algorithm. The algorithm clusters objects with numeric and categorical attributes in a way similar to k-means. The object similarity measure is derived from both numeric and categorical attributes. When applied to numeric data, the algorithm is identical to the k-means. The main result of this paper is to provide a method to update the “cluster centers“ of clustering objects described by mixed numeric and categorical attributes in the clustering process to minimise the clustering cost function. The clustering performance of the algorithm is demonstrated with the two well known data sets, namely credit approval and abalone databases.  相似文献   

13.
针对当前空间多属性决策方法对空间特性的考虑不足,提出一种综合考虑多型异构性、空间复杂关联性以及空间动态性的空间多属性决策新方法.首先,定义了多型异构数据的D-U空间映射法则,提出了一种使多型异构数据能在空间中得以同构化的方法.其次,考虑空间复杂关联性及动态性,构造了2可加模糊测度下的广义Banzhaf关联变权及关联状态变权.然后,为客观确定关联属性的重要程度,建立了基于2可加模糊测度的广义Banzhaf Choquet逼近理想解优化模型,在此基础上融合关联属性信息实现备选方案的排序优选.最后,将所建模型用于干热岩勘探选区决策案例中,验证了方法的可行性,对比分析证明了方法的有效性及优越性.  相似文献   

14.
基于属性稀疏特征差异度的动态抽象聚类方法   总被引:3,自引:0,他引:3  
针对高属性维稀疏数据聚类问题,提出高属性维稀疏信息系统概念,给出一种新的基于稀疏特征差异度的动态抽象聚类方法。该方法的优势在于可伸缩性强,是一种面向属性稀疏特征,通过稀疏特征差异度可动态地、有效地实现对属性的归并,且具有一定容错性。该方法将在高属性维稀疏数据挖掘中起重要的作用。  相似文献   

15.
在基于粗糙集理论或扩展粗糙集理论的不确定性管理决策中,仅由数据集无法获得决策表,同时决策属性呈现模糊性,以至于无法获取概率决策规则。鉴于此,本文构建了灰色定权聚类与粗糙集变精度的杂合模型,首先运用基于中心点三角白化权函数的灰色定权聚类方法对包含不同量纲指标的知识表示系统进行处理,生成多属性决策表,而后运用变精度粗糙模糊集进行决策分析,获取概率决策规则。最后以区域关键技术选择为例,表明该模型的可行性与实用性。  相似文献   

16.
A new method for discretization of continuous attributes is put forward to overcome the limitation of the traditional rough sets,which cannot deal with continuous attributes.The method is based on an improved algorithm to produce candidate cut points and an algorithm of reduction based on variable precision rough information entropy.With the guarantee of consistency of decision system,the method can reduce the number of cut points and improve efficiency of reduction.Adopting variable precision rough information entropy as measure criterion,it has a good tolerance to noise.Experiments show that the algorithm yields satisfying reduction results.  相似文献   

17.
In the era of big data, correlation analysis is significant because it can quickly detect the correlation between factors. And then, it has been received much attention. Due to the good properties of generality and equitability of the maximal information coefficient(MIC), MIC is a hotspot in the research of correlation analysis. However, if the original approximate algorithm of MIC is directly applied into mining correlations in big data, the computation time is very long. Then the theoretical time complexity of the original approximate algorithm is analyzed in depth and the time complexity is n2.4 when parameters are default. And the experiments show that the large number of candidate partitions of random relationships results in long computation time. The analysis is a good preparation for the next step work of designing new fast algorithms.  相似文献   

18.
基于粗糙集的聚类算法中阈值自动选取   总被引:1,自引:0,他引:1  
输入参数影响聚类算法的可用性,利用逐差法自动选取初始化阈值,使聚类算法无须任何参数,且有效降低算法的时间复杂度。逐差法利用已有数据本身属性,对相似系数矩阵行数据进行快速排序,逐个做差,求取初始化阈值。试验结果表明,新方法保证了分类精度,提高了运行效率。逐差法的应用使得基于粗糙集的聚类算法成为一种更加客观、准确的聚类方法。  相似文献   

19.
针对SVM在大类别模式分类中存在的问题,提出了一种基于模糊核聚类的SVM多类分类方法,并给出了一种高效的半模糊核聚类算法。该方法基于模糊核聚类方法生成模糊类,并采用树结构将多个SVM组合起来实现多类分类。模糊核聚类方法不但能够实现更为准确的聚类,而且能够挖掘模糊类的外围、不同模糊类之间的交叠情况等信息,利用这些信息能有效提高分类器的性能。实验表明,所提方法比传统方法具有更高的速度和精度。  相似文献   

20.
自适应特征熵权模糊C均值聚类算法的研究   总被引:1,自引:0,他引:1  
特征权重算法对聚类效果有很大的影响,而传统的特征权重算法忽略了特征项在类间和类内的分布情况.因此,研究聚类后样本特征属性表现的有序性程度对聚类结果的影响,分析聚类后样本特征属性的分布情况,提出了一种自适应特征熵权模糊C均值聚类算法.该算法以聚类后的特征熵和信息增益作为准则调整特征权值,通过聚类与权重更新逐步迭代优化,直至获得最优的特征权值.实验表明,自适应特征熵权模糊C均值聚类算法能够有效地区分各个特征属性对聚类效果的重要程度;较于其它加权模糊C均值聚类算法,该算法能够得到更高的聚类准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号