首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
为提高大数据粗糙集挖掘能力,提出基于信息熵的粗糙集连续属性离散检验算法﹒在云计算环境下进行粗糙集连续属性大数据挖掘,采用特征空间重组方法进行粗糙集连续属性离散数据的模糊特征重构,提取粗糙集连续属性离散数据的信息熵,并得到其分布序列特征;对所提取的信息熵进行聚类分析,采用空间决策树模型,获取离散数据闭繁项关联分析度量;通过数据特征权重的决策树分布特征量化集,得到粗糙集连续属性离散数据空间重组;采用大数据挖掘方法,将离散数据空间重组的信息融合,得到优化的粗糙集和连续属性离散数据检验输出;根据粗糙集连续属性的融合结果,实现离散检验优化﹒仿真结果表明:在迭代次数为400时,收敛程度为0.265%,远远高于其它方法,证明采用该方法进行粗糙集连续属性离散检验的数据聚类性较好﹒  相似文献   

2.
空间聚类是空间数据挖掘和知识发现的的主要方法之一."基于模糊C均值的空间聚类方法"可以广泛地应用到对空间数据挖掘和知识发现中的分类分级研究.该方法的基奉思想是:首先,设定聚类数目和模糊度常数,并初始化各个聚类中心,每一个数据点按照一定的模糊隶属度隶属于某一聚类中心;然后,逐步进行循环迭代.改变目标函数值以及各个隶属度,并决定新一级聚类中心;最后,当日标函数收敛或者数据点的隶属度保持恒定时,就得到了输入数据的最终聚类中心,从而完成了模糊聚类划分.该文给出了该方法的实现步骤,并以实例验证了方法的可行性和科学性,取得了很好的效果.  相似文献   

3.
采用基于划分的空间聚类方法对地理要素进行聚类时,若仅考虑属性数据,得到与实际空间分布不相符的聚类结果。提出一种考虑空间对象属性特征和空间位置关系的谱聚类方法,首先,计算空间对象的局部离群指数,结合空间格局将样本中的异常点剔除,然后以空间临近为约束条件进行谱聚类分析。以包头地区土壤重金属形态数据为例进行聚类分析,分析结果表明:该方法能够克服谱聚类对初始聚类中心敏感的问题,既能反映属性特征数据的相似程度,又能反映对象的空间分布特性,对空间对象的聚类分析效果优于传统的谱聚类算法。  相似文献   

4.
在多粒度时间序列研究中不确定性问题是时间序列数据挖掘研究中的重要课题.时间序列时序粒度本身的不稳定是一种广泛存在现象,也是时间序列数据挖掘困难的一个重要原因,然而这种情况却较少文献进行过讨论.对于这个问题首先建立了多粒度时间序列的基础数据模型及相关时序粒度的定义.其次对时间粒度不确定性现象的不同成因进行了讨论,并建立相应的不确定性时间序列数据模型.最后基于上述理论和粒计算的思想,多粒度时间序列的最优粒度获取和不确定性粒度时序粒度的基本稳定策略分别进行了研究和讨论.由于聚类分析是时间序列数据挖掘中的最重要的理论研究和应用基础之一,不确定性多粒度时间序列数据的聚类成为一个典型的时间序列数据挖掘难题.一个引入稳定粒度策略的聚类算法框架被提出来解决这类不确定性时间序列数据的聚类问题.最后一个典型的具有不稳定粒度时间序列特点的重症监护病房生理指标数据集和病人存活率预测实验被应用于验证上述理论.实验结果表明在时间序列数据挖掘中选择不同的时间属性粒度对于数据挖掘的效果符合粒计算的计算规律,同时选择了粒度稳定性处理策略聚类算法的实验能够获得更好的预测效果.  相似文献   

5.
针对既有车辆失稳判定方法存在的不足,开展了车辆横向稳定性关于模式识别的研究,提出了一种基于K均值聚类分析的车辆横向稳定性判别方法.利用CarSim建立整车动力学模型,采用K均值聚类算法对车辆行驶状态数据进行离线聚类分析,得到离线聚类质心及其危险等级.搭建CarSim与Simulink联合仿真平台,计算车辆实时行驶数据点与离线聚类质心之间的欧氏距离,设计了车辆横向稳定性判定指标,对车辆行驶稳定性进行了在线识别.该判定方法充分利用车辆离线数据和实时数据,对车辆行驶状态数据进行数据挖掘.仿真结果表明,该判定方法能够准确实时量化车辆的行驶稳定性,为控制系统的介入时机与程度提供判据.  相似文献   

6.
针对传统数据挖掘方法存在挖掘精度低、速度慢、占用内存多而不适于实际应用等缺点,提出一种属性受限状态下低维冗余聚类数据挖掘方法。通过计算低维冗余聚类数据的支持度,把低维冗余聚类数据挖掘问题转变成频繁项集挖掘问题;利用支持度与可信度对关联规则产生结果进行评价,并添加属性对其进行限制,以减少无用规则的产生。通过属性位复用方法建立候选区域,产生关联规则集,对符合关联规则集的低维冗余数据进行聚类,实现对其挖掘。实验结果表明,通过所提方法对属性受限状态下低维冗余数据进行挖掘,挖掘速度快,结果可靠。  相似文献   

7.
针对传统数据挖掘方法存在挖掘精度低、速度慢、占用内存多而不适于实际应用等缺点,提出一种属性受限状态下低维冗余聚类数据挖掘方法。通过计算低维冗余聚类数据的支持度,把低维冗余聚类数据挖掘问题转变成频繁项集挖掘问题;利用支持度与可信度对关联规则产生结果进行评价,并添加属性对其进行限制,以减少无用规则的产生。通过属性位复用方法建立候选区域,产生关联规则集,对符合关联规则集的低维冗余数据进行聚类,实现对其挖掘。实验结果表明,通过所提方法对属性受限状态下低维冗余数据进行挖掘,挖掘速度快,结果可靠。  相似文献   

8.
聚类算法是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法.目前其研究已深入到数据库、数据挖掘、统计等领域并取得了很大的成绩。但是由于聚类算法的多样性,使其在很多行业应用中有着不同的应用效果,基于此。本文通过聚类算法三种指标的比较,给出了一种聚类方法应用效果评估的方法.该方法结合电信的案例应用与K-Means、SOM、BIRCH等聚类方法结果的分析,最后得出K-Means方法在电信客户细分中的应用优越性.  相似文献   

9.
在数据挖掘的实现过程中,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。聚类是数据挖掘中一种重要的挖掘方法,它从数据库中计算发现数据中隐舍的有用信息或知识,数据聚类在很多领域中有着广泛的应用。该文研究的主要内容是数据聚类算法在Web数据挖掘中的应用,获得的聚类结果可以作为web网站结构的优化,站点的重构以及个性化的服务和推荐的重要依据。  相似文献   

10.
随着电信市场竞争的不断加剧,电信企业传统的营销模式正在向主动、精确营销模式转变.因此,客户划分显得至关重要.采用数据挖掘中聚类的方法对电信业的客户进行划分,在比较了现有聚类算法计算复杂度普遍较高的的基础上,采用了一种基于空间定位的方法,将客户数据对象映射到特征空间中,并利用空间立方体的某些特殊顶点定位任意数据,通过计算数据点与空间立方体顶点群的距离差异,完成聚类过程.为了适合电信业客户的特殊性质,改进对客户属性数据的处理过程.通过电信客户的数据实验结果表明,算法的时间复杂度降至 O(N) 级别.  相似文献   

11.
为了快速挖掘大规模空间数据的聚集特性,在cluster_dp密度聚类算法基础上,提出了一种基于弹性分布数据集的并行密度聚类方法 PClusterdp.首先,设计一种能平衡工作负载弹性分布数据集分区方法,根据数据在空间的分布情况,自动划分网格并分配数据,使得网格内数据量相对均衡,达到平衡运算节点负载的目的;接着,提出一种适用于并行计算的局部密度定义,并改进聚类中心的计算方式,解决了原始算法需要通过绘制决策图判断聚类中心对象的缺陷;最后,通过网格内及网格间聚簇合并等优化策略,实现了大规模空间数据的快速聚类处理.实验结果表明,借助Spark数据处理平台编程实现算法,本方法可以有效实现大规模空间数据的快速聚类,与传统的密度聚类方法相比具有较高的精确度与更好的系统处理性能.  相似文献   

12.
利用K-means聚类算法和GIS组件ArcGIS Engine,开发了基于连续时间序列的空间数据挖掘系统,对江苏省清代时期的干湿空间特征进行分析,提取了干湿特征空间分布特征。通过聚类分析,计算涝旱权重比值,得知不同年代,涝旱权重比值不同。且两类中不仅同时存在较大值或者较小值的一致特征,也同时存在第一类较大值而第二类较小值,或者相反的特征。不同的涝旱权重比值反映干湿不同的空间分布特征。这对于了解江苏省旱涝灾害发生规律和制定防灾减灾措施等具有重要的现实意义。  相似文献   

13.
In the K-means clustering algorithm, each data point is uniquely placed into one category. The clustering quality is heavily dependent on the initial cluster centroid. Different initializations can yield varied results; local adjustment cannot save the clustering result from poor local optima. If there is an anomaly in a cluster, it will seriously affect the cluster mean value. The K-means clustering algorithm is only suitable for clusters with convex shapes. We therefore propose a novel clustering algorithm CARDBK—"centroid all rank distance(CARD)" which means that all centroids are sorted by distance value from one point and "BK" are the initials of "batch K-means"—in which one point not only modifies a cluster centroid nearest to this point but also modifies multiple clusters centroids adjacent to this point, and the degree of influence of a point on a cluster centroid depends on the distance value between this point and the other nearer cluster centroids. Experimental results showed that our CARDBK algorithm outperformed other algorithms when tested on a number of different data sets based on the following performance indexes: entropy, purity, F1 value, Rand index and normalized mutual information(NMI). Our algorithm manifested to be more stable, linearly scalable and faster.  相似文献   

14.
The problem of scalable classification by clustering in large databases was discussed. Clustering based classification method first generates clusters using clustering algorithms. To classify new coming da-ta points, it finds the κ nearest clusters of the data point as neighbors, and assign each data point to the dominant class of these neighbors. Existing algorithms incorporated class information in making clustering decisions and produced pure clusters (each cluster associated with only one class). We presented hybrid cluster based algorithms, which produce clusters by unsupervised clustering and allow each cluster associ- ated with multiple classes. Experimental results show that hybrid cluster based algorithms outperform pure ones in both classification accuracy and training soeed.  相似文献   

15.
提出一种基于语义关联性特征融合的大数据挖掘算法.对云存储大数据分布式信息流进行高维相空间重构,在重构的相空间中提取大数据的语义关联维特征量,以提取的特征量为测试集进行自适应学习训练.采用模糊C均值算法进行大数据语义关联特征的稀疏性融合和聚类处理,在聚类中心实现对挖掘目标数据的指向性聚敛,输出数据挖掘结果,并采用特征压缩器进行降维处理,降低计算开销.仿真结果表明,采用该方法进行大数据挖掘的特征提取准确性较好,挖掘数据的聚类能力较强,在实时性和准确性方面具有优势.  相似文献   

16.
为了及时发现城市给水管网中的漏损、爆管等问题,需要在管网中布置压力监测点.现阶段通常依据各节点压力值的相似程度实现压力监测点的布置.针对上述方法未考虑管网节点空间属性的问题,作者提出一种给水管网压力监测点的优化布置方法.该方法通过选取节点的坐标、影响度和压力的标准差3个特征属性构建节点特征矩阵,再利用DBSCAN(density-based spatial clustering of applications with noise)算法对节点特征矩阵进行聚类分析,依据聚类结果最终确定压力监测点的位置和数量.仿真实验结果表明:该方法有效地保证聚类后归属同一类的节点在管网中是连通的,选取的压力监测点空间分布均匀,为实际管网中压力监测点的布置奠定了良好基础.  相似文献   

17.
在借鉴空间数据挖掘技术的基础上,定义了移动对象轨迹之间的时态距离和平均距离,提出了标准差法和置信区间法两种轨迹聚类算法。两种方法能够找出所有具有相似轨迹的对象对,在不同距离采样点数的基础上配合使用两种方法能够明显降低轨迹聚类算法的时间复杂度。基于标准差法和置信区间法的轨迹聚类算法在仿真数据集和真实数据集进行了验证。表明两种方法能够为其他轨迹聚类算法进行数据筛选,筛选后的数据量将大大减少,从而可提高算法效率。  相似文献   

18.
作为大数据的重要组成,产生于传感器、移动电话设备、社交网络等的不确定流数据因其具有流速可变、规模宏大、单遍扫描及不确定性等特点,传统聚类算法不能满足用户高效实时的查询要求.首先利用MBR(minimum bounding rectangle)描述不确定元组的分布特性,并提出一种基于期望距离的不确定数据流聚类算法,计算期望距离范围的上下界剪枝距离较远的簇以减少计算量;其次针对簇内元组的分布特征提出了簇MBR的概念,提出一种基于空间位置关系的聚类算法,根据不确定元组MBR和簇MBR的空间位置关系排除距离不确定元组较远的簇,从而提高聚类算法效率;最后在合成数据集和真实数据集进行实验,结果验证了所提出算法的有效性和高效性.  相似文献   

19.
K -均值聚类算法在当前提取数据挖掘的聚类分析方法中已经取得了一定的成就,为了进一步改进其在数据预处理及神经网络结构中的应用,文中对算法进行了缺陷研究,主要做了以下几个方面的工作:对K-means算法进行了思路及算法主要流程分析;得出K-均值聚类算法存在简单、迅速、结果簇密集、簇与簇之间区别较为明显等优点;分析得出算法存在与处理符号属性的数据不太适应、必须事先给出k值(想要生成的簇的个数)、对“噪声数据”以及孤立的点数据有较大影响、需要不断计算更新调整后的新聚类中心等缺点。在实验验证中结果得出:聚类结果可知,选取不同的值初始值对聚类结果的影响很小;如果聚类数据集迭代次数较多时,可以尝试着改变其数据的输入顺序;变动数据集的输入顺序,会直接影响聚类结果。实验结果对于K-均值算法的工作效率提高了具有明显的参考价值,这一研究对于数据挖掘技术的改进具有一定的意义。  相似文献   

20.
针对毫米波调频连续波多输入多输出(frequency modulated continuous wave multiple-input multiple-output,FMCW MIMO)雷达点云目标远疏近密的密度不一问题,提出了一种基于密度聚类的稳健自适应三维点云聚类方法.首先,从原始数据中提取目标的距离、方位角以及...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号