首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 625 毫秒
1.
基于属性稀疏特征差异度的动态抽象聚类方法   总被引:3,自引:0,他引:3  
针对高属性维稀疏数据聚类问题,提出高属性维稀疏信息系统概念,给出一种新的基于稀疏特征差异度的动态抽象聚类方法。该方法的优势在于可伸缩性强,是一种面向属性稀疏特征,通过稀疏特征差异度可动态地、有效地实现对属性的归并,且具有一定容错性。该方法将在高属性维稀疏数据挖掘中起重要的作用。  相似文献   

2.
针对模糊聚类算法对点数据集聚类敏感性,以及区间类型数据聚类效果不明显等问题,提出了基于二次型距离改进的模糊可能性c 均值(fuzzy-possibilistic c-means,FPCM)聚类算法.首先分析了区间数据的特征,引入了区间值的数学表示方法,在此基础上提出了三种不同的基于区间数据距离度量方法以及相应权重矩阵计算方法,通过建立拉格朗日方程对目标方程优化,求得聚类中心、隶属度以及可能性迭代方程,并证明目标方程的收敛性,最后给出了算法执行步骤。在不同类型的数据集上实验,证明算法在点数据集和区间数据集上都具有较好聚类性能.  相似文献   

3.
高维数据聚类是数据挖掘领域的重要研究课题,大规模高维数据聚类研究非常具有挑战性.针对高效的CABOSFV高维数据聚类算法,采用并行计算模式提高其大规模数据的处理能力,提出基于稀疏指数排序的高维数据并行聚类算法P-CABOSFV.该算法根据高维数据稀疏指数排序进行分割点选择实现数据划分,将数据分配到多个计算节点同时处理聚类任务,再基于集合稀疏特征差异度聚类结果合并策略将各计算节点的聚类结果合并得到最终聚类结果.UCI数据集和计算机合成数据集实验表明:高维数据并行聚类算法P-CABOSFV聚类质量良好,具有很强的数据规模和数据维度可扩展性,是有效可行的.  相似文献   

4.
灰色趋势关联聚类及其在数据挖掘中的应用   总被引:4,自引:0,他引:4  
分析了数据库中"贫"信息数据的特点,以及"贫"信息数据挖掘问题的要求。应用一般系统理论,结合灰色趋势关联度,研究了灰色趋势关联系统及数学模型。作为该模型的应用,提出了灰色趋势关联聚类方法。以某大型酒业股份公司仅有的少量商品销售数据为数据挖掘对象,应用灰色趋势关联聚类方法,按商品销售增长趋势,对各类商品进行了聚类分析,得到了一种符合销售实际的聚类结果,阐明了灰色趋势关联聚类方法的有效性、方便性和实用性。  相似文献   

5.
为解决现有k-modes聚类方法因忽略了变量属性之间的弱相关性,常造成其在实际应用中聚类性能不佳的问题,提出一种包含属性弱相关性的新k-modes聚类方法。引入最大信息系数(maximum information coefficient, MIC)度量数据集中变量属性之间的相关性;将得到的MIC值与原有距离进行融合,建立包含属性弱相关性信息的新度量方法,以增强变量属性间相关信息的完备性,建立更加精细的k-modes聚类方法;调用3种不同的数据集,将新方法与原有的k-modes聚类方法和其他改进k-modes聚类方法的性能进行对比,并通过仿真结果表明了新方法的有效性。  相似文献   

6.
一类加权连续属性的多变量决策树构造方法   总被引:6,自引:0,他引:6  
首先利用粗集理论和模糊聚类理论确定连续多变量属性的选择问题,然后利用聚类中心算法建立等级标准中心以解决连续变量的区间划分问题,其次将等价关系相对泛化的概念用于决策树中多变量检验的构造。最后通过实例说明了本方法是可行的。  相似文献   

7.
针对态势认知中目标数量多、信息不确定、数据不精确等问题, 提出一种基于区间数聚类的目标分群算法。首先, 考虑到传感器测量数据具有误差且数据不完全等因素, 采用区间数对传感器探测到的目标进行特征描述。然后, 为有效利用区间数信息定义了一种新的距离度量, 并给出了改进的区间数聚类目标分群算法。最后, 构造4类相互独立的区间数据集, 对区间数据进行分类测试, 并通过典型想定场景设定多类目标实体, 基于目标空间位置、运动特征和属性等要素进行空间分群和任务分群。仿真结果验证了算法能够有效对目标进行分群, 具有较强的稳定性。  相似文献   

8.
基于引力的入侵检测方法   总被引:6,自引:2,他引:4  
将万有引力的思想引入聚类分析,提出一种基于引力的聚类方法和度量聚类异常程度的引力因子概念,同时给出了一种计算聚类闽值的简单而有效的方法,在此基础上提出一种新的入侵检测方法GBID,GBID关于数据库的大小、属性个数具有近似线性时间复杂度,这使得GBID具有好的扩展性。在KDDCUP99数据集上的测试结果表明,GBID在准确性方面优于文献中已有无指导入侵检测方法,且对新的入侵有一定的检测能力。  相似文献   

9.
基于遗传优化的采样模糊C均值聚类算法   总被引:14,自引:0,他引:14  
在数据挖掘领域,模糊C均值聚类法(FCM)在处理小量低维的数据挖掘时是有效的,但是面向数据库的数据挖掘经常要处理大量、高维的数据.在这种情况下,FCM算法在时间性能上难以令人满意.本文基于采样技术对FCM算法进行改进,以提高算法的时间性能,并利用遗传算法对聚类结果进行优化以保证聚类的质量,给出了一种新的基于遗传优化的采样模糊C均值聚类算法SFGO(SamplingFCMwithGeneticOptimization).仿真实验证明SFGO算法在大规模数据库的聚类挖掘中,在时间性能和聚类质量上都能获得较满意的结果.  相似文献   

10.
针对属性权重信息完全未知和属性值为连续型随机变量的多属性大群体决策问题,提出了一种大群体决策方法。该方法将正态分布的3σ原则推广到任意分布,将随机属性值转化成区间数;并把实数范围内的模糊聚类算法扩展到区间数上,通过该算法将大群体中的成员按偏好形成若干个不同的聚集;在此基础上定义并计算群体中各个聚集和整个大群体的区间评价矩阵;然后利用不确定性有序加权平均算子获得决策方案的综合排序。最后通过一个实例对方法进行了验证。  相似文献   

11.
基于网络的数值关联规则挖掘方法   总被引:2,自引:0,他引:2  
关联规则 ( Association Rules)发现的是属性间的关系 .属性可以是逻辑型的 ,也可以是数值型的 .在从逻辑型属性描述的数据中发现关联规则方面已经有许多比较成熟的算法 ,而在数值型属性方面则不然 .将数值关联规则挖掘问题映射成逻辑关联规则挖掘问题是一种方便有效的方法 .本文给出了一个新的数值属性关联规则挖掘算法 ,该算法利用数据本身的特征决定对数值属性值域的划分 ,进而将划分后的所有区间映射为逻辑属性 (项目 ) ,在此基础上可以挖掘出更容易理解、更具有概括性的有效关联规则 .本文给出了一个发现频繁项目集搜索算法 ,并采用一种纵向数据库格式来简化项目集支持度的计算.  相似文献   

12.
Most of the earlier work on clustering mainly focused on numeric data whose inherent geometric properties can be exploited to naturally define distance functions between data points. However, data mining applications frequently involve many datasets that also consists of mixed numeric and categorical attributes. In this paper we present a clustering algorithm which is based on the k-means algorithm. The algorithm clusters objects with numeric and categorical attributes in a way similar to k-means. The object similarity measure is derived from both numeric and categorical attributes. When applied to numeric data, the algorithm is identical to the k-means. The main result of this paper is to provide a method to update the “cluster centers“ of clustering objects described by mixed numeric and categorical attributes in the clustering process to minimise the clustering cost function. The clustering performance of the algorithm is demonstrated with the two well known data sets, namely credit approval and abalone databases.  相似文献   

13.
商业银行客户流失预测模型研究   总被引:1,自引:0,他引:1  
以某商业银行的客户流失为研究样本,使用数据挖掘及统计技术分析和识别影响商业银行客户流失的因素,并建立客户流失预测模型。实证研究结果表明所使用的扰动预测技术获得了满意的预测效果.  相似文献   

14.
一种挖掘频繁模式的数据库划分新方法   总被引:3,自引:1,他引:2  
提出了一种新的数据库划分方法。该方法应用于需要产生候选项的频繁模式的挖掘过程,可以大大减少对数据库的扫描操作,提高数据挖掘效率,特别是对于较长模式的数据挖掘更是如此。该方法是将交易数据库按照交易的长度(或者说模式的长度)划分成若干个子数据库,将等长度的交易划分到同一个子数据库中,这样在获取候选项的支持度时,只需要扫描模式长度大于等于相应候选项长度的子数据库即可,从而减少了对数据库的扫描操作。给出了基于数据库划分的挖掘算法,通过理论推导和实验证明了该方法的有效性。  相似文献   

15.
针对一类多输入单输出模糊逻辑系统,提出一种简单而有效的方法从数据库中挖掘模糊规则.该方法产生的模糊规则库具有良好的完备性和鲁棒性,从仿真实验可以看出利用数据挖掘方法建立的模糊系统具有更好的逼近能力.为了使该方法在应用上具有良好的通用性,设计和实现了基于组件技术的数据挖掘系统.  相似文献   

16.
基于数据挖掘的水库供水调度规则提取   总被引:1,自引:0,他引:1  
以供水调度为例对数据挖掘用于水库调度规则提取进行了研究.经分析主要选取了水库蓄水量、调度时段编号、需水量、径流量和水文年型5个特征属性构成数据集,通过数据挖掘从中发掘水库供水调度规则模式.采用径向基函数网络作为数据挖掘算法,将复杂的属性空间上的数据样本,映射为几种离散的供水调度模式,从而完成供水调度规则的模式划分.为了验证数据挖掘方法在调度规则提取上的效果,给出了调度图和调度函数方法用于供水调度的计算结果,三种方法的调度结果对比分析显示,数据挖掘方法在供水调度模式分类正确率和缺水指数两方面都是最好的,这反映出数据挖掘方法用于水库调度是合理有效的.  相似文献   

17.
谭华  谢赤  储慧斌 《系统工程》2007,25(4):92-97
将模糊关联规则应用于股票市场的交易规则抽取,以期能为投资者投资做出正确决策.首先选用聚类方法对模糊集属性进行离散化,进而构造模糊集和隶属函数,给出模糊集构造算法,最后提出适合股票交易规则抽取的模糊关联规则算法FARS.实验结果表明,所得规则能很好的反映股票交易中的实际情况.  相似文献   

18.
基于元学习技术的分布式采掘关联规则研究   总被引:3,自引:0,他引:3  
关联规则是数据采掘中的重要研究内容。本文利用元学习技术提出了在分布式交易数据库环境下,分布式采掘关联规则的一种方法和相应算法DMAR。该算法具有较高的采掘效率和较低的数据通信量。定义了衡量采掘算法效率的分布式因子g,并指出算法的采掘效率和数据通信量与g值的大小有关。最后通过实验验证了该算法的正确性和有效性。  相似文献   

19.
粗集在数据开采中的应用   总被引:5,自引:0,他引:5  
从数据库或数据仓库开采有用的知识,是辅助决策的有效手段,粗集作为一种新的软计算方法,是处理不确定、不完全数据的有效方法,它可以克服其他软计算方法的不足,并且和它们具有较强的亲和力,所以粗集理论得到了广泛的应用,尤其是数据开采领域巳成为研究的热点,论文就粗集在数据开采中的几个重要问题进行论述,包括决策表的约简、不完全决策表的处理,连续值的离散化、基于粗集数据开采的递增算法以及粗集与其他软计算方法的集成等几个前沿问题,同时指出了问题之所在,提出粗集进一步可能的发展方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号