首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
混合属性数据聚类融合算法   总被引:5,自引:0,他引:5  
混合属性数据集是现实世界特别是商业金融数据库中最普遍的数据集类型,但适用于这类数据集的聚类算法极少。该文根据聚类融合的方法体系,针对混合属性数据集的特点,提出了基于聚类融合的混合属性特征聚类算法(CEM C),建立了算法框架,列出了算法目标函数和算法主要步骤,并分析了算法复杂度。该算法可以有效处理混合属性海量数据集。用真实数据集验证了算法,并将此算法应用于实际的客户关系管理数据分析中,得到了较好效果。  相似文献   

2.
借助于近似极大值函数的凝聚函数,将传统数据聚类问题转化为无约束优化问题求解.首先利用一阶必要条件,推导出数值属性下数据聚共中心的计算格式;其次采用类属性分解方法,提出计算类属性数据对象之间距离的新方法,井在此基础上给出混合属性下数据聚类中心的计算格式和一个能处理数值型和分类型混合数据集的凝聚聚类算法;最后选取不同初始聚类中心,使用凝聚聚类算法对英语借词进行了聚类实验和分析.结果表明,凝聚聚类算法在计算效率和计算效果方面均优于模糊k-prototypes聚类算法.  相似文献   

3.
CABOSFV_C是一种针对分类属性高维数据的高效聚类算法,该算法采用集合稀疏差异度进行距离计算,并采用稀疏特征向量实现数据压缩。该算法的聚类效果受集合稀疏差异度上限参数的影响,而该参数的选取没有明确的指导。针对该问题提出基于集合稀疏差异度的启发式分类属性数据层次聚类算法( heuristic hierarchical clustering algorithm of categorical data based on sparse feature dissimilarity,HABOS),该方法从聚结型层次聚类思想的角度出发,在聚类数上限参数的约束下,应用新的内部聚类有效性评价指标( clustering validation index based on sparse feature dissimilarity, CVISFD)进行启发式度量,从而实现对聚类层次的自动选取。 UCI基准数据集的实验结果表明,HABOS有效地提高了聚类准确性和稳定性。  相似文献   

4.
软件可靠性验证阶段的可靠性增长模型的建立与选择是软件可靠性工程人员长期关注的焦点.软件可靠性模型混合是解决模型适应性差、精度低的可行性方法.利用模型聚类的COBWEB算法处理失效数据,对基本分模型进行动态权重混合,以提高软件可靠性评估与预测的精度和稳健性.并利用软件工具对该方法进行模型评价.  相似文献   

5.
结合聚类分析方法与主成分分析方法,得到了线性模型参数的一种新估计-聚类主成分估计,并把它与最小二乘估计(LSE)和主成分估计(PCE)比较,获得了一些优良的性质。  相似文献   

6.
为解决有限混合分布模型的聚类分析中分量密度函数选择问题,通过研究广义多元分析理论,提出了基于椭球等高分布混合模型的聚类算法.首先,利用与正态分布有许多相似性质的椭球等高分布族来构造混合分布模型,并引入标签变量,将基于椭球等高分布混合模型的聚类转化为模型参数估计问题;然后,通过极大似然估计法和EM算法进行模型一般变量参数...  相似文献   

7.
基于混合模型的聚类算法研究   总被引:1,自引:0,他引:1  
全面探讨了基于混合模型聚类算法的一般理论框架和聚类策略,介绍了国内外在该领域的最新研究现状,指出了该算法的局限性和存在的问题.  相似文献   

8.
K-prototypes算法是处理混合数据的主要聚类算法,大部分针对混合型数据的聚类算法都是选择数据集中的一部分数据作为聚类对象,而忽略了这类数据的特殊性与整体性,为了改进了数据的距离衡量,文中提出了一种新的聚类方法,该方法采用信息熵作为属性的权值,进行高精度和更加稳定的聚类,最后通过Matlab编程实现,采用uci数据集中credit等数据集进行仿真实验,证明改进算法是正确和有效的.  相似文献   

9.
基于粗糙集理论的聚类融合加权迭代模型   总被引:1,自引:0,他引:1  
针对聚类融合问题,考虑了聚类成员的质量和噪声对聚类结果的影响,提出一种加权迭代的聚类融合模型,利用粗糙集理论中的决策表属性重要性的信息熵来衡量聚类成员的重要性,迭代更新聚类成员的权重。该文在模拟和真实数据集上进行了校验。结果表明,该模型能较好地处理聚类成员间的质量差异,并能有效地消减噪声对融合的影响,从而得到更好的聚类融合结果。  相似文献   

10.
广义部分线性加性模型具有参数和非参数2个部分,并且选择不同连接函数可以得到多种不同加性模型,是一种非常灵活的统计模型.有限混合模型是研究异质性总体的有效工具,扩展性很强,随着计算能力的不断提升,得到越来越广泛应用.本文将这2种模型相结合,提出混合广义部分线性加性模型(MGAPLM).首先给出模型的定义,并在一些温和条件...  相似文献   

11.
大数据具有数据量大及混合类型的属性,基于MapReduce的K-prototypes并行大规模混合数据方案的缺点是时间和内存的限制,导致这些方案不适合处理大数据.为了解决这个问题,该文提出一种新的基于Spark的k-prototypes聚类方法,该方法使用了重新聚集技术,利用Spark框架的内存操作来构建大规模混合数据分组.在模拟和实际数据集上的实验表明,该文方法可行,且提高了现有K-prototypes方法的效率.  相似文献   

12.
龙蓓  林路 《广西科学》1998,5(3):190-193
根据强影响点的实际意义,提出一种强影响点的显著性检验模型。解决了线性模型和广义线性模型的强影响点的显著性检验问题,其中的检验统计量分别是F检验统计量和Score检验统计量,实例表明此法较好.  相似文献   

13.
讨论了多维广义线性模型的诊断问题,证明了均值漂移模型与数据删除模型的等价型,求出了常用诊断统计量的一阶表示式.  相似文献   

14.
有限元广义混合法及其应用   总被引:4,自引:0,他引:4  
推导了正交各向异性平面问题广义混合变分原理的泛函,以此为基础建立了该问题的有限元广义混合法。该模型的特点是其中含有一个被称为分裂因子的参数,文中给出了一种选取分裂因子的具体方法。通过算例说明, 适当调整分裂因子的值, 可以达到调整有限元模型的刚度, 降低有限元刚度矩阵的谱条件数, 提高有限元解的精度及克服有限元病态问题的目的。  相似文献   

15.
聚类分析是数据挖掘的一个重要研究方向,而PAM算法是聚类算法中一个重要的方法.本文针对PAM算法不适应大数据集的缺点,给出一个近似的线性时间聚类算法(ALCM),并且从理论上证明了该算法复杂度为关于数据集个数的线性时间复杂度.通过比较实验表明:1)随着数据个数的增大,PAM所花费的时间将激剧增大,而ALCM花费时间与数据集个数呈近似线性增长的关系,即ALCM是适应大数据集的.2)PAM算法和AL-CM算法随数据个数增大,二者的代价函数并无明显差异.  相似文献   

16.
数据聚类标签技术是在小规模样本上进行聚类,然后利用聚类结果对其余样本标注类别的方法是提高大规模数据聚类效率的一种有效途径.混合数据是现实应用中最广泛的数据类型,文章将用户兴趣数据作为小规模数据,利用K-prototypes算法对其聚类,在此基础上构建用户兴趣域.利用拟标签数据的各属性值与用户兴趣域分量的关系定义了数据关于用户兴趣域隶属度.基于用户兴趣域和"数据-用户兴趣域"隶属度的概念,提出了一种基于用户兴趣混合数据聚类标签算法UIMCL(User’s Interest Mixed Data Clustering Label).该算法克服了以往数据标签算法只能为拟标记数据指派一个类标签的局限性,可以应用于电子商务的推荐服务和用户行为分析.实验结果表明,该算法对混合数据聚类标签处理有较好的效果.  相似文献   

17.
把一类线性混合模型化为满足假设的线性模型,然后用最小二乘法、估计法给出线性混合模型中参数的估计.  相似文献   

18.
考虑线性模型的参数预测问题,在设计矩阵的复共线性下,提出了广义压缩预测,并讨论了它们的性质.  相似文献   

19.
文中算法的迭代初始过程是利用内点横穿可行域内部直接达到边界,其迭代轨迹不同手内点法始终在内部弯行的迭代轨迹,是一个将内点与单纯形法联系起来的方法。  相似文献   

20.
讨论了如何运用EM算法对泊松线性混合效应模型进行参数估计.首先利用马尔柯夫链蒙特卡罗方法对Q函数进行近似,然后利用Newton-Raphson算法求出Q函数的极大值点,从而求得了模型中未知参数的极大似然估计.以一组癫痫病人数据为例,说明该方法是简单可行的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号