首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 312 毫秒
1.
为了提高大数据集离群点挖掘能力,提出基于梯度提升回归树的大数据集离群点挖掘模型,构建大数据集离群点的回归树分布模型,采用多维特征融合方法进行大数据集离群点的特征检测,提取大数据集离群点的空间区域分布特征量,采用梯度提升回归分析方法对提取的大数据集离群点特征进行模糊聚类处理,在聚类中心中实现对大数据集离群点数据的自适应融合和分布式检测,通过梯度提升回归树分析方法实现大数据集离群点挖掘。仿真结果表明,采用该方法进行大数据集离群点挖掘的准确性较高,抗干扰性较好,提高了大数据集离群点挖掘过程的收敛和控制能力。  相似文献   

2.
k-prototypes是处理包含数值属性和分类属性混合数据主要的聚类算法,但由于对初始点的随机选择极易使聚类结果陷入局部最优,导致聚类结果的偏差.为改善聚类结果对初始点的依赖,采用遗传算法对初始点进行全局最优搜索.改进后的方法有更高的稳定性和对大数据集更快的收敛速度.数据集仿真结果表明改进算法正确、有效.  相似文献   

3.
企业二次创业金融数据的优化分类能提高数据的统计分析能力,提出基于逻辑回归的企业二次创业金融数据分类方法,采用自适应无监督学习的方法进行数据统计的融合处理,构建数据分布的不规则空间聚类模型,采用相空间结构重组方法进行数据的模糊特征重构,提取企业二次创业金融数据的关联规则特征量,采用逻辑回归分析方法进行数据分类的融合聚类处理,结合模糊C均值聚类方法,实现对数据分类的自适应寻优和收敛性控制,实现数据分类优化。仿真结果表明:采用该方法进行企业二次创业金融数据分类的准确性较高,收敛性较好,特征聚类能力较强。  相似文献   

4.
未来智能网联车与非网联车混行将带来更多的多源交通数据;为了提高数据的可靠性,结合传统交通数据获取方式提出了一种基于粒子群优化径向基神经网络的多源交通数据融合方法。首先选取不同来源的数据构建多源数据集并设置对照数据,利用Elbow Method方法和K-Means算法对多源数据集进行聚类,再以聚类中心坐标为参考构建相应径向基神经网络,最后在神经网络训练过程中引入粒子群算法,以融合结果与对照数据的差值作为粒子群算法迭代的目标函数,帮助求解神经网络中的参数。使用MATLAB实现神经网络并选取一组多源交通流量进行测试,同时再把这组交通流量数据用卡尔曼滤波算法融合,将两种方法的融合结果进行对比。结果表明:相比于传统卡尔曼滤波,使用粒子群优化的径向基神经网络对混行条件下的多源交通流量进行融合时数据误差均降低60%以上。  相似文献   

5.
为构建行驶工况,消除K-均值算法对初始聚类中心的敏感性及噪声点的干扰,提出一种改进主成分分析和基于密度的改进K-均值聚类组合方法。结合距离优化法和密度法,构建一种数据集密度度量方法。选取距离较大、密度较高的数据点作为初始聚类中心与候选集,优化聚类结果的同时剔除了孤立点,采用较大贡献因子的特征值进行工况合成,最后对行驶工况油耗进行分析。结果表明,所提方法构建行驶工况的速度-加速度联合分布差异值为1.17%,特征参数平均相对误差较小。可见,合成的行驶工况能够很好地反映某地实际交通道路特征,拟合度较高。  相似文献   

6.
为构建行驶工况,消除K-均值算法对初始聚类中心的敏感性及噪声点的干扰,提出一种改进主成分分析和基于密度的改进K-均值聚类组合方法.结合距离优化法和密度法,构建一种数据集密度度量方法.选取距离较大、密度较高的数据点作为初始聚类中心与候选集,优化聚类结果的同时剔除了孤立点,采用较大贡献因子的特征值进行工况合成,最后对行驶工况油耗进行分析.结果表明,所提方法构建行驶工况的速度-加速度联合分布差异值为1.17%,特征参数平均相对误差较小.可见,合成的行驶工况能够很好地反映某地实际交通道路特征,拟合度较高.  相似文献   

7.
物流大数据已经成为港口关键的生产要素,分析和利用大数据可有效控制经营风险,促进港口的健康可持续发展。本文基于Hadoop设计快速DBSCAN密度聚类算法,引入熵优化DBSCAN算法的核心点选择。在HDFS分布式文件系统中对大数据分块,采用Map对各个数据块完成初始聚类,并在Reduce上基于核心点扩展类融合形成最终聚类结果,以此提高大数据应用的效率。通过应用大数据对港口企业进行全面管理,为企业决策提供有效支持。  相似文献   

8.
分析基于物联网的企业共享数据信息的需求和特点,对目前国内外的企业大数据融合现状进行分析和研究,以实体企业数据信息为研究对象,整理并总结企业大数据信息的类型、内容,界定数据采集、数据过滤、数据集成、数据分析等内容,建立基于物联网的企业共享数据信息模型.确定基于物联网的企业共享大数据融合的方法和模式,设计出有专业化团队支撑服务的企业共享大数据融合平台,建立具有理论价值和实践指导意义的专业化团队支撑服务的企业共享大数据融合体系,设计出物联网条件下由多个数据池构成的数据湖融合架构和企业共享大数据三层安全策略,可以为企业的保密数据提供安全保障;以树理论作为融合方法,应用最优理论对企业数据融合体系进行研究,可以实现企业大数据的识别和共享.  相似文献   

9.
基于传统的Fuzzy等价关系聚类法,由Fuzzy相似矩阵构建Fuzzy等价矩阵,对传递闭包采用Warshall算法求解,并选择不同置信水平下的分类,利用偏差度得到最优聚类.结合北京市朝阳区近3个月新开楼盘的数据,选择可靠性指标,在最佳置信水平的基础上对其进行最优聚类,实验结果与事实吻合.  相似文献   

10.
一种自适应局部线性嵌入与谱聚类融合的故障诊断方法   总被引:4,自引:1,他引:3  
针对数据维数高、非线性且从高维观测空间分析数据模式困难的问题,将改进的流形学习算法引入到数据聚类中,提出了一种结合自适应局部线性嵌入和递归调用规范切融合的新方法.采用自适应局部线性嵌入对原始数据进行非线性降维,应用递归调用规范切对低维空间数据进行聚类,通过对3组UCI标准测试数据集的仿真实验表明,新方法能够将高维数据有效地映射到低维本质空间,克服了传统方法对数据集结构的依赖性,从而显著提高了谱聚类算法分类的准确性和稳定性.同时,对于田纳西-伊斯曼过程的数据实验,表明了该方法对故障模式识别的可行性和有效性.  相似文献   

11.
为了提高物联网传感器的节能效果和连通性,需要进行节点的优化部署设计,提出基于混合服务策略轮询特性分析的物联网传感节点设计方法。首先分析物联网传感节点的分布式组网结构,由此构建失效代价模型,在模型中采集传感器网络的混合汇聚节点数据,并进行多元信息融合,为最优节能约束下物联网传感节点能量开销的计算提供数据基础,完成物联网传感节点的优化分簇和部署设计,最终实现混合服务策略轮询特性下物联网传感节点设计。仿真结果表明,采用该方法进行物联网传感节点设计的均衡性较好,节点的能耗开销较小,具有很好的物联网部署能力。  相似文献   

12.
提出一种基于语义关联性特征融合的大数据挖掘算法.对云存储大数据分布式信息流进行高维相空间重构,在重构的相空间中提取大数据的语义关联维特征量,以提取的特征量为测试集进行自适应学习训练.采用模糊C均值算法进行大数据语义关联特征的稀疏性融合和聚类处理,在聚类中心实现对挖掘目标数据的指向性聚敛,输出数据挖掘结果,并采用特征压缩器进行降维处理,降低计算开销.仿真结果表明,采用该方法进行大数据挖掘的特征提取准确性较好,挖掘数据的聚类能力较强,在实时性和准确性方面具有优势.  相似文献   

13.
在研究零售户聚类分析中,传统的k中心聚类方法,计算成本过大,无法有效应用子大数据集.提出了零售户聚类方法,继承CLARANS算法迭代思想,采用全局随机抽样技术,将算法应用于大型空间数据集,通过多次迭代尽量寻求最优聚类结果.聚类结果的评价标准为基于最短主干道距离(SARD)的总距离.该聚类算法是在CLARANS算法的基础上进行改进,使其能够处理带地理信息的数据对象,且聚类结果满足需求约束条件限制.  相似文献   

14.
针对K-means算法易受聚类中心影响而陷入局部最优的问题,提出一种基于改进森林优化算法的K-means聚类算法。首先,将衰减因子引入传统算法中提出一种自适应微量步长方法,以加快算法收敛速度,并改善算法的全局搜索与局部开发能力;然后,结合遗传算法中的算术交叉操作思想,改进传统算法全球播种阶段的选择策略,使得算法能够跳出局部最优,提高算法优化精度。通过基准测试函数实验,验证了改进算法的有效性和优越性。最后,结合改进算法和K-means算法,提出一种新的聚类算法,并通过在UCI数据集上的实验结果表明,提出的聚类算法具有较高的聚类准确率。  相似文献   

15.
随机选择初始聚类中心的k-means算法易使聚类陷入局部最优解、聚类结果不稳定且受孤立点影响大等问题.针对这些问题,提出了一种优化初始聚类中心的方法及孤立点排除法.该算法首先选择距离最远的两点加入初始化中心,再根据这两点将原始簇分成两个聚簇,在这两个簇中挑选方差较大的簇按照一定的规则进行分裂直至找到k个中心,初始中心的选择过程中用到孤立点排除法.在UCI数据集及人造含一定比例的噪音数据集下,通过实验比较了改进算法与其他算法的优劣.实验表明,改进后的算法不仅受孤立点的影响小、稳定性好而且准确度也高.  相似文献   

16.
目的探索同时确定K-means算法的最佳聚类数K和最佳初始聚类中心的方法,使K-means算法的聚类结果尽可能地收敛于全局最优解或近似全局最优解。方法以次胜者受罚竞争学习(Rival Penalized Competitive Learning,RPCL)作为K-means的预处理步骤,以其学习结果作为K-means的聚类数和初始聚类中心并依据数据集样本自然分布定义样本密度,将此密度引入RPCL的节点权值调整,以此密度RPCL的输出作为K-means的最佳聚类数K和最佳初始聚类中心。采用UCI机器学习数据库数据集以及随机生成的带有噪音点的人工模拟数据集进行实验测试,并用不同的聚类结果评价指标对聚类结果作了分析。结果提出的密度RPCL为K-means提供了最佳的类簇数和最佳的初始聚类中心。结论基于密度RPCL的K-means算法具有很好的聚类效果,对噪音数据有很强的抗干扰性能。  相似文献   

17.
针对混合属性数据聚类难度高的问题,提出一种基于广义线性模型的混合属性数据聚类方法.首先,构建低阶多元广义线性模型处理海量数据聚类问题,考虑数据属性的时间特性,获取属性时间序列矩阵;然后,基于优化K-prototypes聚类方法处理混合属性数据时,考虑属性的时间序列矩阵;最后,在考虑样本同聚类中心距离基础上兼顾已知样本信息内容,采用优化方法计算数据相异度、样本与聚类集间距离,当聚类结果趋于平稳时终止运算,输出聚类结果.为验证基于广义线性模型的混合属性数据聚类方法的有效性展开实验分析.结果显示,该方法经过较少次迭代即可优化划分混合属性数据聚类集,聚类适应度值为0.88~0.94,适应度优,可准确体现样本间差异,是一种准确度高的混合属性数据聚类方法.  相似文献   

18.
针对海量数据聚类过程中,经典的K-均值聚类算法对其K个初始聚类中心点的选择以及数据集噪声十分敏感的问题,提出了一种针对海量数据考虑初始聚类中心点选择的聚类算法.该算法首先采用冒泡排序法对数据集进行排序,获取数据集的各维中心值组成第一个初始聚类中心点.其次,通过计算与第一个初始聚类中心点的欧式距离,对剩余候选初始聚类中心点进行优化选择,保证所有的聚类中心点均匀地分布在数据集密度较大的空间上,以此减少聚类过程中的迭代次数和提高聚类算法效率.最后,基于UCI(University of California,Irvine)中多个数据集,进行聚类算法对比实验.结果表明,在不降低聚类效果的前提下,该聚类算法的迭代次数平均降低到50%,所需的时间降低平均达10%,由实验结果还能推出,当点集的数目越多时,该算法就能表现出越明显的聚类优势效果.  相似文献   

19.
子空间聚类已经广泛应用于多个涉及高维数据聚类应用领域,受到机器学习研究者的广泛关注.子空间聚类方法是一种使用特征选择的聚类分析技术,通过选择重要特征子集实现对高维空间的低维表示,在实际应用中能够取得更好的性能,成为流行的高维数据聚类方法.与硬聚类方法相比,软聚类能够给出复杂数据更有意义的划分.扩展k-均值聚类并提出基于可靠性的正则化加权软k-均值新的子空间聚类方法(Reliability-based regularized weighted soft k-means clustering algorithm,RRWSKM),该方法能够计算每个特征对每个聚类的贡献度,从而找到与不同聚类相关的重要特征子集.另外,该方法能够通过调整模型参数准确地辨识数据模式,具有良好的聚类性能.该方法把维度加权熵和划分熵作为正则化项引入到目标函数,避免过拟合问题同时使更多的特征参与辨识聚类.为了提高算法的鲁棒性,使用可靠性测度获得特征权重初始值,提高算法的可靠性和性能.考虑到该算法是非凸优化问题,使用迭代优化方法得到优化问题的最优解.使用多个实际数据集对本文算法进行仿真验证,结果表明,与其他子空间聚类算法相比,该算法能够有效发现高维数据的低维表示,具有良好的聚类性能,适合高维数据的聚类.  相似文献   

20.
针对传统按相关系数高低进行选股并使用简单的非线性规划进行跟踪误差优化的方法进行改进,以沪深300指数为目标指数,根据动态聚类方法进行选股,基于遗传算法进行优化求解分配最优资金配置权重,在一定约束条件下构建指数投资组合,实现跟踪误差优化目的.实证结果表明,结合动态聚类与遗传算法构建指数投资组合,比传统的相关系数法选股并进行非线性规划求解能得到更小的跟踪误差和更好的目标指数拟合效果,目标指数跟踪拟合效果更为有效.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号