首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
针对缺失数据的有效填充问题,提出利用模糊C-均值聚类(FCM)算法的隶属度矩阵作为待填数据的加权权重.首先使用同一属性均值对缺失数据作预填充,再进行FCM以得到每个类别的隶属度矩阵,最后用该矩阵作为权重去乘以每个类别的属性均值,得到最终的填充数据.在UCI数据实验中,将FCM填充算法与k近邻(KNN)填充算法作对比分析,结果表明,FCM填充得到的均方根误差总体小于KNN填充.  相似文献   

2.
利用MapReduce编程模型,提出一种并行的加权k近邻与离群检测方法 WKNNOM-MR.该算法首先对输入数据随机均匀采样,在样本数据集中采用信息熵计算各个属性的权值;然后在集群中的数据节点上对输入数据进行加权,并将其映射到Z-order空间填充曲线,给出了一种基于Z-order的加权k近邻查询方法;根据每个对象与其加权k近邻之间的距离计算离群因子,在兼顾最小距离与平均距离的基础上,给出离群点检测算法;最后在具有5个节点的Hadoop集群上实现该算法,并采用人工合成数据集、UCI标准数据集进行实验,结果验证了该算法的有效性、可扩展性和可伸缩性。  相似文献   

3.
针对缺失数据的有效填充问题,提出利用模糊C-均值聚类(FCM)算法的隶属度矩阵作为待填数据的加权权重.首先使用同一属性均值对缺失数据作预填充,再进行FCM以得到每个类别的隶属度矩阵,最后用该矩阵作为权重去乘以每个类别的属性均值,得到最终的填充数据.在UCI数据实验中,将FCM填充算法与k近邻(KNN)填充算法作对比分析,结果表明,FCM填充得到的均方根误差总体小于KNN填充.  相似文献   

4.
传统基于概率分布的不完整数据聚类填充算法,未综合分析数据对象的类别属性,数据填充效率和精度较低。因此,本文提出一种新的聚类填充算法,利用近邻传播(AP)算法聚类不完整数据,采用元祖相似度算法对不同类别的不完整数据实施填充。通过数据挖掘方法获取多类别不完整云计算网络系统中的加权关联规则,实施常规缺失数据的填充,采用数据推荐筛选方案实施元组相似度运算,完成异常缺失数据的填充,最终获取完整的云计算网络数据集,提高云计算网络数据的有效利用率。实验表明,本文设计的聚类填充算法具有较高的填充效率和精度。  相似文献   

5.
针对指纹定位精度易受指纹数据K-means聚类预处理效果不佳、加权K近邻算法采用固定K值进行匹配定位精度差等问题,提出一种基于改进K-means聚类的自适应加权K近邻算法.算法在对指纹数据进行聚类计算过程中充分考虑参考点间接收信号强度值与实际物理坐标的双重影响,以避免参考点分类不明确;根据每个测试点的匹配参考点之间实际距离的均值和标准差设置阈值,动态选择K值.实验结果证明,改进K-means聚类的自适应加权K近邻算法相较于传统室内定位算法定位精度提高了44%,可为相关应用提供更精确的定位服务.  相似文献   

6.
针对间歇过程数据的多模态与动态特性共存带来的故障检测问题,提出一种基于加权双近邻标准化(WDNS)的稀疏加权邻域保持嵌入(SWNPE)算法.首先,在寻找样本双层近邻的基础上加权得到加权双近邻集,用加权双近邻集信息标准化样本,将多模态数据处理为单一模态分布,消除多模态中心点差异,解决多模态特性;然后,考虑到NPE算法不能...  相似文献   

7.
针对评估数据缺失的问题,提出了一种新的缺失数据填充方法.从信息熵的角度对评估系统进行描述,并提出一种建立在区间值信息系统上的加权广义信息熵,对这种信息熵的非负性、单调性和极值性进行证明.在此基础上,通过研究评估系统数据缺失前后信息熵的变化情况,建立一种基于加权广义信息熵的缺失数据填充方法,并从知识粒度的角度论述加权广义信息熵的机制.通过实例分析与现有的部分算法进行比较,进一步证明文中算法对评估系统缺失数据填充的有效性.  相似文献   

8.
针对基于样例的偏标记学习方法 IPAL需对每个样本求取近邻及近邻的权值、耗时太多而不适用于求取大规模数据的问题,提出了一种基于近邻距离加权的偏标记学习算法,对IPAL中近邻权值的求取方式进行改进.为提升新算法的运行效率,在训练集与测试集的读取、相似度图的构建、迭代标记传播和测试样本的预测等方面进行了并行计算;设计了新算法的并行模型,且在MPI的集群环境下实现此模型.将改进后串行算法WIPAL的运行效率和分类准确率与IPAL进行对比,且将不同进程数下并行算法PWIPAL的运行时间和加速比进行对比.试验结果表明:新算法在保证分类准确率的前提下缩短了运行时间;随着数据规模的增大,PWIPAL与WIPAL分类准确率相同,运行时间的加速比逐渐接近所设定的进程数,可以用来处理大规模数据.  相似文献   

9.
在采用协同过滤算法构建个性化推荐的系统中,经常面临用户评价数据稀疏问题,这将严重降低个性化推荐的准确度.针对此问题,提出了一种混合加权预测填充算法,从用户访问的资源特征以及该资源在整个用户群体中被访问的热度出发,对用户访过的但未给出评价的数据进行预测并填充,从而降低了由于用户评价数据缺失所造成的评价矩阵稀疏程度,提高推荐准确度.在MoiveLense数据集上的试验结果表明,该算法能够明显地提高推荐准确度.  相似文献   

10.
针对不完备信息系统,提出缺失比概念.用缺失比表示待填充样本中缺失数据和剩余数据对决策结果的影响能力的大小,进而根据缺失比选择使用的约简,然后通过填充矩阵寻找缺失数据的最大可能值.采用对Rough集进行扩充和数据填补相结合的决策表数据补齐方法.试验结果表明该方法有较好效果.  相似文献   

11.
最近邻搜索广泛应用于分类问题,其最显著的优点是分类准确率高、泛化性能好.但现有最近邻分类算法都存在着一个弱点——样本集增大分类计算量也显著增大.为了克服这一不足,本文基于一个新的思路,提出了最近邻分类方法的一种改进方法.该方法在进行最近邻分类时,不一定要找到待分类点的最近邻点,而只要知道最近邻点的类别即可,大大地减少了最近邻搜索时的计算量.用经典的分类问题双螺线问题(TSP)以及其他几个例子,就该改进方法的分类效果、分类速度和学习性能等3个方面进行了测试,并与经典的K维双叉树(KD树)最近邻搜索法以及压缩近邻法进行了比较.结果表明,就综合性能而言,本文改进方法是有竞争力的.  相似文献   

12.
Problems existin similarity measurement and index tree construction which affect the perform-ance of nearest neighbor search of high-dimensional data .The equidistance problem is solved using NPsim function to calculate similarity .And a sequential NPsim matrix is built to improve indexing performance .To sum up the above innovations , a nearest neighbor search algorithm of high-dimen-sional data based on sequential NPsim matrix is proposed in comparison with the nearest neighbor search algorithms based on KD-tree or SR-tree on Munsell spectral data set .Experimental results show that the proposed algorithm similarity is better than that of other algorithms and searching speed is more than thousands times of others .In addition , the slow construction speed of sequential NPsim matrix can be increased by using parallel computing .  相似文献   

13.
根据K近邻、共享K近邻和互K近邻三种近邻算法的思想分别构造复杂网络,然后通过复杂网络的社团发现算法来实现对样本的聚类.最后,将三种方法分别在人工构造的非凸类簇数据集和UCI数据集上进行仿真实验,结果表明三种方法都是可行的,且互K近邻网络聚类方法还具有识别一定数量孤立点功能.  相似文献   

14.
为迅速、准确、无过多人工干预的进行图像分割,提出了一种K最近邻算聚类方法并将其应用于图像处理。与经典K最近邻算法在样本库中寻找最近邻点不同,该算法在待分割图像的RGB空间中寻找每一个像素点的K个最近邻点,参考所有像素点同最近邻点之间的平均距离,引入聚类阈值并对像素点的归属进行判断。对火焰图像的分割实验结果表明,在分割精度相接近的情况下,该算法的分割速度要快于其它几种常见算法。  相似文献   

15.
一种改进的离群点检测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
现有的离群点检测算法运用于规模较大的数据集时,其时间效率和检测效果通常不够理想.通过对离群点分布特征的分析,在计算每个数据点到其kth最近邻对象距离的同时,结合其k最近邻的分布情况,给出一种改进的离群点度量方法.基于上述思想构造的离群点检测算法DokOF能够处理混合属性数据.实验表明,该算法具有良好的适用性和有效性.  相似文献   

16.
基于整个数据集的稀疏表示(sparse representation classification,SRC)用于人脸识别在很大程度上影响了运行效率.如何利用较少样本稀疏表示在保证计算效率的同时,识别率也有一定提升,尤其是面对光照、角度、姿态等非受控环境,目前仍是一个问题.考虑到协同表示(collaborative representation classification,CRC)基于l2范数稀疏求解的优势,为进一步提升CRC的整体分类性能,引入类内近邻,提出一种二次近邻稀疏重构表示法.该方法首先在原始训练集上选择各类训练样本中与待测样本距离相近的若干样本组成近邻样本集,并协同表示,接着分别用各类近邻样本重构待测样本,再次选择与待测样本相近的若干重构样本协同表示,最终实现模式分类.在ORL和FERET数据库上的仿真实验表明,相比现有的一些CRC算法,该方法在一定程度上缩短了运行时间,并使识别更精确.  相似文献   

17.
针对数字化主动电网中电力实体行为复杂化、攻击手段隐蔽化等问题,提出了一种基于模糊聚类的多类别归属异常检测算法。首先,对电力实体行为相似性的度量方式进行优化,并基于优化后的度量方法构建模糊聚类算法,通过多次迭代得到实体行为对应各类别的隶属度矩阵;其次,根据类别软划分隶属度矩阵,分别计算实体在各个类别内的近邻距离、近邻密度与近邻相对异常因子等参数;最后,分析实体在各类簇内的相对异常情况,判断该电力实体行为是否属于异常行为。结果表明,与LOF,K-Means和Random Forest算法相比,新方法具有更高的异常行为检出数量和更优的异常检测评价指标,解决了传统异常检测算法样本评价角度单一的问题,进一步提高了数字化主动电网抵御未知威胁的能力。  相似文献   

18.
移动对象轨迹的k近邻(k nearest neighbor trajectories,kNNT)查询是一种重要的空间信息服务,主要用于寻找与给定轨迹最近邻的k条轨迹,被广泛地应用于智能交通、信息推荐等领域。随着轨迹数据量的快速增长,由于单机计算资源的限制,传统集中式环境下的kNNT查询效率和可扩展性无法满足实际要求。为了解决这个问题,设计了轨迹数据的分布式网格索引结构,该索引在Spark环境下将轨迹切分并映射到网格中,并引入轨迹还原表以保留查询时候选子轨迹段间的连续性。基于此索引,提出了Spark环境下的轨迹k近邻查询方法kNNT-Grid。实验结果表明,kNNT-Grid方法在分布式环境下实现了良好的查询效率和可扩展性,能够应对海量轨迹数据的k近邻查询需求。  相似文献   

19.
基于证据决策的思想,对传统的最近领域法(NN)及K近领域法(K-NN)进行改造,设计新的航迹相关判决准则,提出一种新的分布式多传感器航迹关联算法(EK-NN). 通过仿真试验分析,并与最近领域法(NN)及K近领域法(K-NN)进行比较. 结果表明,在密集目标环境下,基于证据决策的(EK-NN)航迹关联算法明显优于最近领域法(NN),较K近领域法(K-NN)也有一定的改进.  相似文献   

20.
由于仪器的不精确和网络延时等原因,在传感器网络和P2P系统中数据都存在不确定性.为解决此问题,基于现有的集中式的不确定数据的kNN查询方法,提出了一种在P2P环境中对不确定数据的kNN查询方法.该方法在super-peer的网络拓扑结构的基础上,以一种扩展的R树(P2PR-tree)作为此查询算法的空间索引结构,解决P2P环境中对多维数据的索引.并且结合两种剪枝策略减小了候选集的范围和减少了查询在P2P网络中的网络代价.实验结果表明,该方法在减少网络代价方面具有较高的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号