首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
基于加权距离的局部离群点检测算法   总被引:1,自引:1,他引:0  
针对不同属性对数据点之间距离贡献的不同,提出了一种用于距离度量的属性加权策略。标称属性通过属性取值的信息熵进行加权,数值属性通过属性取值的标准差进行加权,混合属性根据标称属性和数值属性综合加权,加权策略可以放大离群点与正常数据之间的差别。仿真实验区分不同的属性类型对所提加权策略进行了验证,实验结果证明了策略的有效性。  相似文献   

2.
针对多机器人系统的增强学习问题,为提高机器人的学习速度和充分利用通信范围内其他机器人的增强学习的经验和结果,给出了2类基于局部加权k近邻时间差分的多机器人系统的交互式学习策略.对于机器人之间通信无时滞情形,基于环境感测和任务信息状态描述的局部加权k近邻状态选择方法,机器人通过对自身和通信范围内其他机器人Q值表的比较和分析,对其自身的Q值表进行优化迭代更新.在此基础上,分别给出了基于全局通信条件下和局部通信条件下多机器人系统的异步的互增强学习方案.最后,通过仿真实验进一步验证了所提方案的可行性和有效性.  相似文献   

3.
针对基于样例的偏标记学习方法 IPAL需对每个样本求取近邻及近邻的权值、耗时太多而不适用于求取大规模数据的问题,提出了一种基于近邻距离加权的偏标记学习算法,对IPAL中近邻权值的求取方式进行改进.为提升新算法的运行效率,在训练集与测试集的读取、相似度图的构建、迭代标记传播和测试样本的预测等方面进行了并行计算;设计了新算法的并行模型,且在MPI的集群环境下实现此模型.将改进后串行算法WIPAL的运行效率和分类准确率与IPAL进行对比,且将不同进程数下并行算法PWIPAL的运行时间和加速比进行对比.试验结果表明:新算法在保证分类准确率的前提下缩短了运行时间;随着数据规模的增大,PWIPAL与WIPAL分类准确率相同,运行时间的加速比逐渐接近所设定的进程数,可以用来处理大规模数据.  相似文献   

4.
Apriori是挖掘关联规则最经典的算法之一,针对该算法存在的瓶颈问题研究了基于MapReduce编程框架的简单Apriori并行算法;并在简单Apriori并行算法的基础上提出一种采用固定多阶段结合挖掘策略的改进算法——多阶段并行算法。实验结果表明,改进算法能缩短挖掘时间,提高执行的效率。  相似文献   

5.
针对无数据标签的群数据异常检测问题,提出在无监督模式下利用k最近邻(kNN)算法检测群数据异常.为减少由于异常值与正常值之间相互干扰而产生的漏报和误报,提出用反向 k近邻(RkNN)算法对异常群数据进行反向过滤.反向k近邻算法首先将统计距离作为不同群数据间的相似性度量,再用kNN算法求得每个集群的异常得分,并获得初始异...  相似文献   

6.
针对MapReduce框架与传统关系型数据库兼容性不好的问题,提出了一种基于分块结构的分布式关系数据库ChunkDB.并对MapReduce架构进行了扩展设计,使ChunkDB与MapReduce有效结合,将MapReduce的扩展性、易操作性、高并行性与关系数据库的索引等查询优化优势相结合.实验证明基于MapReduce的ChunkDB数据库能够为数据仓库应用提供快速高效的并行查询.  相似文献   

7.
针对基于支持向量机算法的网络入侵检测方法,对交错严重的大规模复杂样本集,分类面附近的样本被正确分类可信度低,基于k近邻算法的检测方法测试结果不稳定等问题,提出一种将k近邻与支持向量机相结合的网络入侵检测方法。在分类时,计算待识别的网络连接记录样本与最优分类超平面的距离,如果距离大于预设阀值,采用支持向量机算法对连接记录进行分类,否则采用k近邻法对连接记录进行分类,同时为减少检测方法受样本分布不均衡的影响,采用带权重因子的欧式距离来度量样本间的相似度。最后在KDD99数据集上进行仿真实验,结果表明,相对于单一的支持向量机或k近邻算法的网络入侵检测方法,k近邻与支持向量机相结合的入侵检测方法可以进一步提高网络入侵检测的正确率,是一种较好的网络入侵检测方法。  相似文献   

8.
推荐系统的协同过滤(Collaborative filtering)算法是目前推荐系统应用最为广泛的推荐算法,然而,CF推荐算法的计算复杂度高,阻碍了其在大型系统中的应用.该文在一个云计算平台即Hadoop上通过MapReduce生成同现矩阵和评分矩阵两非负矩阵,利用同现矩阵和评分矩阵相乘产生推荐结果,实现了基于项目的CF推荐算法.实验结果表明,该推荐算法可以有效地实现大规模数据的推荐,并解决了系统可扩展性问题.  相似文献   

9.
基于MapReduce并行的Apriori算法改进研究   总被引:2,自引:0,他引:2       下载免费PDF全文
基于MapReduce实现的Apriori简单并行算法,产生了大量值为1的键/值对,影响了算法效率.提出一种分组统计策略的Apriori并行算法,有效地减少了键/值对的产生.实验结果表明,改进的基于MapReduce并行的Apriori算法在时间性能上有了很大的提升,并且随着集群节点的增加,算法的加速比线性提高.  相似文献   

10.
FP-growth算法是不产生候选集的关联规则挖掘算法,在许多领域中具有很高的实际应用价值。然而经典的FP-growth算法是内存驻留算法,只能处理小数据集,在面对海量数据集时显得无能为力。对经典FP-growth算法中FP-tree的结构和挖掘过程进行了改进,分析了FP-tree单路径和多路径的不同挖掘方法,提出了一个剪枝策略,在挖掘过程中减少了部分分支的迭代次数。然后利用云计算的MapReduce编程技术,对改进的FP-growth算法的各个步骤并行化。实验结果表明改进的算法在处理不同的数据集时有一定的优势,然后经过MapReduce模型并行化后,提高了对海量数据的处理能力和效率,并且具有较好的加速比和良好的扩展性。  相似文献   

11.
由于有序与无序特征之间的复杂关系,现有分类方法不能有效处理混合数据(同时包括有序和无序特征)上的分类问题。针对此问题,提出了基于k近邻的混合数据分类方法(a classification method for mixed data based on k-nearest neighbor,MDKNN)。首先通过区分有序和无序特征计算样本之间的距离,获取特征的序信息和统计信息;然后分别从优于和劣于预测样本的训练集中选出最近邻样本,并基于模糊关系计算其类隶属度,以确定预测样本的类标签范围,从而保证预测结果的单调性;最后在该范围内计算分类结果。在来自UCI和WEKA的12个公开数据集上进行实验,分别与基于k近邻模型的MKNN、FKNN、MFKNN算法和基于非k近邻模型的PMDT、OLM、OSDL算法比较,所提方法都获得了最高的平均准确率,且分别比两类模型中的最优算法MFKNN和PMDT提高了7.13%和9.84%,表明了所提方法的有效性。  相似文献   

12.
离群点检测是数据挖掘领域研究的热点之一,主要目的是识别出数据集中异常但有价值的数据点. 随着数据规模不断扩大,使得处理海量数据的效率降低,随即引入分布式算法. 目前现有的分布式算法大都用于解决同构分布式的处理环境,但在实际应用中,由于参与分布式计算的处理机配置的差异,现有的分布式离群点检测算法不能很好地适用于异构分布式环境. 针对上述问题,本文提出一种面向异构分布式环境的离群点检测算法. 首先提出基于网格的动态数据划分方法(Gird-based Dynamic Data Partitioning,GDDP),充分利用各处理机的计算资源,同时根据数据点的空间位置信息进行数据划分,可有效减少网络通信. 其次基于GDDP算法,提出了异构分布式环境中并行的离群点检测算法(GDDP-based Outlier Detection Algorithm,GODA). 该算法包括2个阶段:在每个处理机本地,按照索引中数据点的顺序进行过滤,通过2次扫描得到离群点候选集;判断候选离群点需要进行网络通信的处理机,使用较低网络开销得出全局离群点. 最后,通过大量实验验证了本文提出的GDDP和GODA算法的有效性.  相似文献   

13.
建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率,提出基于"互为最小相似度文本对"搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法;其次,基于"互为最小相似度文本对"搜索选择二分簇中心,提出通过一次划分实现簇质心寻优的二分K-means聚类算法;最后,基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型.在Hadoop平台上运用真实文本数据的实验表明:提出的聚类算法与原始二分K-means相比,在获得相当聚类效果的同时,具有明显效率优势;并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性.  相似文献   

14.
提出一种基于属性和距离加权的K近邻特征选择方法.该方法在计算样本类别时既考虑每个特征的重要程度,又考虑近邻样本的距离,使用遗传算法搜索最优特征权重向量.将该方法与已有的3种特征选择方法MIFS、DISR和CIFE在6个公开的数据集上进行比较,实验结果表明该方法是有效的,且可以提高分类性能.  相似文献   

15.
随着现有数据体量的迅速增长,超大规模中高维数据集的聚类问题变得越来越重要;而现有的子空间聚类算法大多是单机串行执行,处理此类问题效率极低。讨论了利用MapReduce对这类数据集进行并行聚类的方法,提出了基于MapReduce的抽样-忽略子空间聚类算法(sample-ignore subspace clustering using MapReduce,SISCMR)。该算法将串行聚类算法用作插件,具有很好的通用性。在人造和真实数据集上进行了大量实验,其中最大为0.2 TB的数据集在128个核心的集群中仅用不到10 min就完成了聚类,验证了该算法良好的聚类质量、近线性的可扩展性和高效的聚类性能,证明了基于MapReduce的并行聚类的可行性。  相似文献   

16.
针对在关联规则的实际挖掘中,由数据快速增加所造成的大数据问题和增量更新问题?在快速更新频繁模式树算法(fast updated frequent pattern tree,FUFP - tree)的基础上,引入MapReduce 编程模型,提出了一个面向大数据的并行的关联规则增量更新算法(parallel fast updated frequent pattern tree,PFUFP - tree)?该算法通过构建原始事务数据的分块索引,从而使得在每次增量更新时,能够最小化地扫描原始事务数据库,提高了挖掘效率;同时采用动态负载均衡的项目分组策略来优化并行计算过程中的项集分组问题,从而保证分布式集群中节点之间的负载均衡;实验结果证明,提出 的算法是有效的和高效的,适用于动态增长的大数据环境?  相似文献   

17.
空间k近邻查询的新策略   总被引:13,自引:0,他引:13  
有效执行空间k近邻查询是地理信息系统尤其关心的问题,空间近邻查询是基于空间索引的树的遍历过程,苦测量距离和剪枝策略选取适当,可以极大地减少搜索空间所需访问的事点数,基于Rousspoulos等提出的测量距离,提出2个新的近邻搜索剪枝策略,用于空间k近邻查询,给出了搜索算法,并用算例表明该策略具有更好的剪枝效果,提高了空间k近邻查询的效率。  相似文献   

18.
目前,对于离群数据挖掘算法研究颇多,但对于离群数据挖掘结果可理解性和可解释性的研究相对较少。采用相关子空间,给出一种MapReduce编程模型下的上下文离群数据挖掘算法。该算法利用局部稀疏差异度,确定相关子空间,并计算其数据对象离群因子值;将离群因子和相关属性维,定义为数据对象的上下文信息,提高了数据对象的可理解性;选取离群因子最大的N个数据对象,作为上下文离群数据;利用MapReduce编程模型,实现了一种上下文离群数据并行挖掘算法;最后,采用UCI数据集,实验验证了该算法的可解释性和有效性。  相似文献   

19.
针对高维海量数据集中的局部离群数据,利用并行计算和属性相关性分析思想,给出了一种离群数据并行挖掘算法。该算法首先由主节点分配属性相关分析任务,各个子节点并行查找数据集中的冗余属性,将其冗余属性传回主节点,并由主节点删除;其次,主节点分配搜索任务,各子节点采用微粒群算法,并行搜索局部离群子空间;再次,由主节点对局部离群子空间合并计算后,确定全局离群数据;最后,在MPICH2-1.0.3的并行计算环境下,采用恒星光谱数据作为数据集,实验结果验证了算法的正确性和有效性。  相似文献   

20.
在基于视觉词包模型的图像分类方法中,Fisher向量编码是常用的图像表示方法之一.该方法利用每一个特征关于所有高斯子模型似然函数的梯度信息来构建图像表达.而在编码过程中,每一个特征都会被投影到所有的高斯子模型上并进行编码,同时子模型之间的内在差异也未被考虑,这些不足削弱了Fisher向量的表达能力.为此,提出一种基于k密集近邻算法的局部Fisher向量编码方法.在编码过程中该方法引入局部性约束原则,并利用图像特征空间中高斯子模型间的拓扑结构差异.在多个数据集上进行测试,结果表明改进方法能够有效提升分类的准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号