首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
利用MapReduce编程模型,提出一种并行的加权k近邻与离群检测方法 WKNNOM-MR.该算法首先对输入数据随机均匀采样,在样本数据集中采用信息熵计算各个属性的权值;然后在集群中的数据节点上对输入数据进行加权,并将其映射到Z-order空间填充曲线,给出了一种基于Z-order的加权k近邻查询方法;根据每个对象与其加权k近邻之间的距离计算离群因子,在兼顾最小距离与平均距离的基础上,给出离群点检测算法;最后在具有5个节点的Hadoop集群上实现该算法,并采用人工合成数据集、UCI标准数据集进行实验,结果验证了该算法的有效性、可扩展性和可伸缩性。  相似文献   

2.
传统K-means聚类算法通过欧式距离计算样本的相似度,将数据所有的属性特征均平等对待,忽略每个属性特征的不同贡献,导致样本相似度计算的准确率不高。针对这个不足,提出一种特征加权的K-means算法进行优化。首先,运用Softmax和Sigmoid逻辑回归函数计算特征权重,使得加权的欧式距离更能准确地表示样本相似度;其次,优化初始聚类中心选择策略,选择距离较大的K个样本作为初始聚类中心,可有效避免样本的错误聚类及空簇问题。实验结果表明,在UCI标准数据集中采用加权K-means聚类算法可以有效减少迭代次数,提高聚类的准确率、精确率和召回率。  相似文献   

3.
针对多模态过程数据密度不规则性提出的一类基于密度的方法,大多是以欧式距离为基础来比较彼此间的相似性,从而检测过程是否发生故障。然而多模态数据密度在较小范围内变化较大,采用欧式距离很难获得全面的数据信息。本文提出了一种新的基于加权距离选择邻居的策略,该策略首先对距离进行合理的加权,再根据新的加权距离重新选择样本点的邻居,能有效地避免数据信息不全面的问题。在仿真实验中,首先通过比较基于传统的欧式距离和基于本文加权距离选取的邻居,说明本文策略的优越性;进而将该策略与局部离群因子(Local Outlier Factor,LOF)结合用于TE过程,对TE过程的仿真结果表明该策略在应用于基于密度的检测方法上获得了的良好效果。  相似文献   

4.
基于高斯混合模型的三维点云配准算法在面对大量的外点及对应位置缺失时表现不佳。为此提出了一种结合点到面距离和先验概率重加权的点云配准方法。首先,通过高斯混合模型和均匀分布建立点云之间的位置对应关系;其次,使用先验概率对高斯混合模型的混合比例重新加权来处理对应位置缺失,同时利用后验概率推测潜在外点及其比率;然后,向误差函数中添加目标点的法向,用点到面距离度量点云之间的相似性;最后,在求解高斯混合模型参数时移除潜在外点来提高算法准确性。在合成数据和真实场景中进行实验并采用不同指标进行评估,结果验证了本文方法的有效性。  相似文献   

5.
隐朴素贝叶斯(Hidden Naive Bayes,HNB)算法是一种结构扩展后的朴素贝叶斯分类改进算法,其分类精确率较原算法有了很大的提高,但是在分类过程中,HNB算法没有考虑测试实例的各个特征属性的不同取值对分类的贡献程度。针对这个问题,构建相应的加权函数计算各个特征属性取不同值时对分类的贡献程度,并利用得到的结果对HNB算法中用到的条件概率计算公式加权,得到了一个改进的HNB算法,然后利用加利福尼亚大学的埃文斯标准数据集(University of California Irvine,UCI)在Eclipse上对其进行数值实验,结果表明,改进的HNB算法较原始HNB算法的分类精确率有了较大提高。  相似文献   

6.
针对绝大部分多变量决策树只能联合数值型属性,而不能直接为带有分类型属性数据集进行分类的问题,提出一种可联合多种类型属性的多变量决策树算法(CMDT).该算法通过统计各个分类型属性的属性值在各个类别或各个簇中的频率分布,来定义样本集合在分类型属性上的中心,以及样本到中心的距离.然后,使用加权k-means算法划分决策树中的非终端结点.使用这种结点划分方法构建的决策树可用于数值型数据、分类型数据以及混合型数据.实验结果表明,该算法建立的分类模型在各种类型的数据集上均获得比经典决策树算法更好的泛化正确率和更简洁的树结构.  相似文献   

7.
朴素贝叶斯在处理分类问题上简单高效,通常它假设属性间是条件独立的,且各属性变量对类变量的影响程度是相同的,但在实际应用中这些都难以被满足,从而使得其分类性能降低.因此,提出基于属性约简的加权朴素贝叶斯分类算法,该算法首先根据各属性不同取值的分类能力及属性间的对称不确定性大小,去除了无关属性和冗余属性,使得筛选后的属性之间具有较低的关联度和较强的分类能力;然后再结合属性与类变量及属性间的相关性对各属性进行加权;最后对待判样本进行分类.经实验结果表明,该算法有效地提升了朴素贝叶斯的分类性能.  相似文献   

8.
在多标记学习中,属性约简是解决多标记数据维数灾难的一个关键技术.针对邻域粗糙集属性约简在计算正域代价较大和多标记数据中标记具有不同的强弱性问题,提出了基于邻域粗糙集的多标记属性约简算法.该算法首先利用样本在整个属性空间下到其异类样本的平均距离与到其同类样本的平均距离的差值对标记进行加权;其次,利用取整函数对样本空间进行划分,提出了一种新的多标记邻域粗糙集快速计算正域的方法;最后,根据前向贪心搜索算法进行属性约简,以获得一组新的属性排序.实验给出了5个多标记数据集在4个评价准则上的对比结果,实验结果分析表明了所提算法的有效性.  相似文献   

9.
在时序数据库中,有许多成熟的技术和方法用来对布尔型属性之间的关系进行挖掘,但对于数值型属性变化趋势关联关系的研究却不是很多.本文提出了一种数值型属性变化趋势的研究模型QMP(QuantityMovementPattern),依据该模型可利用数据挖掘算法发现不同数值型属性之间变化趋势之间的关系.文中分析了该模型的几种实现算法,并给出了一种快速实现算法及实验数据.  相似文献   

10.
传统的基于谱特征的图像匹配算法中,采用的欧式距离度量不能公平地反映数据样本各维度分量之间的潜在关系,并且当存在较大的形变和出格点时匹配精度和稳定性较差.为了解决谱特征构造中所存在的问题,文中提出一种基于马氏距离谱特征的图像匹配算法.该算法首先利用马氏距离在子特征点集上构造局部无向加权图;接着对图的关联邻接矩阵进行奇异值分解,用特征值向量构造描述点集属性的马氏距离谱特征;然后根据马氏距离谱特征构造出匹配矩阵,并利用贪心算法得到图像特征点之间的匹配关系;最后,为了进一步提高匹配的精度,采用SVM方法剔除误匹配点.大量实验结果表明,该算法提高了匹配的精度,并且对出格点问题具有较高的鲁棒性.  相似文献   

11.
CABOSFV_C是一种针对分类属性高维数据的高效聚类算法,该算法采用集合稀疏差异度进行距离计算,并采用稀疏特征向量实现数据压缩。该算法的聚类效果受集合稀疏差异度上限参数的影响,而该参数的选取没有明确的指导。针对该问题提出基于集合稀疏差异度的启发式分类属性数据层次聚类算法( heuristic hierarchical clustering algorithm of categorical data based on sparse feature dissimilarity,HABOS),该方法从聚结型层次聚类思想的角度出发,在聚类数上限参数的约束下,应用新的内部聚类有效性评价指标( clustering validation index based on sparse feature dissimilarity, CVISFD)进行启发式度量,从而实现对聚类层次的自动选取。 UCI基准数据集的实验结果表明,HABOS有效地提高了聚类准确性和稳定性。  相似文献   

12.
-多样性(I-diversity)模型采用传统基于概念层次结构的数据概化策略,在对敏感属性进行匿名保护时往往会造成不必要的信息损失。针对这一问题,将聚类技术引入数据匿名中,提出一种基于聚类的I-diversity匿名保护方法。该方法在满足I-diversity模型的约束条件下,采用基于距离的层次化聚类算法划分元组,对不同类型的准标识符使用不同的概化策略,并依据数据概化前后属性值不确定性程度的变化描述数据概化带来的信息损失。同现有的I-diversity模型相比,该方法能较好地保护用户的敏感属性,并且在一定程度上降低了概化处理带来的信息损失。  相似文献   

13.
分析了近似质量在提取非确定性规则方面的不足,并基于粗糙熵的预测成功度概念,结合时序数据特点,提出一种属性约简及规则提取策略.该策略在对时序数据进行属性约简时,采用粗糙熵与时间距离相结合的方法,使得最终得到的约简在时序方面是较优的,最后使用UCI数据库进行仿真实验,效果良好.该策略在工程领域处理时序数据方面有一定的应用价值.  相似文献   

14.
鉴于高维数据的稀疏性和分类数据特点,探讨了专门针对高维分类数据的聚类方法.首先将原始数据集转换成频繁项集,再通过改造频繁模式树以及给出的剪切策略,挖掘出事务的最大频繁项集,并基于最大频繁项集(MFI)的两个属性,将具有相同MFI的对象归于一类,由此提出了基于最大频繁项集的聚类算法.通过对分类数据集的实验,表明该算法具有相当的稳定性、健壮性和有效性.  相似文献   

15.
Anonymized data publication has received considerable attention from the research community in recent years. For numerical sensitive attributes, most of the existing privacy-preserving data publishing techniques concentrate on microdata with multiple categorical sensitive attributes or only one numerical sensitive attribute.However, many real-world applications can contain multiple numerical sensitive attributes. Directly applying the existing privacy-preserving techniques for single-numerical-sensitive-attribute and multiple-categorical-sensitiveattributes often causes unexpected disclosure of private information. These techniques are particularly prone to the proximity breach, which is a privacy threat specific to numerical sensitive attributes in data publication. In this paper, we propose a privacy-preserving data publishing method, namely MNSACM, which uses the ideas of clustering and Multi-Sensitive Bucketization(MSB) to publish microdata with multiple numerical sensitive attributes.We use an example to show the effectiveness of this method in privacy protection when using multiple numerical sensitive attributes.  相似文献   

16.
借助于近似极大值函数的凝聚函数,将传统数据聚类问题转化为无约束优化问题求解.首先利用一阶必要条件,推导出数值属性下数据聚共中心的计算格式;其次采用类属性分解方法,提出计算类属性数据对象之间距离的新方法,井在此基础上给出混合属性下数据聚类中心的计算格式和一个能处理数值型和分类型混合数据集的凝聚聚类算法;最后选取不同初始聚类中心,使用凝聚聚类算法对英语借词进行了聚类实验和分析.结果表明,凝聚聚类算法在计算效率和计算效果方面均优于模糊k-prototypes聚类算法.  相似文献   

17.
面向时空敏感的局部数据,结合区域数据采集的背景,设计了一个基于地图分区的机会式群智感知数据分发策略. 该策略分为四部分:首先对节点进行区域的划分和周期性地采集数据;其次在节点相遇时不同位置属性的节点之间进行边缘节点的判断和位置更新;然后进行时空敏感的区域数据之间的共享和传输过程;最后当缓存区满或缓存数据超过有效时间时进行缓存更新和丢弃过程. 该数据分发策略可以实现针对局部区域数据进行数据采集的目标,同时具有很好的边缘检测控制功能. 仿真实验结果表明:基于地图分区的数据分发算法具有较好的数据采集率与较低的网络开销,可以在性能接近Epidemic算法的前提下,提供可靠的区域数据采集和数据共享功能,且某些条件下性能可以超越Epidemic算法.  相似文献   

18.
面向相关多敏感属性的隐私保护方法   总被引:1,自引:0,他引:1  
将现有的敏感属性隐私保护方法直接应用于相关多敏感属性的隐私保护中会导致隐私数据的泄漏。本文借鉴有损连接对隐私数据进行保护的思想,对表中的记录进行聚类,保证了关系表中的记录按敏感等级划分。其次,对已划分的记录按照频率比较策略进行分组,提出了一种基于聚类的相关多敏感属性数据分组算法。实验结果表明该算法可以有效地防止隐私泄露,增强了数据发布的安全性。  相似文献   

19.
导出了一种基于功率流的结构半主动瞬时控制算法 ,其基本原理是保证在控制力作用的每一个时间段控制力吸收的功率大于零 .并以在相邻主 -从结构间设置半主动控制装置来减小主结构振动为例 ,分析了该控制算法的有效性 .还给出本算法与传统的二次线性控制算法的数值结果比较  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号