首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对t-相近性模型实现方法信息损失大和算法执行代价高的问题,提出一种基于敏感等级划分的(l,t)-相近性模型.该模型放宽了t-相近性模型对等价类的约束,要求等价类中敏感等级的分布与数据集中敏感等级的分布间距离不大于阈值t,并使用Hellinger距离度量敏感等级分布间的距离,以避免传统EMD距离须人工设定基准距离、计算量高的问题;同时,提出了一种基于聚类的(l,t)-相近性匿名算法((l,t)-CCA),使用敏感值的自信息来度量敏感度以实现敏感属性的等级划分,并以聚类的思想形成等价类来实现(l,t)-相近性模型.实验结果表明:该算法不仅能够抵御相似性攻击,而且信息损失低,时间开销少,能够更加有效地实现数据发布中数据的可用性与隐私安全间的平衡.  相似文献   

2.
为了提升发布后数据的安全性,解决其易受攻击造成敏感信息泄露的问题,提出了(l,x,w)多样性模型;该模型引入信息熵概念,通过约束等价组在敏感属性上的多样性及均匀性来实现对敏感属性的安全保护;同时基于该模型,提出了多敏感属性数据发布的基于信息熵的l多样性聚类(entropy based l-diversity clustering,EBLC)匿名算法,该算法基于聚类技术,依据非敏感属性对元组进行聚类,在同簇中依照其敏感属性生成满足(l,x,w)多样性的等价组,泛化所有等价组得到发布数据。对EBLC算法进行的仿真实验结果表明,该算法有较好的运行效率,同时在敏感属性数目以及多样性改变情况下的信息损失以及发布后数据的抗攻击性均能得到较好保证。  相似文献   

3.
提出一种(θ,k)-匿名模型,通过对记录进行语义分析确定敏感属性值的相似或相异性,将一个确定了k值的等价类分成θ组,使记录在组内保持敏感属性值相似,在组间保持敏感属性值相异,并采用距离度量方法划分等价类.实验结果表明,(θ,k)-匿名模型可以在较低的信息损失下,同时抵制背景知识与相似性双重攻击.  相似文献   

4.
在数据发布过程中,如果对发布的敏感属性信息不进行任何保护处理而直接发布,容易遭受攻击导致隐私信息泄露.针对传统的单敏感属性隐私保护方法在多敏感属性中不能得到很好的隐私保护效果,提出了一种基于多敏感属性相关性划分的(m,l)-匿名隐私保护模型.利用信息增益法对多敏感属性的相关性进行计算并划分,降低敏感属性维度;根据(m,l)-diversity原则对敏感属性分组,保证发布的数据能防止偏斜性攻击,并且在一定程度上降低背景知识攻击的风险;采用聚类技术实现该模型,减小该模型产生的附加信息损失和隐匿率,确保发布的数据具有较高的可用性.实验结果表明,基于多敏感属性相关性划分的(p,l)-匿名隐私保护模型具有较小的附加信息损失和隐匿率,保证了发布数据的可用性.  相似文献   

5.
针对不同敏感值的隐私保护程度需求,提出一种敏感度计算方法,将敏感值进行等级划分,再对不同等级的敏感值设定不同的敏感度;给出一种隐私保护原则(ε,k)-sensitivity来控制等价类中敏感度的分布情况,使得等价类中高敏感度的元组不会过多而造成隐私泄露;提出一种最小信息损失增量优先算法(minimum information loss increment first,MILIF)来实现隐私保护的要求。研究结果表明:所提出的方法在降低少量时间和保持数据效用的前提下,充分提高了数据表抵御敏感性攻击的能力。  相似文献   

6.
-多样性(I-diversity)模型采用传统基于概念层次结构的数据概化策略,在对敏感属性进行匿名保护时往往会造成不必要的信息损失。针对这一问题,将聚类技术引入数据匿名中,提出一种基于聚类的I-diversity匿名保护方法。该方法在满足I-diversity模型的约束条件下,采用基于距离的层次化聚类算法划分元组,对不同类型的准标识符使用不同的概化策略,并依据数据概化前后属性值不确定性程度的变化描述数据概化带来的信息损失。同现有的I-diversity模型相比,该方法能较好地保护用户的敏感属性,并且在一定程度上降低了概化处理带来的信息损失。  相似文献   

7.
K-Modes算法是一种经典的字符型数据聚类算法,在处理对象属性值距离时,采用简单的0-1匹配,不能体现出属性值之间潜在的相似关系.通过图形聚类理论中的连接度来度量字符型属性值之间的相似性,改进了传统的K-Modes算法.实验结果表明该方法较传统的K-Modes算法有一定的改善.  相似文献   

8.
文章提出了一种面向多次发布的数据库隐私保护模型,通过等价类的动态调整来隐藏数据和等价类间的映射关系,降低隐私泄露的风险。利用伪数据调节数据的多样性以满足匿名规则的要求,伪数据亦可作为噪声数据增加攻击者的分析难度,提高隐私保护强度。在UCI数据库上进行的仿真实验结果表明,该模型能够有效减少因多次发布带来的隐私泄露。  相似文献   

9.
针对相同敏感值的数据集,定义了其特有的隐私泄露方式,研究了该类数据在同质性攻击下的隐私泄露特点,提出了实例完全泄露风险的概念和计算方法,实现了相同敏感值条件下隐私泄露的准确度量.设计了两种针对相同敏感值数据集进行泛化操作的算法,以相同疾病数据集为实验数据对泛化结果进行对比分析,选择结果较优的泛化算法作为相同敏感值数据集的隐私保护方法.  相似文献   

10.
基于具有动态特征的P-集合模型,针对∧型大数据,定义新概念αF-数据等价类、α(-overF)-数据等价类和F(-overF))-数据等价类,分析数据边界特征与度量,提出数据推理及推理结构。论文的主要结果是针对数据元的冗余与缺失定义数据边界收缩与扩张的度量,分析数据推理得到数据分类生成定理,设计数据智能检索算法与数据智能检索-识别准则,给出应用。  相似文献   

11.
文章在纯轮换移位寄存器的状态图中,定义了圈的"比重",并利用"比重"的特性,给出了2元deBruijn序列的一个生成算法,其算法速度较快;同时该算法能生成2s.g(n,s)个n级de Bruijn序列,其中1≤s≤2(n-24),g(n,s)=n-2l-6-[n-l 2 l1-6]。  相似文献   

12.
介绍了在数据库知识发现(KDD)中将连续属性离散化的一些方法,并提出使用值差分度量离散化的算法.值差分度量算法原本是用于计算离散属性值间的距离,但实际上将这种方法反过来用于连续属性的离散化也可以有相当好的效果.将其与传统的使用统计量χ2的离散化算法作了比较.  相似文献   

13.
真实数据集中含有缺失值,许多数据分析技术不能直接应用到不完整数据上,且缺失值的存在会明显地降低算法的有效性,缺失数据处理是一个不可缺少的数据预处理过程,因此提出了一个基于统计度量的缺失值填补算法,名为灰色类中心缺失值填补(GCCMVI)方法,利用数据点的类中心和标准差来填补缺失值,此外,通过比较阈值和实例与类中心间相关性的大小关系,决定是否加上(减去)标准差,灰色关联分析用来计算相关性,在缺失值被填补后,得到的完整的数据集用来训练支持向量机(SVM)分类器.在三种类型不同的数据集上进行比较,以分类精度,填补效果,填补时间作为评估准则来衡量算法的有效性.实验结果表明,所提出的算法显著地提高了分类精度和填补效果.  相似文献   

14.
几何约束问题可以等价为求解非线性方程组问题,同时也可以将几何约束问题转化为一个优化问题来求解.受经典粒子群优化算法和量子动力学启发,提出一种新的算法——量子行为粒子群优化算法(QPSO)来求解几何约束问题.在QPSO模型里,粒子的状态不再通过位置和速度来决定,而是通过一个波函数来确定.这种算法的主要优点就是可以在感兴趣的问题上保持种群的多样性.实验结果表明,该方法可以提高几何约束求解的效率和收敛性.  相似文献   

15.
一种基于粗集的信息排序新算法   总被引:1,自引:1,他引:0  
对有序信息表的排序问题进行了研究,在将有序信息表进行转化的基础上,应用粗集理论对信息表进行简化,通过将属性值标准化并构造排序度量函数,提出了一种基于粗集的总体排序算法,与传统算法相比,该算法不需要领域专家的参与,而且有效地降低了时间复杂度.  相似文献   

16.
针对ARCO(AUC and rank correlation coefficient optimization)算法在进行两类问题特征选择时,采用斯皮尔曼等级相关系数度量已选特征子集冗余性带来信息损失和特征相关性与冗余性度量取值范围不一致的缺陷,提出改进的Pearson相关系数度量特征冗余性,并归一化特征相关性和冗余性度量范围,得到APCO(AUC and improved Pearson correlation coefficient optimization)算法以克服ARCO算法的不足。同时,针对实现多类特征选择的MAUCD(using MAUC as the relevance metric to rank features directly)和MDFS(MAUC decomposition based feature selection method)算法没有考虑特征冗余,且MDFS易选择到局部最优特征子集的问题,提出适于多类问题的改进Pearson相关系数度量特征冗余性,得到基于mRMR(maximal relevance-minimal redundancy)框架的MAUCP和MDFSP算法,克服MAUCD和MDFS算法的缺陷。以SVM、NB和KNN为分类工具,构造基于所选特征子集的相应分类器,以其AUC(MAUC)值度量相应特征子集的性能。7个二类和3个多类不平衡基因数据集的实验结果表明:提出的APCO、MAUCP和MDFSP算法分别优于ARCO、MAUCD和MDFS算法,也优于其他经典基因选择算法。  相似文献   

17.
传统模糊C均值(Fuzzy C-Means, FCM)聚类算法没有充分考虑图像中空间信息的约束作用,导致其对噪声比较敏感。为了改善上述问题,基于隐马尔科夫(Hidden Markov Random Field, HMRF)模型的模糊聚类算法被提出,该文将以遥感图像为研究数据,对该算法的分类结果进行定性评价。  相似文献   

18.
随着电子商务的高速发展,快递信息安全成为快递行业中面临的重要问题.目前,快递行业个人信息存在2种情况:一种是流通的快递单数据信息;另一种是快递数据库存储的数据信息(发布).针对后者的隐私信息泄露问题,提出了面向快递信息的个性化隐私保护方法.首先,在寄件时,客户选择敏感属性的敏感决策值;然后,快递企业根据敏感决策值计算敏感约束值;最后,根据敏感约束值对敏感属性进行概化处理.实验表明,相比于k-匿名方法,实现了个体选择隐私约束的权利,满足了个性化隐私保护需求,能够有效防止一致性攻击.  相似文献   

19.
利用传统的聚类算法对直觉模糊集进行聚类分析时,存在对异常值敏感、复杂度较高的问题,不适用于大规模直觉模糊数据的聚类。针对上述问题,提出了一种基于密度峰值思想和加权兰氏距离的直觉模糊聚类算法(WIFDPL),用来提高算法对直觉模糊数据的检测精度,降低算法的复杂度。由于现有直觉模糊距离算子不满足距离度量的定义,提出了一种新的直觉模糊兰氏距离算子,减少了数据的偏移程度,降低了对异常值的敏感程度;由于凝聚型层次聚类算法复杂度较高,采用密度峰值聚类算法对直觉模糊集进行聚类,显著提高了算法的运行效率。实验结果表明,利用改进的直觉模糊兰氏距离提高了聚类精度,且新算法复杂度较低,更适用于大规模直觉模糊集的聚类。  相似文献   

20.
对基于群体聚类的约束多目标进化算法进行了改进,引入了聚集密度以度量群体中个体间的关系,保持种群的多样性。其基本思想为:首先将初始群体按多判据聚类方法分为适应度值不同的四类,然后计算类内群体中个体的聚集密度,根据适应度值和聚集密度定义一个偏序集,最后采用比例选择原则依次从偏序集中选择个体,更新精英集。通过数值实验用量化指标研究了改进算法的收敛性和分布性,结果表明:改进算法的收敛性与常规约束多目标进化算法相当,但分布性有了明显的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号