首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
目前关于隐私保护数据发布的研究大多是面向低维的关系型数据,其相关模型及算法无法直接用于解决稀疏的高维事务型数据发布中可能存在的隐私泄露问题.本文以剖分技术为基础,设计出一个面向隐私保护事务型数据发布的p-剖分l-多样化匿名算法.算法通过计算事务型数据中属性间的均方列联系数将高维属性集剖分成互不相交的p个属性子集,而后对事务型数据进行记录划分,使记录划分后的事务型数据关于p个属性子集满足l-多样化的要求.实验对匿名前后事务型数据的关联规则挖掘结果进行比较分析.理论分析和实验结果表明,本文的算法可安全地实现事务型数据发布的隐私保护,同时保证发布数据的可用性较高.  相似文献   

2.
在数据发布过程中,如果对发布的敏感属性信息不进行任何保护处理而直接发布,容易遭受攻击导致隐私信息泄露.针对传统的单敏感属性隐私保护方法在多敏感属性中不能得到很好的隐私保护效果,提出了一种基于多敏感属性相关性划分的(m,l)-匿名隐私保护模型.利用信息增益法对多敏感属性的相关性进行计算并划分,降低敏感属性维度;根据(m,l)-diversity原则对敏感属性分组,保证发布的数据能防止偏斜性攻击,并且在一定程度上降低背景知识攻击的风险;采用聚类技术实现该模型,减小该模型产生的附加信息损失和隐匿率,确保发布的数据具有较高的可用性.实验结果表明,基于多敏感属性相关性划分的(p,l)-匿名隐私保护模型具有较小的附加信息损失和隐匿率,保证了发布数据的可用性.  相似文献   

3.
医疗数据发布时对患者隐私保护是实际应用中要解决的关键问题之一,作为医疗机构,希望发布的医疗数据可以在保证保护个人隐私的同时,使数据尽可能不失真,使发布的数据具有较高的可用性.文中提出了一种新的医疗数据发布中多敏感属性隐私保护(AHPK-匿名)算法.算法在现有K-匿名算法的基础上考虑不同的准标识属性对敏感属性的效用,利用层次分析法计算准标识属性对敏感属性的效用权值,再根据权值对准标识属性进行概化处理.理论分析和实验结果表明,AHPK-匿名算法能较好地保护个人隐私,能有效保持发布后数据的可用性.  相似文献   

4.
随着大数据技术的迅猛发展,健康医疗大数据突破性增长,且具有多源异构、多类型、多关联性.健康医疗大数据也具备特有的5V特征:volume, velocity, variety, value, veracity.然而健康医疗数据的安全问题也随之产生,如何保护病患的隐私数据不被泄露成为一项研究热点.该文针对病患隐私保护及其数据分析问题进行研究和探讨,以PCA-GRA Datafly算法为研究对象,为了解决传统算法的QI属性过度泛化的问题及K-means算法的局部最优问题,提出PCA-GRA-BK算法(主成分分析灰度关联分析BiK-means K匿名算法).首先通过PCA算法对医疗数据进行降维分析,利用少量数据揭示医疗数据之间的内在联系,并选择出QI属性;再使用GRA算法对QI属性进行关联度分析,确定与敏感属性的关联度,构建QI属性的泛化层次,使用手肘法确定聚类算法的最佳k值,并通过聚类算法完成健康医疗数据集相似等价类的聚类;最后借助K匿名算法完成对健康医疗数据的匿名化.通过将Datafly算法、PCA-GRA Datafly算法、PCA-GRA-KK算法和PCA-GRA-BK算法进行医疗数据...  相似文献   

5.
文章通过建立伪记录表,将新添加的记录与伪记录进行匹配,创造删除伪记录的机会,以达到减少匿名数据集中伪记录的目的,将记录桶进行分割,设计实现一种动态多敏感属性匿名保护的多线程并行算法c-m-inv。实验结果表明,算法c-m-inv高效、生成的多敏感属性匿名数据集具有较高的可用性。  相似文献   

6.
k-匿名方法能简单和有效地防止隐私数据泄露。由于敏感数据分布具有不均匀性,k-匿名方法不能有效满足视图发布者的最大隐私泄漏率要求。针对此问题,给出了隐私信息泄漏测量公式和信息保留度公式,并提出一种满足最大隐私泄漏率要求的匿名方法,该方法不仅对准标识符属性进行泛化,还对敏感属性进行了必要泛化。实验表明,该方法能够有效地满足视图发布者的最大隐私泄露率要求。  相似文献   

7.
随着计算机技术和网络技术的快速发展,以数据挖掘与分析为目的的数据发布实现了信息的高度共享,但也因此造成数据中包含的大量敏感隐私信息的泄漏风险.匿名技术是解决数据发布中的隐私泄露问题的主要方法.首先简要介绍数据发布隐私保护中的数据匿名化处理场景;其次分别对处理单敏感、多敏感属性的静态数据发布、增量数据发布、数据流发布、轨迹数据发布的匿名模型进行归纳,总结匿名模型对不同的攻击形式如链接攻击、同质攻击、背景知识攻击等的抵御能力;接着分析比较了泛化、抑制、聚类、微聚集、分解、置换等匿名化方法;然后讨论了匿名技术在数据聚合、位置服务、社交网络等领域的发展;最后总结并指明下一步的研究方向.  相似文献   

8.
颜远海  杨莉云 《江西科学》2020,38(3):412-418
对于所要研究主体的认知诊断需要从多个属性去认识,认知需要提取数据集的特征,认识事物间的本质及区别能够帮助人们更好地做出科学的决策,然而数据特征的提取往往会受特征库的影响,而忽略形成属性特征之间的关系。应用Q矩阵表达事物之间的关联,结合数据挖掘中的关联分析理论,找出数据的属性元素之间的关联,定义属性权重、路径权重、边权重,以强调关联性的类型和权重。实验证明,属性权重值属性间关联权重值计算方式,权重越大,对特征提取的贡献值也越大,数据集特征同样也取决于属性间路径权重,如果某路径值越大,代表着该路径趋势越明显,出现的概率越大,反之,概率越小。方法论研究可以应用到主体(比方说公司,客户,人际关系等)间关联性研究,并为之提供科学的依据。  相似文献   

9.
针对于跨域云数据访问控制中的安全性和有效性问题,提出了一种基于树访问结构的多授权机构属性加密(Attribute-Based Encryption,ABE)的跨域数据访问控制方法.通过建立分散授权模型,将属性私钥的生成与中央认证机构(Central Authority,CA)分离,由数据属主(Data Owner,DO)和授权机构分别生成并分发属性私钥组件.利用基于访问结构树的控制策略,有效预防了用户之间以及用户和授权机构之间的联合攻击.此外,用户密钥计算无需使用全球唯一标识(Global Identity,GID),支持匿名用户跨域数据访问.最后,利用双线性判定Diffie-Hellman(Decision Bilinear Diffie-Hellman,DBDH)假设理论分析了方案的安全性.研究结果表明,本方案在解密操作和加解密平均时间上具有较高的性能,能够有效地应用于多授权机构并存的云存储环境.  相似文献   

10.
针对生产调度规则提取工作对数据集属性约简的客观需求,提出了一种关键属性提取技术.首先,分析了生产数据的特点,并依据重要性和关联性,将生产数据的属性划分为多个集合;然后,在此基础上利用模糊熵与聚类准确度建立重要性目标函数,用于发现重要属性.最后,利用关联性分析查找重要属性的关联属性,将相关属性进行合并,形成重要复合属性,以进一步增强属性提取效果.为了验证该技术的有效性,将利用该技术所获取的数据子集与通过随机法所得到的数据子集进行了对比,分析比较了各数据子集的相容性和规则提取准确性.结果表明,提取属性后所形成的数据子集具有较低不相容度,浓缩了原始数据集的调度规则知识,可显著提升多种生产调度规则挖掘算法的准确度与效率.该技术非常适用于生产调度规则挖掘数据预处理阶段的关键属性提取工作.  相似文献   

11.
Anonymized data publication has received considerable attention from the research community in recent years. For numerical sensitive attributes, most of the existing privacy-preserving data publishing techniques concentrate on microdata with multiple categorical sensitive attributes or only one numerical sensitive attribute.However, many real-world applications can contain multiple numerical sensitive attributes. Directly applying the existing privacy-preserving techniques for single-numerical-sensitive-attribute and multiple-categorical-sensitiveattributes often causes unexpected disclosure of private information. These techniques are particularly prone to the proximity breach, which is a privacy threat specific to numerical sensitive attributes in data publication. In this paper, we propose a privacy-preserving data publishing method, namely MNSACM, which uses the ideas of clustering and Multi-Sensitive Bucketization(MSB) to publish microdata with multiple numerical sensitive attributes.We use an example to show the effectiveness of this method in privacy protection when using multiple numerical sensitive attributes.  相似文献   

12.
一种用于数据挖掘算法的数据生成方法   总被引:1,自引:0,他引:1  
由于受到保密性、时间和数据多样性等一些原因的限制,测试数据集的获取一直困扰着数据挖掘算法的研究.因此,提出一种基于遗传算法和熵的测试数据集的模拟生成方法,生成方法利用遗传算法具有继承性的特性对采集到的少量的真实数据进行扩充和模拟,用熵衡量生成数据与真实数据的相似程度,最终生成规模大的测试数据集,并给出了描述型数据的生成算法.使用此方法,可以生成同真实数据集具有相同的属性,相同的属性取值区间和属性值分布,类似属性关联关系的测试数据集,加速数据挖掘算法的研究进程.  相似文献   

13.
In uncertain data management, lineages are often used for probability computation of result tuples. However, most of existing works focus on tuple level lineage, which results in imprecise data derivation. Besides, correlations among attributes cannot be captured. In this paper, for base tuples with multiple uncertain attributes, we define attribute level annotation to annotate each attribute. Utilizing these annotations to generate lineages of result tuples can realize more precise derivation. Simultaneously, they can be used for dependency graph construction. Utilizing dependency graph, we can represent not only constraints on schemas but also correlations among attributes. Combining the dependency graph and attribute level lineage, we can correctly compute probabilities of result tuples and precisely derivate data. In experiments, comparing lineage on tuple level and attribute level, it shows that our method has advantages on derivation precision and storage cost.  相似文献   

14.
离群点检测是数据挖掘的一个重要研究方向,大多数离群数据挖掘算法在应用到高维数据集时效率较低。给出了一种基于属性熵和加权余弦相似度的离群数据挖掘算法LEAWCD.该算法首先根据局部属性熵分析每个对象在其k-邻域内的局部离群属性,并依据各离群属性的属性偏离度自动设置属性权向量;其次使用对高维数据有效的余弦相似度经加权后度量各对象在k-邻域内的离群程度,实现高维局部离群点检测;最后采用国家天文台提供的天体光谱数据作为数据集,实验验证了LEAWCD算法具有伸缩性强和检测精度高等优点。  相似文献   

15.
Pedestrian attribute classification from a pedestrian image captured in surveillance scenarios is challenging due to diverse clothing appearances,varied poses and different camera views. A multiscale and multi-label convolutional neural network( MSMLCNN) is proposed to predict multiple pedestrian attributes simultaneously. The pedestrian attribute classification problem is firstly transformed into a multi-label problem including multiple binary attributes needed to be classified. Then,the multi-label problem is solved by fully connecting all binary attributes to multi-scale features with logistic regression functions. Moreover,the multi-scale features are obtained by concatenating those featured maps produced from multiple pooling layers of the MSMLCNN at different scales. Extensive experiment results show that the proposed MSMLCNN outperforms state-of-the-art pedestrian attribute classification methods with a large margin.  相似文献   

16.
区间集是解决部分已知概念、近似不可定义或复杂概念的研究工具。概念格是机器学习、数据挖掘、知识发现和信息检索等领域的一种很有效的数据分析工具。区间集概念格是这两种方法的结合,是对于部分已知概念或不可定义概念信息系统进行机器学习、数据挖掘、知识发现和信息检索的一种有效的数据分析工具。区间集属性约简是揭示区间集概念格本质特征的一种方法。本文揭示了区间集属性约简的组成与结构:两个区间集相对必要属性不能在同一个区间集属性约简中出现;区间集约简与任何一个区间集相对必要属性等价类的交都不空;核心属性和每个区间集相对必要属性等价类中取一个属性组成的集合一定是区间集属性约简。  相似文献   

17.
为提高单井能力预测的精度和可靠性,提出利用地震属性数据,结合多元线性回归方法和BP神经网络方法进行预测。首先提取了研究区目的层的地震属性,然后利用多元线性回归方法和BP神经网络方法建立了单井能力与地质、地震属性之间的函数关系,得出了半定量-定量化的单井产量设计模型,并且验证了模型的预测结果。结果显示:单井能力预测精度总体在80%以上,其中BP神经网络模型预测精度更高,吻合度更好,证明了利用多种地震属性联合预测单井产能是一种卓有成效的方法。  相似文献   

18.
防空信息战效能模糊评估的一种新算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为了实现防空信息战效能的模糊评价,清除指标隶属度中对目标分类不起作用的冗余值,用基于熵的数据挖掘方法,通过挖掘隐藏在各指标隶属度中关于目标分类的知识信息,理清目标分类与指标隶属度之间的关系,定义区分权清除指标隶属度中对目标分类不起作用的冗余值,并提取有效值计算目标隶属度.防空信息战效能模糊评价的事例分析表明:具有多指标属性的决策问题,为了排除冗余值的干扰,则隶属度转换模型可作为有效的方法.基于熵的数据挖掘方法有效解决了模糊评价中冗余数据的干扰,从而解决了一大批多指标的决策问题.  相似文献   

19.
针对混合属性数据聚类难度高的问题,提出一种基于广义线性模型的混合属性数据聚类方法.首先,构建低阶多元广义线性模型处理海量数据聚类问题,考虑数据属性的时间特性,获取属性时间序列矩阵;然后,基于优化K-prototypes聚类方法处理混合属性数据时,考虑属性的时间序列矩阵;最后,在考虑样本同聚类中心距离基础上兼顾已知样本信息内容,采用优化方法计算数据相异度、样本与聚类集间距离,当聚类结果趋于平稳时终止运算,输出聚类结果.为验证基于广义线性模型的混合属性数据聚类方法的有效性展开实验分析.结果显示,该方法经过较少次迭代即可优化划分混合属性数据聚类集,聚类适应度值为0.88~0.94,适应度优,可准确体现样本间差异,是一种准确度高的混合属性数据聚类方法.  相似文献   

20.
聚类多维数字属性的关联规则   总被引:1,自引:1,他引:0  
提出一种有效开采多维数字属性关联规则的算法。为解决返回规则太多的问题,利用聚类技术把开采出来的关联规则进行分类,从而使所开采的规则量显著减少,同时使得结果更易理解。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号