排序方式: 共有7条查询结果,搜索用时 15 毫秒
1
1.
针对面向聚类的数据隐私发布问题,基于密度可达邻域的概念,提出一种面向聚类的隐私保护模型PPC(r,ε,h).该模型通过要求隐藏后所有数据记录在ε内密度可达(r相关)的近邻数不小于h,以避免可能出现的近邻攻击.进一步提出密度可达安全邻域概念,对不满足模型要求的邻域,采用平移近邻的数据隐藏方法进行处理,保证发布后数据集满足模型约束.并利用邻域价值和邻域相似性的概念,对平移过程进行优化.理论分析和实验结果表明,基于PPC(r,ε,h)隐私模型设计的数据隐藏方法,能有效维持原数据集中数据点在各聚簇中的分布,且兼顾了发布后数据的聚类可用性和数据安全性. 相似文献
2.
基于nested-loop的大数据集快速离群点检测算法 总被引:1,自引:0,他引:1
针对已有的多数离群点检测算法存在扩展性差,不能有效应用于大数据集的问题,在已有的基于距离的离群点检测算法的基础上,设计模信息表存储结构,利用向量内积不等式关系以及合理的存储分配和调度策略,提出一种高效离群点检测算法DBoda.该算法通过在预处理中存储每个点的模信息,减少点间距离的计算量,并对嵌套循环方法进行优化,进一步减少I/O的开销.理论分析和试验结果表明,所提算法具有时间消耗小和适用于处理大数据集的特点,可以有效地解决离群点检测中的算法时间复杂性和算法扩展性问题. 相似文献
3.
4.
基于PrefixSpan的快速交互序列模式挖掘算法 总被引:3,自引:0,他引:3
为了克服序列模式挖掘过程中重复运行挖掘算法而产生的时空消耗,提出了一个快速、简单而有效序列模式的交互式算法FISPM,利用前次挖掘得到的序列构造序列模式数据库用来存储挖掘出来的所有序列, 通过缩减本次挖掘所要构造投影数据库的频繁项的数量来减少构造投影数据库所需的时间以及投影数据库的大小,从而减少时间和空间消耗,提高挖掘效率.通过设置全局最小支持度来减少算法迭代次数. 实验结果证明在交互挖掘过程中FISPM效率优于PrefixSpan. 相似文献
5.
针对轨迹数据发布中的隐私保护和数据可用性问题,结合统计学的概念,提出一种基于扰动的轨迹数据隐藏发布方法.首先定义一种隐私泄露检测机制,当该检测机制发现攻击者依赖所掌握部分轨迹能以较大概率推测出某隐私节点时,基于统计方法,寻找出现频率最低的同类隐私节点,若存在且用其替换有隐私泄露风险的隐私节点后不会出现新的隐私泄露,则执行替换操作;否则在拥有该隐私节点的所有轨迹中,选择最佳的那条轨迹,将该隐私节点移除.这样,就能降低隐私节点的隐私泄露概率,保证发布后的轨迹数据满足用户的隐私需求.理论分析和实验结果表明,所提出的方法能有效避免基于部分轨迹推测剩余隐私节点的攻击,有效保持原有轨迹数据中不同种类节点间连接关系的可用性. 相似文献
6.
针对序列模式挖掘中的增量挖掘问题,提出一种序列模式更新算法ISPBP.算法引入序列数据库结构来存储从原始数据库中挖掘出的所有项、最大频繁模式以及它们的支持数,采用间接拼接方法,只需处理增量数据库,避免了对更新后数据库的重新计算.对于因增量数据库新产生的频繁模式,利用了在增量数据库中出现的频繁项集来减小投影数据库,进一步提高了算法的效率.理论分析和实验表明,算法是有效可行的,并且增量数据库越大,算法在效率上的优越性越明显,算法ISPBP优于传统增量式更新算法. 相似文献
7.
多维数值敏感属性隐私保护数据发布方法 总被引:2,自引:0,他引:2
为避免多维数值敏感属性数据发布中的近似猜测攻击,基于分解思想提出了一种有效的数据发布方法(l-MNSA).首先通过按敏感属性值均匀间隔分组的方法,提出针对单维数值敏感属性的l-SNSA算法;然后提出最小距离的思想,通过将敏感属性统一化并按最小距离均匀间隔分组,提出适用于多维数值敏感属性的l-MNSA算法.与以往仅针对单敏感属性的发布算法相比,该算法同时能对多维敏感属性提供较好的保护.实验结果表明,采用l-MNSA算法发布的数据,其组内最小差异与l-SNSA算法针对各维属性分别发布的结果相比,平均降低10%左右,算法时间复杂度仍为O(nlgn).该算法可以较好地均衡发布数据的安全性和可用性,是有效可行的. 相似文献
1