首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在数据发布的过程中,为了保护个人隐私常需对所有准标识符进行泛化操作,而实际涉及到个人隐私相关敏感属性元组是非常少的.据此,从这些涉及个人隐私的敏感属性的元组出发,将剩余大量仅涉及非敏感属性元组依据敏感属性值不同进行分组,最后对分组中元组以计算与个人隐私属性相关敏感属性距离的方式,选取距离最短的元组进行泛化,其余元组并不进行泛化,通过这种方式,提高了数据的利用率,并有效减少信息的损失.  相似文献   

2.
作为大数据的重要组成,产生于传感器、移动电话设备、社交网络等的不确定流数据因其具有流速可变、规模宏大、单遍扫描及不确定性等特点,传统聚类算法不能满足用户高效实时的查询要求.首先利用MBR(minimum bounding rectangle)描述不确定元组的分布特性,并提出一种基于期望距离的不确定数据流聚类算法,计算期望距离范围的上下界剪枝距离较远的簇以减少计算量;其次针对簇内元组的分布特征提出了簇MBR的概念,提出一种基于空间位置关系的聚类算法,根据不确定元组MBR和簇MBR的空间位置关系排除距离不确定元组较远的簇,从而提高聚类算法效率;最后在合成数据集和真实数据集进行实验,结果验证了所提出算法的有效性和高效性.  相似文献   

3.
Web数据库近似查询结果自动排序方法   总被引:2,自引:0,他引:2  
针对Web数据库近似查询产生的多查询结果问题,提出了一种近似查询结果自动排序方法,该方法利用KL距离(Kullback-Leibler distance),PIR(probabilistic information retrieval)模型和查询历史(query history)来构建元组排序打分函数;打分函数根据结果元组中被查询指定的属性值对初始查询的满足度和未被查询指定的属性值与用户偏好的相关度来评估元组的排序分值.实验证明,提出的排序方法能够较好地满足用户需求和偏好,并具有较高执行效率.  相似文献   

4.
针对函数依赖一致性数据生成问题,采用有向无环图作为函数依赖集合的描述模型,提出一种单函数依赖一致性数据生成算法 (TGSFD);并通过属性排序解决多函数依赖一致性数据生成问题;为了利用流水线技术提高数据生成效率,提出最小独立属性子集概念,并给出了属性集划分算法. 实验表明本文提出的TGSFD和属性排序算法能够保证生成的数据满足函数依赖一致性,属性集划分和流水线技术可以有效提高数据生成效率.   相似文献   

5.
数据库模糊查询结果自动排序方法   总被引:1,自引:0,他引:1  
数据库模糊查询会产生多个查询结果,因此有必要将查询结果按照用户需求进行排序.首先根据元组对模糊查询的隶属度,将查询结果中具有不同隶属度的元组分开.然后,利用PIR改进模型和历史查询记录来分析元组中被查询指定的属性值与未指定的属性值之间的关联程度,从而获得用户偏好并以此对具有相同隶属度的元组进行排序.在此基础上,提出了模糊查询下的DPR自动排序方法.实验及分析证明,提出的模糊查询结果自动排序方法能够极大地提高排序质量.  相似文献   

6.
一种用于数据挖掘算法的数据生成方法   总被引:1,自引:0,他引:1  
由于受到保密性、时间和数据多样性等一些原因的限制,测试数据集的获取一直困扰着数据挖掘算法的研究.因此,提出一种基于遗传算法和熵的测试数据集的模拟生成方法,生成方法利用遗传算法具有继承性的特性对采集到的少量的真实数据进行扩充和模拟,用熵衡量生成数据与真实数据的相似程度,最终生成规模大的测试数据集,并给出了描述型数据的生成算法.使用此方法,可以生成同真实数据集具有相同的属性,相同的属性取值区间和属性值分布,类似属性关联关系的测试数据集,加速数据挖掘算法的研究进程.  相似文献   

7.
在实际多属性决策问题中,属性间有时会存在一定的关联关系,且属性值有时以不确定语言的形式给出.为解决不确定语言环境下属性间存在关联关系的多属性决策问题,首先给出不确定语言广义加权Heronian平均(uncertain linguistic generalized weighted Heronian mean, ULGWHM)算子,并研究该算子的性质,包括幂等性、有界性、单调性、置换性及极限性质,然后给出了基于该算子的多属性决策方法,最后通过实例说明了基于ULGWHM算子的多属性决策方法的可行性.  相似文献   

8.
陈炎龙 《科学技术与工程》2012,12(24):6179-6183,6199
属性约简是粗糙集理论的核心研究内容之一。通过对某些现存属性约简算法分析,发现它们并不能有效地或正确地获取约简结果。为此,论文提出了一种基于属性递减策略的属性约简递归算法,该算法首先求出每个条件属性的依赖度,然后依次从条件属性集中减去依赖度较小的属性,并判断剩余属性集依赖度是否为1,如果是,则算法递归执行。最后把所获属性集并入约简集并求得核。该算法不仅能够快速计算出所有约简和核,而且运算简单、计算量较少,从而提高了算法效率。实例验证表明,该算法能更有效地对决策表进行约简,具有很强的实用性。  相似文献   

9.
郑宗良 《科学技术与工程》2012,12(24):6051-6053,6063
在决策表中,为了评价某条件属性的重要性,不但要考虑这个属性(单一属性)相对于决策属性的重要性,还要考虑该条件属性与其他条件属性构成的属性集的重要性。本文在属性集依赖度比单一属性依赖度更加可信的事实基础上,提出了一个基于辨识矩阵的属性集重要度评价方法。该方法能够较快地获得分辨矩阵,并直接求出属性集的依赖度,从而大大降低了算法的时间复杂度。实例验证了该方法具有较好的有效性和较低的时间复杂度。  相似文献   

10.
传统的抽象化技术用于高维(属性)数据的匿名发布时会造成不可容忍的信息缺损,而分解技术虽然确保了数据真实性,但由于视图划分破坏了属性之间的内在关联,因此发布数据的可用性受到限制。该文提出了一种基于极大关联属性集的分解法MAAD(maximal associated attributes based decomposition),该方法利用频繁模式挖掘技术,寻找具有强关联性的属性组集合,并以此指导多视图的分解和生成。MAAD优先考虑了属性之间的关联性,所生成的多视图能够提供更好的数据挖掘性能。该文还定义了多视图发布的隐私保护模型-λmatching。实验结果表明:尤其在用于高维数据的匿名处理时,MAAD方法能够有效地提高数据可用性,具有很高的实用价值。  相似文献   

11.
Big Personal Data is growing explosively. Consequently, an increasing number of internet users are drowning in a sea of data. Big Personal Data has enormous commercial value; it is a new kind of data asset. An urgent problem has thus arisen in the data market: How to price Big Personal Data fairly and reasonably. This paper proposes a pricing model for Big Personal Data based on tuple granularity, with the help of comparative analysis of existing data pricing models and strategies. This model is put forward to implement positive rating and reverse pricing for Big Personal Data by investigating data attributes that affect data value, and analyzing how the value of data tuples varies with information entropy, weight value, data reference index, cost, and other factors. The model can be adjusted dynamically according to these parameters. With increases in data scale, reductions in its cost,and improvements in its quality, Big Personal Data users can thereby obtain greater benefits.  相似文献   

12.
Data quality is an important aspect in data application and management, and currency is one of the major dimensions influencing its quality. In real applications, datasets timestamps are often incomplete and unavailable,or even absent. With the increasing requirements to update real-time data, existing methods can fail to adequately determine the currency of entities. In consideration of the velocity of big data, we propose a series of efficient algorithms for determining the currency of dynamic datasets, which we divide into two steps. In the preprocessing step, to better determine data currency and accelerate dataset updating, we propose the use of a topological graph of the processing order of the entity attributes. Then, we construct an Entity Query B-Tree(EQB-Tree) structure and an Entity Storage Dynamic Linked List(ES-DLL) to improve the querying and updating processes of both the data currency graph and currency scores. In the currency determination step, we propose definitions of the currency score and currency information for tuples referring to the same entity and use examples to discuss methods and algorithms for their computation. Based on our experimental results with both real and synthetic data, we verify that our methods can efficiently update data in the correct order of currency.  相似文献   

13.
提出了一种基于中英文字符型属性的数据库数字水印算法。通过元组哈希值和字符属性值长度计算出预测嵌入位置,根据预测嵌入位置所在的字节序号确定水印嵌入位置。以ASCII字符集的不可见字符作为水印信号,将版权图像嵌入宿主数据库。嵌入的水印信号具有不可见性,并且保持数据库的原始可用性,可实现水印的盲提取。该算法对添加元组、删除元组、修改属性值、添加与删除属性以及元组与属性重排等常见数据库攻击具有较强的鲁棒性。  相似文献   

14.
张立忠 《科学技术与工程》2012,12(32):8553-8557
提出了一种基于中英文字符型属性的数据库数字水印算法。通过元组哈希值和字符属性值长度计算出预测嵌入位置,根据预测嵌入位置所在的字节序号确定水印嵌入位置。以ASCII字符集的不可见字符作为水印信号,将版权图像嵌入宿主数据库。嵌入的水印信号具有不可见性,并且保持数据库的原始可用性,可实现水印的盲提取。该算法对添加元组、删除元组、修改属性值、添加与删除属性以及元组与属性重排等常见数据库攻击具有较强的鲁棒性。  相似文献   

15.
首先分析了粗糙集理论中现有属性依赖性定义的不合理性,然后给出一种新的属性依赖性度量.根据这种依赖性度量,给出属性重要性的定义,再以这种属性重要性为权重,给出一种基于加权综合的样本分类算法。由于属性的重要性是由条件属性相对于决策属性的依赖性决定的,它的数值相对比较客观,这样解决了常用的定权方法的弱点,它们一般是凭经验或由专家给出,具有相当的主观性。  相似文献   

16.
提出了一种基于训练集中已有类别的数学期望的分类算法,该算法先将离散属性值映射为相应的数值,并计算各类别中各属性的数学期望,以各类别中各属性的数学期望为坐标,当有新的数据需要进行类别判定时,只要以新数据的属性为坐标,求取其到各个类别的距离,距离最短的类别即为该数据所属类别。该算法不受属性离散性及类别个数限制,可用于属性类别不统一(既有离散型属性,又有连续型属性),且所属类别数较多的分类情况。  相似文献   

17.
卢印举 《科学技术与工程》2013,13(18):5366-5370
在传感器网络、RFID等各种应用中会产生大量不确定性数据,有效的Top-K查询处理是不确定性数据管理中一项重要技术。针对已有的Top-K查询没有很好地结合元组的分值和不确定性,在分析不确定性数据模型和可能世界模型的基础上,定义了不确定数据流元组的查询语义。设计并实现了一种有效的Top-K查询算法。该算法按照元组的得分值进行降序排列,概率值最高的前K个元组集合就是Top-K的查询结果,实验结果表明,与CSQ和SCSQ算法相比,更具高效性和实用性。  相似文献   

18.
Rough Set理论与方法是处理复杂系统的一种有效方法,但未能包含处理不精确或不确定原始数据的机制,与贝叶斯网络等不确定性理论有很强的互补性.本文提出基于Rough Set理论的贝叶斯结构学习方法,把Rough Set理论与贝叶斯网络相结合,通过属性约简简化贝叶斯网络结构变量,更好满足条件属性间的独立性限制,降低结构复杂度;同时,条件属性之间的依赖性决定贝叶斯网络变量之间的依赖关系和弧的方向.最后,通过算例说明该方法的应用过程.  相似文献   

19.
滑动窗口是数据流中一种关注近期数据的近似方法,提出一种采用滑动窗口处理数据的优化算法SWStream。在线阶段利用滑动窗口树存储概要结构,动态调整窗口大小。优化后的算法能及时淘汰过期元组,同时对新到达的元组不断进行实时处理,可以获得更准确的分析结果。而在离线阶段对上一阶段的结果进行宏聚类,得到最后的结果。与聚类算法CluStream相比,此算法处理数据的效率更高,也相对节约内存。  相似文献   

20.
多分属性比传统的2分属性提供更多更详细的诊断反馈信息,具有广阔的应用前景.在多分属性情境下,当属性之间存在层级结构时,会出现原2分属性情境下不存在的逻辑问题:如果被试仅低程度地掌握了父属性,那么他是否还有可能高程度地掌握子属性?从逻辑上讲,这种“父属性掌握程度低而子属性掌握程度高”的发展情况并不具有普适性.对此,该文首先在多分属性情境下,基于现有的计算理想掌握模式的方法提出了满足“属性掌握水平约束假设”的理想掌握模式计算方法.然后,通过模拟研究说明该逻辑约束的使用方法及忽略该逻辑约束可能对诊断结果带来的危害.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号