首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
函数依赖是关系数据库和数据建模中所需的关键约束知识。在海量数据中挖掘函数依赖时为降低噪音干扰和提高效率,该文采用带有满意度函数依赖的概念及挖掘带有满意度函数依赖的算法(MFDD),对噪音进行测度与表达,并有效挖掘得到函数依赖最小集。利用对属性散列度的测度概念,在带有满意度函数依赖的理论框架内采用3条优化策略,实现了属性预扫描算法。结果表明:基于该算法可显著提高挖掘效率。  相似文献   

2.
针对函数依赖一致性数据生成问题,采用有向无环图作为函数依赖集合的描述模型,提出一种单函数依赖一致性数据生成算法 (TGSFD);并通过属性排序解决多函数依赖一致性数据生成问题;为了利用流水线技术提高数据生成效率,提出最小独立属性子集概念,并给出了属性集划分算法. 实验表明本文提出的TGSFD和属性排序算法能够保证生成的数据满足函数依赖一致性,属性集划分和流水线技术可以有效提高数据生成效率.   相似文献   

3.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

4.
属性约简是模糊粗糙集理论的重要研究内容.本文引进了基于距离的模糊相似关系,建立了距离测度下的模糊粗糙模型,从而得到条件属性和决策属性之间的依赖函数,通过此函数构造了前向搜索属性约简算法.并利用了UCI标准数据集与现有算法进行比较,从而验证了该算法的可行性和有效性.  相似文献   

5.
批处理依赖是一种特殊的函数依赖,但其定义的推理规则过于严格而不适用于含噪数据.为了从含噪数据中挖掘出有价值的批处理依赖,在批处理依赖研究的基础上,提出了近似批处理依赖的概念,并通过引入可信度、特异度等度量指标,提出了相应的近似批处理依赖挖掘算法;最后通过实例说明了算法过程及其有效性.  相似文献   

6.
为改进数据分类的效果,基于粗糙集理论实现数据分类和规则推理的基本原理,利用粗糙集理论中核及决策类覆盖的思想,提出了一个在数据集中发现没有冗余属性的最小归纳依赖关系,简化带有不相容规则的决策系统的数据挖掘算法。通过PL/SQL演示了挖掘分类规则的过程,结果表明基于粗糙集分类算法的有效性。  相似文献   

7.
给出了一个函数依赖概念的推广,提出了函数依赖作用域的概念,讨论并证明了作用域的性质,基于函数依赖的作用域提出了一种分类规则的挖掘算法,并用实例证明了该算法的有效性.  相似文献   

8.
基于测度的网格聚类算法   总被引:1,自引:0,他引:1  
基于测度的网格聚类方法在数据空间上定义计数测度,并以计数测度构造目标函数.通过调整划分数据空间的分辨率,使目标函数值最大,从而实现分辨率的自动确定.在此分辨率下,某些数据细节被忽略,但是数据的主要属性和关系更为明显.距离较近的数据将被聚类到属性相同的同一簇中,使簇间的数据相似性最小,簇内的数据相似性最大.算法中没有对参数值进行人为设定,可以实现提高准确性的目的.  相似文献   

9.
介绍了粗糙集理论实现数据分类和规则推理的基本原理,并利用粗糙集理论中核及决策类覆盖的概念,提出了一个在数据集中发现没有冗余属性的最小归纳依赖关系,并简化带有不相容规则的决策系统的多层次数据挖掘算法,应用一实际的例子说明如何在数据库中发现分类规则.  相似文献   

10.
数据库设计和管理工具中,从已知数据库发现函数依赖是一个重要的技术。本文基于自由集的概念,讨论了最小函数依赖(FDs)的一个新特性和相关重要性质,并给出一个有效的最小函数依赖挖掘算法。  相似文献   

11.
在异构无线网络中,针对用户个性化需求满足不够的问题,提出了一种优化用户个性化需求的网络接入选择算法.通过获取的历史接入数据和当前候选网络数据,按照个性化需求,把参数分类为成本、系统性能和稳定性3大类属性,采用模糊层次分析法计算用户对3大类属性的期望收益和当前收益,基于用户的上述收益,引入心理曲线函数,构建用户满意度模型,表示用户对候选网络各属性需求的满意程度;引入基于生长曲线函数优化的雷达图分析法,来计算候选网络的综合满意度,选择满意度最佳的网络接入.通过3组实验仿真表明,算法能够提高用户的满意度,满足用户的个性化需求,且在保证负载均衡的同时,有效降低了乒乓效应.  相似文献   

12.
基于量子机制的改进的分类属性数据聚类算法   总被引:1,自引:1,他引:0  
分析量子势能、量子力学中粒子分布机制和针对分类属性数据的量子聚类CQC算法,发现该算法采用传统的Hamming相异性测度计算分类属性数据间的相异性测度,忽略分类属性取值自身的涵义和值间的特征关联,导致其聚类准确性较差.提出一种改进的MCQC算法,能根据数据对象的关联情况计算同属性不同值间的相异性,计算数据对象间的相异性测度,从而提高聚类准确率.仿真实验采用3个数据集,即:大豆疾病、国会投票真实数据集和从KDD-CUP99训练样本集抽取离散属性维构成的人造样本集.实验结果表明,该算法是有效且可行的,对分类属性、二值属性和混合属性数据的聚类准确率明显高于CQC算法.  相似文献   

13.
为了减小常量条件函数依赖的搜索空间,提高挖掘效率,针对常量条件函数依赖挖掘算法CFDMiner,提出了一系列剪枝优化策略。理论研究发现,CFDMiner的输入——关系数据的全部开项集和闭项集对产生有效的常量条件函数依赖仍然存在很多无效、冗余的项集。从理论上证明了通过合理剪枝,选取开项集的子集与对应的闭项集,能够得到与原算法一致的结果。实验表明:相比原始算法CFDMiner,优化后的算法搜索空间更小,实际数据集上平均挖掘效率提高4~5倍。  相似文献   

14.
日志是计算机取证,入侵检测分析的重要数据来源,运用关联规则挖掘算法对日志进行分析是获取日志中所蕴含有用信息的重要方法.针对基于置信度一支持度框架的常用关联规则挖掘算法在日志分析中存在的不足,引入日志关键属性的概念,提出了基于关键属性约束的关联规则挖掘算法.实验结果表明,该算法能有效阻止无趣规则的产生,提高挖掘结果的有效性.  相似文献   

15.
一种新的密度加权粗糙K-均值聚类算法   总被引:1,自引:0,他引:1  
为了克服粗糙K-均值聚类算法初始聚类中心点随机选取,以及样本密度函数定义所存在的缺陷,基于数据对象所在区域的样本点密集程度,定义了新的样本密度函数,选择相互距离最远的K个高密度样本点作为初始聚类中心,克服了现有粗糙K-均值聚类算法的初始中心随机选取的缺点,从而使得聚类结果更接近于全局最优解。同时在类均值计算中,对每个样本根据定义的密度赋以不同的权重,得到不受噪音点影响的更合理的质心。利用UCI机器学习数据库的6组数据集,以及随机生成的带有噪音点的人工模拟数据集进行测试,证明本文算法具有更好的聚类效果,而且对噪音数据有很强的抗干扰性能。  相似文献   

16.
针对高维数据集中的离群点挖掘任务,给出了一种基于基尼指标和属性相关性分析的高维数据离群点挖掘算法.该算法首先采用属性相关性分析方法,删除高维数据集中的冗余属性,缩减了数据集的大小;其次采用基尼指标作为离群度量因子,从缩减后的数据集中,挖掘出不同离群程度的数据点;最后,实验采用天体光谱数据作为实验数据集,经实验验证,该算法对高维数据集中离群点的挖掘算法是有效的和可行的,其效率得到了明显的提高.  相似文献   

17.
基于提出的Vague关系数据模型和Vague集之间的相似度量,研究了Vague关系数据库中的数据依赖问题,给出了Vague函数依赖(VFDs)和Vague多值依赖(VMVDs)的定义及其相应的推理规则.该规则类似于经典关系数据库中函数依赖和多值依赖的Armstrong公理系统,称之为Vague公理系统.并对Vague公理系统的有效性和完备性进行了证明.同时还给出了VFDs满意度的概念及计算VFDs满意度的公式.  相似文献   

18.
本文根据函数依赖成立的条件,给出了在关系r中单属性左部属性集的求解算法,进而出了在给定关系中成立的函数依赖集的一个覆盖。  相似文献   

19.
面对生活中数据信息量大的问题,常使用粗糙集对数据进行知识约简,消除数据中冗余的部分。但大多数研究没有考虑约简后对原有分类的影响;常使用的朴素贝叶斯算法又难以获得其先验概率。基于上述问题,本文提出了一种基于粗糙集的贝叶斯分类算法:首先利用粗糙集中决策属性和条件属性之间的依赖关系,进行属性约简,消除冗余的数据,然后通过贝叶斯算法对约简后的数据进行知识挖掘,最后通过对故障源数据的对比分析。该方法既避开了朴素贝叶斯算法对先验概率的要求,又使得数据分类和预测能力有了明显提升。  相似文献   

20.
知识的属性依赖挖掘与识别   总被引:1,自引:0,他引:1  
利用属性集α内被补充属性,知识[x]内的元素个数被减少;利用属性集α内的部分属性被删除, 知识[x]内的元素个数被增加的两个特性。给出阶梯知识,阶梯知识生成,知识属性依赖的概念,提出知识的属性依赖挖掘定理,知识的属性依赖挖掘-状态识别准则,给出知识的属性依赖挖掘的应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号