首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
针对用电信息采集统一接口平台需要大量包含足够测试用例占比的测试数据这一难题,提出基于改进遗传算法的用电信息采集系统统一接口平台测试数据集的生成方法;在对原始数据预处理的基础上,采用基于相似度的交叉算子对原始群体扩充,使用提出基于群体趋势不变的染色体变异算法,在保持群体数据集特性的情况下增大测试用例占比,从而形成测试数据的自动生成方法;应用该测试数据集生成方法,基于某省级电力公司2016年7—9月300万个典型用电客户用电数据进行数据集生成实验,利用熵原理比较无变异因子、插值法变异和改进遗传算法分别生成的测试数据与原始数据的重合度。结果表明,改进遗传算法生成的测试数据集,具有同用电信息采集系统采集数据相同的属性和属性值分布以及类似的属性关联关系,能够满足测试用例需求。  相似文献   

2.
离群点检测是数据挖掘的一个重要研究方向,大多数离群数据挖掘算法在应用到高维数据集时效率较低。给出了一种基于属性熵和加权余弦相似度的离群数据挖掘算法LEAWCD.该算法首先根据局部属性熵分析每个对象在其k-邻域内的局部离群属性,并依据各离群属性的属性偏离度自动设置属性权向量;其次使用对高维数据有效的余弦相似度经加权后度量各对象在k-邻域内的离群程度,实现高维局部离群点检测;最后采用国家天文台提供的天体光谱数据作为数据集,实验验证了LEAWCD算法具有伸缩性强和检测精度高等优点。  相似文献   

3.
一种改进的朴素贝叶斯分类器在文本分类中的应用研究   总被引:1,自引:0,他引:1  
文本分类是数据挖掘领域中重要的研究分支.通过对自适应遗传算法和朴素贝叶斯分类器的研究,提出一种基于自适应遗传算法的朴素贝叶斯分类算法.将该算法应用于中文文本分类中,可以生成最优贝叶斯分类器及最优属性集合,提高分类精度.  相似文献   

4.
特征选择是粗糙集理论在数据挖掘等领域中一种重要的应用,如何对动态变化的信息系统进行增量式特征选择是目前粗糙集理论研究的重点。在不完备混合型信息系统中,属性集的不断增加是信息系统动态变化的一种重要形式。首先在不完备混合型信息系统中引入邻域条件熵的概念,并且利用矩阵的方法去表示邻域条件熵;然后针对属性集动态增加的情形,提出矩阵形式的邻域条件熵增量式更新,并且基于这种增量式更新机制给出了相应的增量式特征选择算法;最后,UCI数据集的实验结果表明,所提出的增量式特征选择算法比非增量式特征选择算法具有更高的特征选择性能。  相似文献   

5.
数据分类是数据挖掘中的一个重要课题,研究各种高效的分类算法是数据挖掘的重要问题之一.本文对了GAAA算法进行改进提出了一种新组合优化算法,将其应用到分类规则的优化问题,采用遗传算法生成信息素分布,利用蚂蚁算法求精确解,优势互补,有效地节省了计算时间,并优化了生成的分类规则.实验结果表明:该算法可以有效克服停滞,提高搜索效率,有效地挖掘出最优的分类规则集.  相似文献   

6.
针对微阵列芯片数据采集量大、 获取成本高的问题, 提出一种新的基于灰值区间的微阵列模拟数据生成算法. 该算法通过灰值度量的方式模拟微阵列数据中基因的差异表达属性, 结合聚类分析方法创建聚类隧道, 进而产生与原始数据具有相似数理分布及生物学意义的模拟数据. 采用模拟数据和真实生物数据对算法进行实验验 证与分析, 实验结果表明, 基于灰值区间理念与聚类隧道产生机制生成的模拟数据是有效且可靠的.  相似文献   

7.
时空轨迹数据存储方法研究   总被引:1,自引:0,他引:1  
时空轨迹数据的存储方法是轨迹数据管理中的重要课题,直接影响轨迹数据挖掘算法的性能.本文根据轨迹数据访问方式的不同提出了3种轨迹数据的存储方法,分别是原序保持的轨迹存储方法、空间属性优先的轨迹存储方法和时间属性优先的轨迹存储方法.存储的原则是每次数据访问所涉及的数据应该尽可能被连续存储.将上述3种轨迹数据存储方法加以实现,基于真实数据集的实验表明,按照数据访问的特点为轨迹数据挖掘算法选择合适的轨迹存储方法,可以有效地提高挖掘算法的执行效率,更好地支撑轨迹数据分析挖掘任务.  相似文献   

8.
概念格的属性约简是知识表示和数据处理的一种有力工具,已被成功应用到多个领域,寻求高效快速的属性约简算法仍然是概念格理论的主要研究热点.从信息熵和布尔矩阵的角度研究形式背景的属性约简,提出属性约简的新方法.首先,在形式背景上定义矩阵信息熵、矩阵条件熵、矩阵联合熵和矩阵互信息熵,研究它们的性质和相互之间的关系.接着,在形式背景上提出基于矩阵信息熵的矩阵熵协调集和矩阵熵约简的定义,给出了属性的重要性度量,利用矩阵信息熵刻画核心属性、相对必要属性和不必要属性的属性特征,再给出获取矩阵熵约简的方法和算法.最后,利用UCI数据集进行测试,验证了基于矩阵信息熵的矩阵熵约简算法的有效性.通过对比实验,证明该算法具有更加高效的约简性能且适用于大数据样本.  相似文献   

9.
目前常用的离散算法多为单属性离散化算法.利用该类算法对多维连续属性进行离散化时,逐次对单个属性进行离散化,割裂了多维属性之间的关系.基于此提出了一种基于遗传算法和变精度粗糙集的多属性离散化算法.该算法基于变精度粗糙集所具有的较好数据分类容错和抗噪能力,通过变精度粗糙集近似分类精度建立遗传算法适宜度评价函数,并利用遗传算法在多维连续属性候选断点集上寻找最优断点子集.基于UCI数据集比较了所提算法与多种常用的离散化算法的差异,实验结果表明,该算法可以获得相对较好的离散化效果.  相似文献   

10.
针对软件测试数据的自动生成,提出了一种自适应遗传算法和爬山算法相结合的改进算法HCGA. 通过设计自适应交叉和变异算子,加强了遗传算法的前期全局搜索能力;在进化后期嵌入了爬山算法,提高了局部搜索能力. 实验结果表明,该算法在测试数据的自动生成上优于遗传算法,提高了效率.  相似文献   

11.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

12.
基于粗糙集数据挖掘技术开发的用水量计划系统   总被引:1,自引:0,他引:1  
面向粗糙集的数据挖掘方法能有效地从某些不精确信息集合中发现知识,而现实中这种数据是广泛存在的,因此这种方法具有很强的实用价值。结合从粗糙集中发现的规则算法Apriori—2开发了一个小型用水量计划系统,并对系统的设计及测试分析过程进行了简要的介绍。  相似文献   

13.
认为数据量的巨大和高维、用户交互与先验知识的利用等等是知识发现领域面临的问题和难点 .粗糙集理论是一种具有模糊边界的集合理论 ,它作为研究知识发现的新型工具 ,能严格地处理不精确数据的分类问题 ,被广泛应用于不相容决策表中的规则提取过程中 .针对粗糙集理论中属性约减和属性值约减这两个重要问题进行了研究 ,并介绍了数据集中挖掘分类规则的基本原理 ,同时利用 RS理论中核和核值的概念 ,提出了一个在数据集中发现没有冗余属性的最小归纳依赖关系并简化决策系统的数据挖掘算法 ,并应用一简单的例子说明如何在数据库中发现分类规则 ,实验结果表明此算法可以大大提高系统潜在知识的清晰度  相似文献   

14.
K -均值聚类算法在当前提取数据挖掘的聚类分析方法中已经取得了一定的成就,为了进一步改进其在数据预处理及神经网络结构中的应用,文中对算法进行了缺陷研究,主要做了以下几个方面的工作:对K-means算法进行了思路及算法主要流程分析;得出K-均值聚类算法存在简单、迅速、结果簇密集、簇与簇之间区别较为明显等优点;分析得出算法存在与处理符号属性的数据不太适应、必须事先给出k值(想要生成的簇的个数)、对“噪声数据”以及孤立的点数据有较大影响、需要不断计算更新调整后的新聚类中心等缺点。在实验验证中结果得出:聚类结果可知,选取不同的值初始值对聚类结果的影响很小;如果聚类数据集迭代次数较多时,可以尝试着改变其数据的输入顺序;变动数据集的输入顺序,会直接影响聚类结果。实验结果对于K-均值算法的工作效率提高了具有明显的参考价值,这一研究对于数据挖掘技术的改进具有一定的意义。  相似文献   

15.
基于模糊数据挖掘技术的入侵检测算法与应用   总被引:2,自引:0,他引:2       下载免费PDF全文
基于数据挖掘技术的入侵检测技术是近年来研究的热点,目前有不少入侵检测系统中都采用了关联分析的数据挖掘方法,现有的关联分析算法只能够解决数据中分类属性的挖掘,对于数值属性则不能直接使用,然而网络流量数据中包含了许多反映入侵状况的数值属性,已有学者提出了将数值属性先进行分类而后再进行关联分析的挖掘方法,然而这种方法带来的问题是在进行异常和正常划分时存在明确的界限,即“尖锐边界问题”,由于网络安全概念自身具有一定的模糊性,因此明确的界限可能会导致误报和漏报的情况产生,从而影响检测效果,文中提出了一种基于模糊关联挖掘技术的入侵检测算法,并采用遗传算法确定划分模糊集合的隶属度函数参数,最后的实验结果说明了该算法的有效性。  相似文献   

16.
在网络入侵异常检测中,数据预处理是一个非常重要的步骤,数据预处理的好坏直接影响后续检测的准确性.本文针对基于层次聚类的网络入侵异常检测中两个问题,在数据预处理阶段做出改进,一是属性冗余和属性权重问题,运用粗集理论对各个属性赋予权重并进行属性约减,二是粗集理论中连续数据离散化问题,提出了针对数据特点的自适应离散化算法,该算法是根据样本属性值分布来决定离散间隔,最后针对两个改进方法进行了实验,并与采用现有离散化方法进行了对比,实验结果证明了该算法的有效性和准确性.  相似文献   

17.
海量数据属性约简的研究是数据挖掘研究中的一个难点.已有的许多属性约简算法对于空间复杂度考虑得不够,导致了算法不能适应大数据集的约简处理.结合分治法,在给定属性序下,提出了基于分治策略的属性约简算法.利用该算法可以快速得到海量数据的属性约简结果.仿真实验结果说明了该算法的高效性.  相似文献   

18.
海量数据属性约简的研究是数据挖掘研究中的一个难点。已有的许多属性约简算法对于空间复杂度考虑得不够,导致了算法不能适应大数据集的约简处理。结合分治法,在给定属性序下,提出了基于分治策略的属性约简算法。利用该算法可以快速得到海量数据的属性约简结果。仿真实验结果说明了该算法的高效性。  相似文献   

19.
基于数据挖掘技术,以集中供热管理为研究对象,提出了关联数据挖掘的设计思想及实现方法。采用了属性构造法进行数据预处理,建立了数据挖掘模型,实现了关联规则算法,并对挖掘结果进行解释与分析。分析表明:对于供热系统的温度、压力和流量,其热量消耗应满足最小支持度和最小置信度阈值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号