共查询到18条相似文献,搜索用时 62 毫秒
1.
为了精准定位窃电行为,减小电力窃取给电力系统带来的经济损失,提出了一种基于熵权法Stacking(Stacking Based Entropy,E_Stacking)集成学习的多分类窃电检测模型。首先基于用电量信息共线性的特点,使用方差膨胀因子(Variance Inflation Factor,VIF)作为标准对数据降维,以降低数据复杂度。然后在模型训练时嵌入k折交叉验证,有效防止模型过拟合。该模型包含初级学习器和元学习器两层学习器,可以充分结合两层学习器的优点,将学习的互补特征和判别特征相结合,进一步提高检测性能。最后,使用爱尔兰数据集和部分加州大学欧文分校(University of California Irvine,UCI)数据集验证模型,结果优于目前几种常见的方法,证明该模型的有效性和稳定性。 相似文献
2.
本文提出了一种基于混淆熵(confusion entropy,CEN)的分类器集成算法.该算法按照候选分类器的CEN值升序排序,遍历选择使得CEN值减小的分类器,从而使组合不断优化,以获得更好的集成分类结果.使用7个候选分类器在5个UCI数据集上进行实验,结果表明,所提算法整体上优于经典的分类器集成算法AdaBoost和XGBoost以及另外3种近期算法(AdaCost、AdaCost-CNN和CU-AdaCost),验证了算法的可行性. 相似文献
3.
为了提高入侵检测模型的准确率和泛化性,需要对集成学习系统的多样性进行改善.因此将样本扰动与特征扰动结合,对大规模数据集进行分割,构造不同的样本子集,提高集成个体之间的差异,并在特征扰动阶段,采用主成分分析以减少信息冗余,根据信息增益设置特征权重和信息增益比,对特征子集进行自适应随机搜索,以提高集成系统的多样性.通过KD... 相似文献
4.
谷雨 《云南民族大学学报(自然科学版)》2012,21(1):59-65
分类器之间的多样性被认为是分类器集成的一个关键因素.然而,目前多样性没有统一的定义和度量,也没有确定的操作方法.针对这些问题,总结和介绍了现有的一些多样性度量方法,及其在可视化、构造分类器集成方面的多种具体应用方法.最后,讨论了精度与多样性两难问题,并给出了多样性方法的有效性说明,指出关于集成学习和多样性的研究还有很多问题亟待解决. 相似文献
5.
《南京理工大学学报(自然科学版)》2021,45(5)
X射线结晶学是确定蛋白质分子结构的重要方法之一。准确预测蛋白质的结晶倾向性对于基于X射线结晶学的蛋白质结构确定的成功率具有重要意义。该文提出了一种基于异质分类器集成的方法,以进一步提高蛋白质结晶倾向性预测的准确率。首先从蛋白质序列出发抽取氨基酸组成成分、伪氨基酸组成成分、伪位置特异性得分矩阵以及伪溶剂可及性特征,并将这些特征进行组合;然后,在特征空间训练多个异质分类器并进行集成。该文所提方法在公开训练集上的五重交叉验证及独立测试集上的马修斯系数分别达到了0.64及0.73。与现有的基于序列的蛋白质结晶倾向性预测方法的对比结果进一步验证了所提方法的有效性。 相似文献
6.
基于相对熵的网络流量异常检测方法 总被引:1,自引:0,他引:1
网络流量的异常检测是网络安全领域一个重要分支,目标是及时准确地检测网络中发生的突发攻击事件。现有流量异常检测方法如数据挖掘、小波分析等方法或因检测效果较差,或因算法复杂,难以满足实时在线流量检测的应用需求。文中引入信息熵概念,通过对网络流量进行分维和分层实时计算网络流量相对熵,提出了一种基于相对熵的流量异常检测方法,算法时间复杂度为O(N×log2N×D)。实验分析表明,当检测率达到0.80~0.85时,误报率控制在0.03~0.05,可同时满足系统实时性和准确性要求。 相似文献
7.
《华东师范大学学报(自然科学版)》2021,(5)
窃电行为是导致电力企业电能与经济效益损失的重要原因.提出了一种基于t-LeNet(Time-Series Specific Version of LeNet Model)与时间序列分类(Time Series Classification, TSC)的窃电行为检测方法:首先,获取用户用电量时序数据,使用降采样方法生成训练集;然后,使用t-LeNet神经网络训练并预测得到分类结果,判断用户是否存在窃电行为.使用国家电网真实用户的用电量数据集进行了实验验证.实验结果表明,所提方法相较于基于Time-CNN(Time Convolutional Neural Network)、MLP(Muti-Layer Perception)的时间序列分类方法,在综合评价指标、精确率、召回率指标上均有不同程度提高,其对窃电行为的检测具有可行性与有效性. 相似文献
8.
随着安卓恶意程序的数量的急剧增加,恶意程序检测已成为一个重要的研究课题.然而,目前许多研究表明,恶意程序的检测仍然需要改进,安卓的碎片问题和需要root权限,阻碍了这些方法的广泛使用.现有的杀毒程序依赖于需要实时更新的签名数据库,这无法检测出零日恶意程序.在本文中,我们提取了安卓程序中的特征,进行混合,选择集成算法中的DECORATE算法,并用WEKA工具辅助进行分类恶意程序的检测.该方法最终达到95.8%的检测精度,同时我们在真实的数据集上经过十折交叉验算实验及对比. 相似文献
9.
针对电网公司获取有标签数据成本高、难度大,而获取的无标签数据难以训练有效窃电检测模型的问题,提出了在少量有窃电标签数据场景下基于联合训练生成对抗网络(Co-training Generative Adversarial Networks, CT-GAN)的半监督窃电检测方法.首先,探究了生成对抗网络及半监督生成对抗网络的原理与结构.其次,提出了采用Wasserstein距离取代JS(Jensen-Shannon)散度和KL(Kullback-Leibler)散度距离以解决生成对抗网络因梯度消失和模式崩溃原因导致的模型训练不稳定和生成数据质量低的问题,并构建了多判别器联合训练模型,避免了单个判别器分布误差高的问题,同时增强了GAN生成标签样本数据的能力,通过扩充标签样本数据集,提升了模型检测准确度和泛化能力.最后,采用爱尔兰电网数据集验证了该方法的准确性和有效性. 相似文献
10.
《西安交通大学学报》2016,(2)
针对多分类器系统差异性评价中无法直接处理模糊数据的问题,提出了一种采用互补信息熵的分类器集成差异性度量(CIE)方法。首先利用训练数据生成一系列基分类器,并对测试数据进行分类,将分类结果依次组合生成分类数据空间;然后采用模糊关系条件下的互补信息熵度量分类数据空间蕴含的不确定信息量,据此信息量判断基分类器间的差异性;最后以加入基分类器后数据空间差异性增加为选择分类器的基本准则,构建集成分类器系统,用于验证CIE差异性度量与集成分类精度之间的关系。实验结果表明,与Q统计方法相比,利用CIE方法进行分类器集成,平均集成分类精度提高了2.03%,分类器系统集成规模降低约17%,而且提高了集成系统处理多样化数据的能力。 相似文献
11.
将互信息引进模糊决策树,用于确定决策树的候选分类属性,进而构建模糊决策树.通过增量学习来修正决策树分类模型,以修正分类效果,并用实验验证了该方法的有效性. 相似文献
12.
对随机旋转集成方法提出了一种针对降维问题的改进,得到了新的降维算法框架进行随机变换降维,可以显著减少降维过程中造成的信息损失.采用随机变换降维后,训练监督学习算法时可以获得更高的准确率和更好的泛化性能.通过在模拟数据上进行的实验,证明了使用多重共线性数据进行回归分析时,与传统降维算法相比,经随机变换降维处理后可以保留更多的信息,获得更小的均方误差.对随机变换降维在手写数字识别数据集上的表现进行了研究,证明了与一般性的降维算法相比,随机变换降维在图像分类问题上可以获得更高的准确率. 相似文献
13.
针对现有方法对新型窃电方式检测准确率不高的问题,文中提出了一种基于多层次非负稀疏编码和支持向量机(support vector machines, SVM)的窃电检测新方法。该方法以月度用电曲线为检测对象,基于多层次非负稀疏编码提取样本的多层次用电模式特征,以及窃电情景分析提取样本的数值统计特征,将二者的融合检测特征输入SVM分类器进行窃电检测。以爱尔兰智能电表数据集构造的算例验证了所提方法能够提高窃电检测的精确率和召回率。 相似文献
14.
集成学习是机器学习的重要研究方向之一,SVM集成近年来已经受到国内外很多从事机器学习、统计学习的研究者们的重视,并使得该领域成为了一个相当活跃的研究热点。对近年来SVM集成的研究与应用进行了综述,讨论了SVM集成需要解决的基本问题;讨论分析了构造差异性大的集成成员SVM的方法、有效的集成结论生成方法、SVM集成的典型应用;指出了目前存在的问题、以及几个重要的研究方向。 相似文献
15.
集成学习可以提高分类器的泛化性能,这种方法已经成为机器学习的重要研究方向之一.通常,集成学习主要由2部分构成,即个体生成方法及结论生成方法.从集成学习的差异性角度出发,对集成学习中个体的构造方法及结论生成方法进行了分析与研究,对集成学习中存在的问题及未来的研究方向进行了探讨. 相似文献
16.
研究了基于聚类技术提高分类器差异性的方法.通过Bootstrap技术与分类器学习算法训练分类器模型,利用分类器在验证集上的分类结果作为聚类的数据对象;然后应用聚类算法对这些数据聚类,并在每个簇中选择分类器代表模型,以此构成集成学习的成员;最后应用融合方法实验研究了基于聚类技术提高差异性的集成学习性能,并与集成学习方法bagging,adaboost进行了实验比较. 相似文献
17.
由信息熵到统计熵的推导 总被引:1,自引:0,他引:1
由信息熵的表达式通过演算可以导出统计热力学的正则系综的体系熵函数的表达式,说明用信息论的原理和方法是可以来研究热力学体系的有关信息的。熵函数的物理意义将扩大到信息论的范畴,熵与信息论中的“不确定性”相对应。同时,可以说明当代科学技术发展的特点是高度分化和高度综合相结合,而以综合性、整体性为主的发展总趋势。 相似文献
18.
目前智能电网恶意软件检测系统主要基于特征库对已知恶意软件进行检测,不适用检测恶意软件未知变种.而现有基于机器学习的恶意软件未知变种检测方法的准确性和鲁棒性有待进一步提升,不足以满足智能电网实际需要.因此,提出一种基于集成学习的恶意软件未知变种检测方法,利用多源数据集和多种机器学习方法交叉构建单一检测模型,并设计一种基于Logistic的集成学习方法,构建恶意软件未知变种集成检测模型.实验对比分析表明,构建的集成检测模型相较于传统单一检测模型在准确性和鲁棒性方面有着显著提升. 相似文献