首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
鉴于网络入侵检测数据样本特征属性的异构性及贡献率不同,提出一种加权特征的异构数据相似性度量法来反应网络数据样本间的相似程度.针对基于模糊C-均值聚类的网络入侵检测算法聚类数目难以确定的问题,提出了一种自动确定最佳聚类数的无监督模糊聚类入侵检测算法.通过KDDcup1999数据集的仿真对比实验,结果表明本文算法能找到最佳...  相似文献   

2.
为了提升分类模型对非平衡数据的分类性能,提出一种EMWRS(expectation-maximization weighted resampling)抽样算法和WCELoss(weighted cross entropy loss function)损失函数,在数据预处理阶段采用高斯混合模型得知数据分布特点,根据其聚类结果分析每个聚类簇中样本权重,以及样本分布和对应权重对数据进行采样,降低数据集不平衡程度;再依据样本比例权重对少数类和多数类赋予不同的代价损失,构建卷积神经网络模型,提高非平衡数据集的分类准确性。构建的卷积神经网络以F1和G-mean为评价指标,在UCI(university of California irvine)公共数据集adult上与SMOTE(synthetic minority over-sampling technique)和ADASYN(adaptive synthetic sampling)等多种经典算法进行比较,结果显示在这两种评价指标中所提模型均为第一,这表明改进后的卷积神经网络模型能够很好地提高少数类分类正确率。  相似文献   

3.
提出一种样本之间相似系数确定的方法,用相似度矩阵替代传统的相似矩阵,近而确定初始聚类中心.在FCM法中引入了指标权重,并给出了迭代公式和相应算法.将改进后的FCM法应用到煤炭城市分类的实例中去,聚类结果对处在经济转型时期的煤炭城市相互借鉴发展有一定的参考价值.  相似文献   

4.
基因组数据的聚类分析,可以从多个数据集中识别与特定的生物学表型相关联的基因。传统的聚类方法仅进行单向聚类,即仅对基因表达谱的特征(基因)或样本进行聚类,没有考虑基因与样本的关联性。针对基因表达数据提出了一种新的无监督双向聚类算法,同时对基因和样本进行聚类。对已提出的聚类性能评价指标进行了改进,利用改进的指标确定双向聚类算法最优的聚类个数。将该方法分别应用到乳腺癌和青少年类风湿性关节炎基因表达数据中,结果显示,与传统方法相比,本方法具有较好的聚类效果。  相似文献   

5.
提出一种基于模糊c均值(FCM)和BP神经网络的棉麻纤维识别方法。首先,根据纤维横向和纵向截面形态的不同,提取6个特征参数,然后运用模糊c均值算法将样本聚类成3类,再将聚类后的数据作为BP神经网络的输入进行训练和预测,最后进行仿真实验。结果表明,将两种算法结合起来用于纤维的识别具有明显优势,是值得推广的纤维识别方法。  相似文献   

6.
增量聚类算法可以解决数据量大、内存不足的问题.传统的增量式模糊聚类(incremental multiple medoids based fuzzy clustering, IMMFC)算法只为每个数据块选择一个或多个相同数目的中心,当聚类中的对象权重较小时聚类效果不好.该文提出新的增量式模糊聚类算法用于处理大数据集.首先将大数据集分成多个小的数据块,并对每个小的数据块进行模糊聚类;然后从每个小数据块的每个簇群中选择目标中心点,中心点的个数是簇群中对象的权重之和大于阈值的最少对象数.最后合并所有选定的中心点,并对最终数据块进行模糊聚类,获取最终的中心点.实验结果表明,与IMMFC算法相比,当数据块占总数据的10%以上时,所提算法优于IMMFC.  相似文献   

7.
模糊k-最近邻(fuzzy k-nearest neighbor,FkNN)及其改进的分类方法忽略了样本存在分布不均匀以及噪声样本的情况,不能充分体现每个类样本特征的差异性,影响了分类的准确率.为此,提出了一种基于紧密度的模糊加权kNN数据分类方法.首先基于样本间紧密度计算样本的隶属度;然后根据特征的模糊熵值分别计算每个类样本特征的权重,并使用加权欧氏距离确定近邻训练样本;最后根据待分类样本所属的每个类别的隶属度确定其类别.对UCI多个数据集的实验结果表明该方法是有效的.  相似文献   

8.
为有效解决传统K-means聚类算法在处理大规模数据集时面临的扩展性问题,提出了一种Hadoop K-means聚类算法.该算法首先根据样本密度剔除数据集中孤立点或者噪声点的影响,再利用最大化最小距离思想选取K个初始中心,使初始聚簇中心点最优化,最后用Hadoop云计算平台的Map Reduce编程模型实现算法的并行化.实验结果表明,该算法不仅在聚类结果上具有较高的准确率和稳定性,而且能够很好地解决传统聚类算法在处理大规模数据时所面临的扩展性问题.  相似文献   

9.
KNN算法通过近邻样本的个数分类,Entropy-KNN算法给出新的相似度定义,而且投票时综合待测样本与近邻样本的个数和各类近邻的平均距离,但两种算法均未考虑近邻样本间的相似.提出的基于层次聚类法的Entropy-KNN算法,首先对训练集按类别进行层次聚类,接着在与待测样本最相似的子类中选取近邻样本,使得近邻样本具有较高的相似度,最后结合Entropy-KNN算法进行分类.在蘑菇数据集上的实验结果表明,该算法的分类准确率高于Entropy-KNN算法.  相似文献   

10.
缺失数据处理通常基于统计学的方法,在数据预处理阶段对缺失值进行填补,其效率和准确性并不高。因此,提出了一种基于模糊C均值(FCM)聚类的嵌入式填充方法(FCMSI)。此算法通过平均比率法(ARM)对稀疏数据进行初始化填充;采用局部距离策略对FCM进行改进,并对数据进行聚类;将缺失数据作为变量,在每次聚类迭代后的簇内采用协同过滤(CF)的思想对变量值进行替换,直到结果收敛。利用UCI标准数据集进行对比实验,并采用三种不同评价指标衡量,验证了FCMSI方法比传统填充方法性能显著提高。  相似文献   

11.
大规模高维数据集的聚类算法已成为当前聚类研究的热点,由于高维的原因,聚类往往隐藏在数据空间的某些子空间中,传统的聚类算法无法获得有意义的聚类结果.此外,高维数据中含有的大量的随机噪声也会带来额外的效率问题.为了解决以上问题,该文在CLIQUE算法的基础上提出了一种基于最优区间分割和数据集划分的聚类算法—OpCluster,并使用仿真数据对该算法加以验证,实验结果表明,OpCluster对大规模高维数据集具有很好的聚类效果.  相似文献   

12.
针对标记重要性不同,且这种不同可能会为多标记学习提供一定的信息,该文提出了基于标记重要性的多标记特征选择算法.该算法首先引入核函数将特征空间映射到一个新的可分性强的特征空间,在映射后的特征空间中利用标记对样本的可分性对标记赋以权重;其次,在每个新映射的特征空间计算样本的分类间隔,并将该间隔作为特征权重来衡量特征的重要性;最后,联合标记权重和特征权重,对特征进行排序,得到一组新的特征重要性排序.实验结果表明:该算法优于一些当前流行的多标记特征选择算法.  相似文献   

13.
基于遗传算法的可变加权FCM聚类方法改进研究   总被引:2,自引:2,他引:0  
模糊C均值聚类(FCM)应用广泛,但是它容易陷入局部最优,且对初始值很敏感.利用遗传算法对模糊聚类中聚类中心的个数和聚类中心的选取进行了确定,然后在FCM法中引入指标权重,并给出迭代公式和相应算法.实验结果表明,该方法可以在一定程度上避免FCM算法对初始值敏感和容易陷入局部最优解的缺陷,使聚类更合理,效果很好.  相似文献   

14.
基于模拟退火思想的优化k-means算法   总被引:4,自引:0,他引:4  
鉴于典型的基于划分的聚类算法——k-means算法中存在局部最优和算法执行速度慢等问题,提出了基于模拟退火思想的优化k!means算法.该算法将模拟退火思想用于对k-means算法的优化,是一种具有全局最优解和较高执行效率的算法.针对聚类算法典型数据集和随机产生的数据集,在不同情况下进行对比实验.实验结果表明,优化k-means算法优于基本的k-means算法。  相似文献   

15.
数据聚类是将数据对象划分到不同的类或簇中,是数据挖掘中的一项重要技术.教育领域拥有海量的学生信息数据,把数据挖掘中的聚类技术引入其中,具有很强的实际价值.阐述了运用数据挖掘中改进的引入权重的聚类技术对成绩数据进行选择、预处理和挖掘分析等,展示了3个Matlab实验使成绩数据如何通过K-means算法进行聚类分析,并对3种运行结果的意义各自进行了显示与分析,同时指出了运行结果的不足及意义.针对学生实验中的分类原因进行了研究并在学生成绩分析中发现很多隐含着的不易发现的有价值信息,利用这些聚类结果提出了相应的教学措施及建议,从而有针对性地提高教学质量.  相似文献   

16.
当训练集中各个类别的样本分布不均匀且存在数据稀疏问题时,朴素贝叶斯算法分类不够准确。针对此问题,提出了一种基于数据平滑与加权补集的朴素贝叶斯文本分类算法,该算法引入数据平滑算法计算贝叶斯模型中缺失特征的补偿概率,克服数据稀疏问题;利用当前类别补集的特征来表示当前类别的特征,解决训练集中各个类别的样本分布不均匀时,分类器容易倾向于大类别而忽略小类别的问题。实验结果表明,在样本集分布不均衡时,该算法比传统的朴素贝叶斯分类算法分类效果更好。  相似文献   

17.
以数据挖掘为工具,结合县域经济发展理论,探究湖南省县域经济发展聚集态势.构建了湖南省县域经济发展评价指标体系,对数据集应用基于原型的二分K均值聚类、基于图的AGNES聚类、加权主成分距离聚类与基于密度的DBSCAN聚类,根据邻近度矩阵的相关度选择最优聚类方法 .结果显示,湖南省县域经济发展按特征可归为四类,各类县市特征显著,类别间发展差距较大.根据模型的理论结果对现有的湖南省政府乡村振兴三大发展梯队的划分进行调整,为地方政府实施乡村振兴战略提供一定的理论基础,具有较好的参考价值.  相似文献   

18.
图书馆大规模日志数据的快速聚类   总被引:2,自引:0,他引:2  
给出了一种简单有效的算法,用于对图书馆大规模日志数据的快速聚类和借阅趋势分析。首先,根据读者基本的借阅规律,把日志数据聚成若干子类,然后,给出了对子类结果进行再次聚类的模糊算法。最后,为了预测读者的借阅趋势,对每一类进行了回归分析。该算法具有线性复杂度,对大规模数据集是可伸缩的,实验证明是可行的。  相似文献   

19.
为了解决匹配过程中在弱纹理区域的误匹配问题,提出了在不同搜索窗口下自适应加权的Census变换的立体匹配方法。采用Census变换得出搜索窗口内对中心像素影响不同的特异点,分别将邻域像素与中心像素灰度差值进行处理,得到搜索窗口内邻域特异点对中心像素的影响权重,使用权重值加权求和的方式代替计算汉明距离,得出初始匹配代价。为了增强视差图,采用4路径聚合方式与赢家通吃算法(Winner-take-all, WTA),利用子像素拟合、一致性检查、颜色信息加权中值滤波和视差填充等步骤优化视差。为了验证算法效果,将提出的自适应加权Census算法与ADSG、SGM、LPSM和SGBM2进行比较,在Middlebury 2014数据集上进行了测试实验。验证了所提算法的有效性,提高了匹配的准确率,视差图更加平滑、边缘清晰。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号