首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 296 毫秒
1.
在高维子空间聚类算法中,子空间识别质量有助于改善算法性能。提出了基于属性相关性分析的子空间搜索算法,利用相对熵去除冗余属性,根据联合基尼值判断两两非冗余属性之间的相关性,形成属性关系图,并在此属性关系图上搜索相似兴趣子空间。实验结果表明算法参数容易设置,有较好的子空间识别能力。  相似文献   

2.
针对高维海量数据集中的局部离群数据,利用并行计算和属性相关性分析思想,给出了一种离群数据并行挖掘算法。该算法首先由主节点分配属性相关分析任务,各个子节点并行查找数据集中的冗余属性,将其冗余属性传回主节点,并由主节点删除;其次,主节点分配搜索任务,各子节点采用微粒群算法,并行搜索局部离群子空间;再次,由主节点对局部离群子空间合并计算后,确定全局离群数据;最后,在MPICH2-1.0.3的并行计算环境下,采用恒星光谱数据作为数据集,实验结果验证了算法的正确性和有效性。  相似文献   

3.
分析了HRRP空间RATR方法的冗余噪声匹配问题.探讨基于目标子空间的RATR方法.与HRRP空间相比,目标子空间理论上不存在冗余噪声,能够更加准确地反映目标的结构特征.对外场ISAR实测数据的处理表明,此目标子空间算法的识别结果比传统的HRRP空间算法的效率更高,比常规方法具有明显的优越性.  相似文献   

4.
子空间聚类能有效的发现各簇与所属于的子空间的联系,同时减少高维数据中因为数据冗余和不相关属性对聚类过程产生的干扰.已有的子空间聚类方法强调各子空间中簇的发现,往往忽略子空间的划分.提出了基于属性最大间隔的子空间聚类,该方法主要思想是对子空间的划分时信息的丢失达到最小,从而子空间聚类的结果的效果比较好.主要工作包括:第一,建立了子空间划分的目标函数,也就是使各划分的子空间相互依赖达到最小,第二,设计了基于属性最大间隔的子空间聚类算法Maximum Margin Subspace Clustering(MMSC)进行子空间聚类集成.最后,采用UCI和NIPS2013比赛等数据来做实验,结果表明,在大多数数据上MMSC算法比其他子空间算法能得到更好的聚类结果.  相似文献   

5.
针对现有无监督属性约简方法只单一使用子空间学习或属性选择的方法,并且忽略数据之间的内在相关性,本文提出一种新的属性选择方法。首先提出一个属性自表达损失函数加上一个稀疏正则化(l2,1-范数)实现无监督学习与属性选择。然后嵌入子空间学习方法,并使用低秩约束和图正则化项考虑数据的全局结构和局部结构。经聚类实验验证,该算法较对比算法能取得更好的效果。  相似文献   

6.
高维小样本数据的特征维数远远高于样本数,因为其通常包含大量的冗余特征,ReliefF算法在处理这类数据时存在以下挑战:传统ReliefF算法无法剔除冗余特征,而现有的改进ReliefF算法大多通过启发式地计算特征与特征之间的互信息来剔除冗余特征,不适用于高维数据;通过截取与标记相关性最大的若干特征来进行分类,可能不是最优选择,因其没有考虑不同特征组合对分类性能的影响.为了解决以上问题,提出一种基于层次子空间的ReliefF特征选择算法,将原始特征集划分为具有层次结构的子空间,并利用邻域粗糙集理论来计算低层子空间的局部依赖度,能在高维小样本数据上高效率地批量剔除冗余特征.此外,为了考量不同特征组合对结果的影响,引入“局部领导力”的概念,保留部分子空间中“带队”能力较强的特征,从局部和全局的角度共同给予特征更加客观的评价.在六个微阵列基因数据集上的实验表明,与现有方法相比,提出的方法更高效,而且能保持良好的分类性能.  相似文献   

7.
基于类别相关性和交叉熵的特征选择方法   总被引:1,自引:0,他引:1  
文本分类首先要解决的一个问题就是特征选择.简单分析了几种经典的特征选择方法,总结了它们的不足,提出了一个类别相关性方法,把交叉熵引入粗糙集并提出了一个基于交叉熵的属性约简算法,把该属性约简算法同类别相关性方法结合起来,提出了一个综合的特征选择方法.该方法首先利用类别相关性方法进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,此特征选择方法效果良好.  相似文献   

8.
集成算法是机器学习领域的研究热点。随机子空间算法是集成算法的一个主要算法。随机子空间生成的特征子集可能含有冗余特征、甚至噪声特征,影响算法的分类精度。为此,本文提出了一种基于互信息的弱随机特征子空间生成算法(WRSMI),有效去除了特征子集中的冗余特征和噪声特征。在UCI数据集上的实验结果表明,WRSMI的分类性能优于随机子空间算法。  相似文献   

9.
用聚类支持向量机模型监测环保设备运行状态   总被引:2,自引:0,他引:2  
针对环保设备多状态监测与识别问题,提出了一种基于多分类聚类支持向量机的分类算法模型.该算法模型充分利用多个相关联被监测设备及其状态属性特征,采用神经网络聚类分析获得关联特征的聚类子空间,再对聚类子空间构造二叉树支持向量机进行多分类识别.该算法模型避免了盲目分类,与单纯的支持向量机算法比较具有更好的分类性能.通过对日本大晃船用污水处理装置实测样本的训练、检验表明,该算法具有98%以上的分类识别率.  相似文献   

10.
基于传统吸引子传播算法, 通过样本特征赋权, 克服冗余信息的影响及给出新的相似性度量方法等策略, 提出一种基于变异系数赋权的吸引子传播算法. 实验结果表明, 该算法在处理属性较多、 信息重叠的样本时, 不仅具有吸引子传播算法的快速、 高效聚类特征, 且聚类性能明显优于传统吸引子传播算法和K-均值等经典聚类算法.  相似文献   

11.
为提高支持向量机集成的泛化性能,提出一种基于独立成分分析法的特征Bagging支持向量机集成方法,删除了冗余特征.该方法从得到的独立成分特征空间中提取特征子空间,避免了直接从原特征空间中随机选择特征子空间而导致的对特征依赖或相关性的破坏,提高了个体支持向量机的性能,保证了个体支持向量机之间的差异度.在UCI和Stat-Log数据集合上的仿真实验表明,该方法具有更好的泛化性能.  相似文献   

12.
ID3算法是决策树归纳中普遍而有效的启发式算法.本文针对ID3算法的不足,给出了一个改进版本,它在选择测试属性时不仅要求该属性和类的交互信息较大,而且要求和祖先结点使用过的属性之间的交互性息尽可能小,从而避免了对冗余属性的选择,实现信息熵的真正减少.在生成树的过程中,设定分类阈值,对树进行剪枝,以避免数据子集过小,使进一步划分失去统计意义.实验结果表明,该算法能构造出比ID3算法更优的决策树.  相似文献   

13.
针对高维数据包含的不相关和冗余特征影响检测方法性能的问题,提出了集成filter和wrapper方法的混合特征选择新方法.采用基于信息增益的filter方法,删除不相关特征;采用基于改进的自适应遗传算法和评价函数的wrapper方法,获取最优特征子集.在入侵检测中的应用表明,该方法能降低特征选择的时间,检测率和虚警率均优于其它方法.  相似文献   

14.
连续属性的离散化是粗糙集理论亟待解决的关键问题之一。基于灰色系统和粗糙集的有关理论,提出了 一种新的基于属性重要性的离散化算法。该算法以条件属性对决策属性的灰色关联度来度量条件属性的重要性, 在保证决策表原始分类能力不变的前提下,按照属性重要性由小到大的顺序对每个条件属性的侯选断点进行考 察!将冗余的断点去掉,从而将条件属性离散化。同时给出了该算法的时间复杂度分析,并通过实例分析验证了算 法的有效性和实用性。  相似文献   

15.
为了去除系统中的冗余属性,保持系统的分类能力,研究了连续值分布式数据的属性约简.给出了连续值分布式决策信息系统中邻域粗糙集的定义,讨论了分布式连续值决策信息系统中正域计算的可分解性.以保持分布式决策信息系统的正域不变为前提,探讨了分布式决策信息系统中属性的可约性,提出了分布式连续值决策信息系统的属性约简算法.为了验证该算法的有效性,在7份数据集上进行了3组实验.实验使用提出的算法对分布式数据进行属性约简,进而采用加权集成的方式进行分类测试.实验结果表明,该算法能够有效去除连续值分布式数据中的冗余属性,使得约简后的连续值分布式数据的集成分类能力与约简前相差不大.甚至更高.  相似文献   

16.
核聚类算法是一种能够处理样本间差异微弱的有效聚类算法.以粗糙集理论为基础,将基于属性重要度的属性约简算法应用到核聚类算法中,提出一种新的聚类改进算法,由此可以得到高准确率低复杂度的良好结果.该算法在使用核函数对样本优化前,首先用基于属性重要度的约简算法对样本属性进行处理,同时引入信息熵来改进约简算法,从而删除冗余属性得...  相似文献   

17.
在网络入侵异常检测中,数据预处理是一个非常重要的步骤,数据预处理的好坏直接影响后续检测的准确性.本文针对基于层次聚类的网络入侵异常检测中两个问题,在数据预处理阶段做出改进,一是属性冗余和属性权重问题,运用粗集理论对各个属性赋予权重并进行属性约减,二是粗集理论中连续数据离散化问题,提出了针对数据特点的自适应离散化算法,该算法是根据样本属性值分布来决定离散间隔,最后针对两个改进方法进行了实验,并与采用现有离散化方法进行了对比,实验结果证明了该算法的有效性和准确性.  相似文献   

18.
基于遗传算法的神经网络油水层识别   总被引:1,自引:1,他引:0  
文章研究了基于遗传算法的神经网络油水层识别方法,针对神经计算存在因输入信息空间维数较大而使网络结构复杂、训练时间长,以及因冗余属性使网络拟合精度不高等缺点,提出了基于粗集属性约简方法降低了输入信息的空间维数、减少了运算量和简化了神经网络的拓扑结构,利用遗传算法提高神经网络的训练速度。实验结果表明:将混合智能计算方法应用于油水层识别中效果显著,其学习训练速度和拟合精度远优于传统BP神经网络算法。  相似文献   

19.
根据排序问题的单调先验知识,无监督学习问题中的观测属性之间也具备单调关系;否则该属性与排序无关,为冗余属性.基于排序互信息反应的两属性之间的单调关系,提出用每个属性与其他属性之间的平均互信息,来衡量每个属性与排序学习的相关程度,具有最高的平均互信息即为排序最相关的属性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号