首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
特征分析与选择是设计有效的数据分类与聚类算法的重要前提,为了选择合适的、一定数量的数据特征,文章提出了一种基于模糊集与前馈神经网络的特征分析与选择算法,该算法充分考虑特征的独立性与重要性,采用模糊集理论描述特征之间的独立性,通过独立性估计删除相关性特征;采用监督学习前馈神经网络实现重要性因子的自适应学习与估计,选择出重要性高的特征集合.理论分析与实验结果证明了提出的算法不仅时间复杂度低,而且能准确地反映数据的本质特征.  相似文献   

2.
为了解决传统T opN统计算法性能远远落后于实际需求的矛盾,该文针对T opN统计特征进行研究,并提出一种基于多次过滤的T opN统计算法M F-T opN。该算法首先从原始数据集中随机采样,得到k×N个元素的采样集合,再从该采样集合中查找从大到小的第N个元素;利用此记录作为阈值,对原始数据集进行过滤,淘汰掉低于该阈值的元素;重复上述操作,直到剩余的数据元素个数小于k×N为止。最后对剩余的数据元素进行排序,输出前N个。理论分析和实验结果证明M F-T opN在时间性能上比传统的T opN算法(如基于堆的排序算法)提高了50%左右。  相似文献   

3.
本文提出一种新的基于有序双端链表的比较排序算法,即ODListsort(ordered double-end linked list sort)算法。该算法首先要定义一个可共存的链表最大数量,然后通过生成链表、根据规则插入数据以及合并操作来对数据集进行排序。在ODListsort算法中,数据元素是以链表形式进行动态内存分配的,因此它比一些经典的排序算法性能更优。实验结果表明,对于随机数据集,ODListsort排序与快速排序的速度接近,比归并排序、选择排序、插入排序以及冒泡排序的速度更快;对于有序数据集,ODListsort排序的效率远超快速排序,略高于归并排序。  相似文献   

4.
决策树学习算法是数据挖掘中一类经典的分类算法。传统的决策树学习算法把数据集合中的实例同等对待,而忽略了实例之间存在的可疑性和影响度差异,导致错误实例扭曲了学习结果,严重影响学习质量。在此提出基于可疑实例影响度分析改进的C4.5 rules算法,在给定一个噪音集合后,首先把可疑实例与原集合划分开,并对可疑实例的影响度进行分析和度量,然后依据分类规则对可疑实例的覆盖情况进行重新排序和分类预测。算法在对分类规则重排序后将错误实例对学习结果的影响最小化,得出尽可能接近正确数据的学习结果。将此算法与经典的C4.5 rules算法进行实验比较,结果表明该算法有着良好的性能。  相似文献   

5.
随着信息技术的快速发展,数据资源的结构越来越复杂,离群点挖掘受到越来越多人关注.基于高斯核函数,考虑数据对象的k个最近邻居,反向k近邻居和共享最近邻居三种邻居关系,估计数据对象的密度,提出了一种基于高斯核函数的局部离群点检测算法.该算法通过KNN图存储每个数据对象的最近邻,包括k最近邻,反向k近邻和共享最近邻,构成数据对象的邻居集合S;通过核密度估计KDE方法估计数据对象的密度;通过相对密度离群因子RDOF来估计数据对象偏离邻域的程度,进而判定数据对象是否为离群点,并在真实和合成的数据集上证明了该算法的有效性.  相似文献   

6.
提出基于集合差异度的聚类算法. 算法通过定义的集合差异度和集合精简表示,直接进行一个集合内所有对象总体差异程度的计算,而不必计算两两对象间的距离,并且在不影响计算精确度的情况下对分类属性高维数据进行高度压缩,只需一次数据扫描即得到聚类结果. 算法计算时间复杂度接近线性. 实例表明该算法是有效的.  相似文献   

7.
特征选择是从特征集合中选择相关特征子集,方便数据聚类、分类和检索等.现有的无监督特征选择算法是将高维数据映射到低维空间并计算每个特征的得分,选择排名靠前的特征.提出一种基于稀疏聚类的无监督特征选择算法:首先利用流形学习的特征映射思想将高维空间的数据映射到低维空间中,用样本构造近邻图,通过图的嵌入找到低维空间,降维后的空间能保持原始数据集的流形结构.其次,得到的样本嵌入矩阵表示特征的重要性,是区分特征对每一个聚类簇的贡献大小的指标,利用低维空间对高维空间的拟合,构造一个目标函数.最后,目标函数本质是回归问题,求解回归优化问题常用最小角回归算法,使用L_1范数进行稀疏回归计算每个特征的得分,选出得分靠前的特征.在六个现实数据集上的实验结果表明:该算法在聚类精度和互信息上取得了较好的实验结果,能有效地选出重要特征,在降维方面具有良好性能,优于其他对比算法.  相似文献   

8.
一种基于密度的聚类算法实现   总被引:1,自引:0,他引:1  
基于密度的聚类算法OPTICS是一种大规模数据库的聚类算法,它是基于核心对象和可达距离来实现的.对于每一个核心对象将其邻域内的所有对象按到该核心对象的可达距离进行排序,每次都选择1个到该核心对象具有最小的可达距离的对象进行信息更新.算法实现采用优先队列保存候选对象以加快处理速度,最后用UCI数据集对算法进行聚类效果测试,结果表明OPTICS算法对数据集产生一个基于密度的簇排序结构.  相似文献   

9.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

10.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

11.
特征选择是粗糙集理论在数据挖掘等领域中一种重要的应用,如何对动态变化的信息系统进行增量式特征选择是目前粗糙集理论研究的重点。在不完备混合型信息系统中,属性集的不断增加是信息系统动态变化的一种重要形式。首先在不完备混合型信息系统中引入邻域条件熵的概念,并且利用矩阵的方法去表示邻域条件熵;然后针对属性集动态增加的情形,提出矩阵形式的邻域条件熵增量式更新,并且基于这种增量式更新机制给出了相应的增量式特征选择算法;最后,UCI数据集的实验结果表明,所提出的增量式特征选择算法比非增量式特征选择算法具有更高的特征选择性能。  相似文献   

12.
混合分布是数据分析中一个重要的统计模型,但是利用正规的统计方法如矩估计,极大似然估计等估计模型的参数比较困难,而应用EM算法可研究多个子总体的混合分布在正常工作条件下的参数估计问题.  相似文献   

13.
高分辨空间谱估计算法中信源数的准确估计是必要前提.文中结合矩阵重构和特征子空间投影方法,提出一种适用于弹载阵列系统的信源数估计算法.将阵列阵元分成相同的2组,求得这2组阵元接收数据的互协方差矩阵并重构信源数估计矩阵,对重构的矩阵特征分解,联合特征子空间投影和特征值加权的方法构造判决函数来估计信源数.理论分析与仿真结果表明:重构矩阵的信号子空间特征值呈平方倍增大,噪声功率得到抑制;算法有效提高了少量快拍数据和低信噪比条件下信源数估计的正确率.  相似文献   

14.
针对高维数据的特点并基于线性回归模型,利用变量选择降维技术,提出了一种新的、有效的变量选择(或称特征提取)的正则化估计方法.新的正则化估计方法主要考虑了数据的噪声(方差)对正则化估计的影响,在寻找估计的正则化路径时能对方差进行有效估计,且基于凸优化问题的KKT条件和坐标算法思想给出了正则化估计算法的实施细节.实验结果表明,该方法能够提高高维数据集进行估计和变量选择的准确性,是高维数据挖掘中新的、有效的特征提取方法.  相似文献   

15.
基于B样条曲线的理论,给出了圆域B样条曲线的递归算法,并在此基础上,对于带有误差的测量数据,即由于误差的原因分布在平面上一系列的小区域内的测量数据,给出了利用圆域B样条曲线进行插值的算法.所得到的固域B样条曲线具有局部性、连续性等良好性质,通过数值实验表明该算法是可行并且有效的.  相似文献   

16.
姿态估计是自然人机交互最为重要的环节,人体部件识别是姿态估计的重要步骤。本文介绍了一种基于特征预筛选的改进的随机森林的方法来识别人体各个部件。与传统的随机森林构造不同,在该方法中,对于特征空间十分庞大的实例给出了特征预筛选方法,使得每个分裂节点的特征子集更为高效。该方法既保证了树与树之间的独立,又保证了每棵树的分类性能。在树与树之间的组合中,根据人体部件构造,引入了和分层树的组合模型方式,提高了差异较小类的分类性能,进而提高了森林的准确性。  相似文献   

17.
微阵列数据具有样本小、维度高的特点,给数据分析带来了困难。因此,在生物信息学的研究和应用中,从微阵列数据里挑选主基因(特征选取)是十分重要和有意义的。本文采用基于最优正交质心特征选取算法(OCFS)来挑选主基因,并与基于信噪比的主基因挑选法和基于遗传算法的主基因挑选法进行了对比。利用挑选出的主基因,采用支持向量机(SVM)对数据样本进行了分类研究。通过实验,在经典的白血病数据集上,对于34个样本的测试集,达到了33/34的分类准确率,表明了本方法的适用性。  相似文献   

18.
A Low-Cost Dual Energy CT System with Sparse Data   总被引:1,自引:0,他引:1  
Dual Energy CT (DECT) has recently gained significant research interest owing to its ability to discriminate materials, and hence is widely applied in the field of nuclear safety and security inspection. With the current technological developments, DECT can be typically realized by using two sets of detectors, one for detecting lower energy X-rays and another for detecting higher energy X-rays. This makes the imaging system expensive, limiting its practical implementation. In 2009, our group performed a preliminary study on a new low-cost system design, using only a complete data set for lower energy level and a sparse data set for the higher energy level. This could significantly reduce the cost of the system, as it contained much smaller number of detector elements. Reconstruction method is the key point of this system. In the present study, we further validated this system and proposed a robust method, involving three main steps: (1) estimation of the missing data iteratively with TV constraints; (2) use the reconstruction from the complete lower energy CT data set to form an initial estimation of the projection data for higher energy level; (3) use ordered views to accelerate the computation. Numerical simulations with different number of detector elements have also been examined. The results obtained in this study demonstrate that 1 + 14% CT data is sufficient enough to provide a rather good reconstruction of both the effective atomic number and electron density distributions of the scanned object, instead of 2 sets CT data.  相似文献   

19.
稳健的变量选择方法及其应用   总被引:1,自引:1,他引:0  
在已有的变量选择方法和稳健估计方法的基础上,提出了一种针对纵向数据的稳健的变量选择方法,通过模拟衡量其稳健性,并将其应用到一组实际的纵向数据分析中.模拟和实例分析结果表明,提出的稳健的变量选择方法在选择变量、估计变量系数的同时,对数据中可能存在的异常值有明显的抵抗作用.  相似文献   

20.
运动估计是H.264中最为复杂的部分,帧内预测是运动估计的重要内容.H.264中帧内预测模式众多,大大增加了编码的复杂度.在帧内预测中,一般是通过率失真优化或者相关特性来减少选择预测模式,但复杂度还是较高.针对此问题,提出了一种改进的基于边缘方向检测的帧内预测模式选择算法.该算法利用方向检测方法来检测模式选择方向上像素的相关性.测试结果显示,本算法在保证视频质量的前提下减小了计算复杂度,大大提高了编码速度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号