首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
目前存在的无监督特征选择算法中往往会忽略特征与特征之间的关系,从而使得特征选择结果不理想.针对这个问题,提出了基于相似性特征聚类的加权无监督特征选择算法(Weighted unsupervised feature selection algorithm based on similarity feature clust...  相似文献   

2.
利用局部保持投影和稀疏保持投影来刻画数据的本质结构,结合L2,1范数的组稀疏性来选择特征,提出一种新的针对高维小样本数据集的无监督特征选择算法.实验表明:局部和稀疏保持无监督特征选择法是一种有效的无监督特征选择方法;平衡参数对实验结果有较大的影响.  相似文献   

3.
根据排序问题的单调先验知识,无监督学习问题中的观测属性之间也具备单调关系;否则该属性与排序无关,为冗余属性.基于排序互信息反应的两属性之间的单调关系,提出用每个属性与其他属性之间的平均互信息,来衡量每个属性与排序学习的相关程度,具有最高的平均互信息即为排序最相关的属性.  相似文献   

4.
特征选择技术是数据降维的一种关键技术,由于采集到的数据样本标签信息缺失,无监督特征选择受到了更多人的关注.现有的无监督特征选择算法普适性及稳定性很低,受数据集结构的影响很大,因此很多研究者一直热衷于提高算法的稳定性.该文尝试从数据集的预处理出发,采用区间的方式来对数据集进行近似,得到与数据集相关联的几个数据集,通过实验...  相似文献   

5.
由于缺乏类信息,使得无监督文本特征选择问题一直未较好地加以解决。为此,对该问题进行了研究并提出了一个基于论域划分的无监督文本特征选择。该方法主要是把论域划分的思想引入到无监督文本特征选择之中,其首先使用一种新型无监督文档进行文本特征初选以过滤低频的噪声词,然后再使用所给的基于论域划分的属性约简进行文本特征优选。实验结果表明这个方法能够克服文本聚类时缺乏类的先验知识的不足,可以较好地解决无监督文本特征选择问题。  相似文献   

6.
为了更好地预处理未标记数据,大多数基于图正则的无监督特征选择算法通过构造样本的相似性矩阵来删除冗余信息并选择具有代表性的特征子集.这些方法中的大多数图都是用固定数量的近邻数来初始化,忽略了数据分布不均匀的问题.为了解决这个问题,提出了一种基于自适应邻域和自表示正则的无监督特征选择算法(Adaptive neighbor...  相似文献   

7.
针对模糊c均值聚类算法的一些不足之处提出了一种新的均值漂移聚类算法--无监督多尺度聚类算法.该算法不受初始化的影响,不用假定数据的聚类个数以及聚类中心的初始位置,能够利用模糊聚类的方法来获得硬的聚类划分,能够从不同的"划分尺度"揭示数据的聚类结构,并能自动的确定聚类个数.为了满足处理大数据集的需要,设计了快速无监督多尺度模糊聚类算法.通过实验证明无监督多尺度聚类算法在多数数据集上都表现良好且具有最好的总体聚类性能,并能成功揭示出数据的聚类结构.实验还证明快速无监督多尺度模糊聚类算法具有较快的速度和较高的识别精度且适用于大数据集.2个算法都取得了令人满意的实验结果.  相似文献   

8.
针对基于流形正则化自表示(MRSR)的无监督特征选择算法直接从原始的样本空间构造相似矩阵可能会导致重构空间中样本的相似性描述得不够准确的问题,提出了基于自适应流形正则化自表示的无监督特征选择(AMRSR)算法。 基于自适应流形正则化自表示的无监督特征选择算法在 MRSR 算法的基础上通过对相似矩阵施加概率最近邻约束将相似矩阵的学习嵌入到优化过程中,在重构空间中自适应地学习样本的相似性,使得在每一次迭代中获取更加精确的样本局部几何流形结构,从而选择具有代表性且保持局部几何流形结构的特征。 最后,在四个公开数据集上进行了大量的对比实验,通过将算法的特征选择结果用于 K-means 聚类并采取两种常见的聚类评价指标:聚类精确度和归一化互信息评价聚类效果。 实验结果表明,AMRSR 算法与现有的一些算法相比有更高的聚类精确度和归一化互信息,进一步表明该算法特征选择效果更好。  相似文献   

9.
无监督特征选择是无标签高维数据预处理过程中一种有效的数据降维技术,然而大多数无监督特征选择算法忽略了数据样本本身的类簇结构特性,选择具有低判别性信息的特征.基于此,提出一种基于伪标签回归和流形正则化的无监督特征选择算法.具体地,联合伪标签回归和最大化类间散度来保证算法在迭代过程中学习伪标签,同时,自适应学习数据样本之间的局部几何结构,获得更加精准的标签信息和结构信息,进而选择具有高判别性且能保持数据流形结构的特征.在四个公开数据集上的对比实验表明,提出算法的特征选择结果优于现有的一些无监督特征选择算法.  相似文献   

10.
针对现有的无监督异常检测技术的不足之处,提出了一种基于样本分布异常数据实例度量方法;将主成分分析方法应用到异常检测中解决数据集高维数据的降维问题.提出一种新的无监督异常检测算法μ-UAD,并对该算法进了性能评估.实验表明,该算法具有较好的检测性能.  相似文献   

11.
Feature selection methods have been successfully applied to text categorization but seldom applied to text clustering due to the unavailability of class label information. In this paper, a new feature selection method for text clustering based on expectation maximization and cluster validity is proposed. It uses supervised feature selection method on the intermediate clustering result which is generated during iterative clustering to do feature selection for text clustering; meanwhile, the Davies-Bouldin's index is used to evaluate the intermediate feature subsets indirectly. Then feature subsets are selected according to the curve of the Davies-Bouldin's index. Experiment is carried out on several popular datasets and the results show the advantages of the proposed method.  相似文献   

12.
A new feature selection method is proposed based on the discern matrix in rough set in this paper. The main idea of this method is that the most effective feature, if used for classification, can distinguish the most number of samples belonging to different classes. Experiments are performed using this method to select relevant features for artificial datasets and real-world datasets. Results show that the selection method proposed can correctly select all the relevant features of artificial datasets and drastically reduce the number of features at the same time. In addition, when this method is used for the selection of classification features of real-world underwater targets,the number of classification features after selection drops to 20% of the original feature set, and the classification accuracy increases about 6% using dataset after feature selection.  相似文献   

13.
目前大部分特征选择方法都是基于对每个特征按照一定的算法进行重要性赋值,然后选取一定数目的特征作为最后的类别中心向量.针对由于初始特征过多而造成分类精度不高和分类时间过长的缺点,引进了粗糙集中的依赖度函数对特征的重要性进行标定,从而解决了特征过多造成的缺点.最后通过实验验证了该算法,证明该方法是可行的.  相似文献   

14.
为了提高模糊粗糙集特征选择算法的计算效率,在每次迭代过程中通过不断缩减样本和特征的搜索范围,提出了一种新的模糊粗糙集特征选择算法.为了减少样本的搜索范围,利用样本对决策类下近似隶属度的单调性,构建样本的筛选机制,用以筛除当前所选特征子集已保持决策类下近似隶属度的样本;为了缩减特征的搜索范围,采用特征冗余性概念,构建特征搜索机制,用以移除已被确定为冗余的特征;通过融合样本筛选机制和特征搜索准则,设计模糊粗糙集特征选择的高效算法.数值实验表明,所提算法具有高效性和有效性.  相似文献   

15.
针对现有大多数多标签特征选择算法未能有效去除特征空间冗余特征,同时也忽略了标签差异性的现状,提出一种基于相关性分析的多标签特征选择方法,利用特征之间的相关度对特征进行分组,解决了特征之间的相关性问题.根据样本所对应的标签属性对样本做一个正负类的聚类,对于正样本和负样本所构成的正类簇和负类簇单独确定其聚类个数,并计算原特征到正负类簇中各个类中心的距离,如此便产生了标签特定特征空间;将标签共享的特征空间和标签特定特征空间融合,考虑到多个标签之间的个性和关联性,解决了标签的差异性问题.实验测试表明,相较于现有的多标签特征选择算法,提出的基于相关性分析的多标签特征选择方法在各个分类指标上均有较优的表现,充分证明了该方法的有效性.  相似文献   

16.
基于特征贡献度的特征选择方法在文本分类中应用   总被引:1,自引:0,他引:1  
在目前的文本分类问题中,特征选择方法被认为是提高分类精度和效率的一种有效方法.提出了一种基于特征贡献度FCD(feature contribution degree)的特征选择方法,本方法将某个特征对于类别之间区分能力的贡献度大小作为该特征被选取的条件,特征对于某一类别的FCD值为特征在该类中出现的文档数与在所有类别中出现的文档数的比值.对该方法进行了实验,并与一些常用的特征选择方法进行了比较,实验结果表明该方法具有更好的分类效果.  相似文献   

17.
语音识别中一种新的特征参数选择方法   总被引:6,自引:0,他引:6  
应用正交实验设计方案对语音识别中特征参数的选择进行了计划、分析与实验设计,目的是在大量的特征参数中选择出具有互补作用的特征参数。该方法有4个特点:1)实验方案的构造方法简单,而且得到的实验方案具有各特征参数搭配均衡的特点;2)实验结果分析方法计算简便,计算结果的物理含意明显;3)只需很少的比较实验就可以找到识别性能较好的特征参数组合;4)已有的实验结果对后续实验方案的设计有很好的指导作用。实验结果表明正交实验设计用于特征参数选择是有效的。  相似文献   

18.
文本分类中的类别信息特征选择方法   总被引:3,自引:0,他引:3  
随着网上电子文档的急剧增长,文本分类技术在信息检索中的应用变得日益重要.特征维数增加会使样本统计特性的评估变得更加困难,从而降低分类嚣的泛化能力,出现“过学习”的现象.因此,文档特征的选择和提取是文本分类的必要前提.提出一种基于类别信息的特征选择方法,谊方法在尽量保留文档信息的同时,考虑了文档的类别信息.实验表明,这种方法的分类性能比较好,特别是在微平均指标上,与OCFS以及卡方统计量相比有较大幅度的提高.  相似文献   

19.
特征选择是机器学习和模式识别等领域一个关键问题。而高维特征选择又是当今研究的热点和难点。从高维特征选择的模型出发。详细说明高维特征选择所采用的各种算法类型。并分析了该模型的优劣。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号