首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 703 毫秒
1.
缺失数据广泛存在于现实世界中,它对后续的数据分析有很大的影响,有可能导致结果完全错误。近年来,很多基于压缩传感理论的矩阵完全算法被提出并用于缺失数据恢复,但不同的算法在不同的数据集上产生的结果有很大不同,都有自己的优缺点和适用场景。为此提出一种基于异质矩阵完全算法和最大多样性的集成策略的混合集成学习算法,实验结果表明,此算法在不同的数据集上优于那些单个算法。  相似文献   

2.
给出了主成分分析法(PCA)的数学描述及解释,提出了基于PCA的分类器提取方法及基于PCA的集成学习算法.在UCI的6个公用数据集上,对提出的算法进行了较全面的实验研究和分析,实验表明在多项指标上所提出的算法优于表现良好的传统集成学习算法.  相似文献   

3.
综合考虑对海雷达目标识别的高实时性和强泛化能力要求,提出一种利用模拟退火算法(SA)进行集成间隔优化的静态选择集成(SSE)算法.该算法首先利用SA基于集成间隔最大化搜索出不同大小的最优基分类器子集,然后利用集成分类精确度从中筛选出最终的集成分类器系统.进而提出一种分类器权值、样本权值的迭代求解算法,并考虑这两类权值以及基分类器的分类置信度,给出了8种集成间隔定义.在自建全极化高分辨率距离像(HRRP)分类数据集和17个UCI数据集上分析了集成间隔定义对集成算法性能的影响,通过对比实验验证了该算法的有效性.  相似文献   

4.
针对特征选择过程中特征评价指标单一性的问题, 基于集成学习中的极端梯度提升算法, 提出一种新的特征选择算法. 该算法首先应用极端梯度提升算法中构建集成树模型的指标作为特征选择的特征重要性度量指标, 然后利用一种新的双向搜索策略, 权衡了多种特征重要性对结果的影响, 并优化了评价过程的效率. 通过11个不同维度的标准数据集进行测试, 实验结果表明, 该算法能增加特征子集的多样性, 加快特征选择的速度, 并在中维和低维数据集上均具有较高的计算效率, 且能处理高维数据集.  相似文献   

5.
基于高维数据的特征选择性, 运用功能扰动集成方法, 对4种不同特征选择器的结果进行集成, 得到了分类精度高且稳定性较好的特征子集.  在基因数据集上与原有算法进行性能对比实验, 结果表明, 多特征选择混合算法可使特征选择的结果间具有互补性, 从而有效提高特征选择的稳定性和分类精度.  相似文献   

6.
从差异性出发,研究了基于特征技术与数据技术的集成学习算法,深入分析了这些集成学习算法产生差异性的方法;针对决策树与神经网络模型在标准数据集对集成学习算法进行了实验研究,结果表明集成学习算法的性能依赖于数据集的特性以及产生差异性的方法等因素,并且基于数据的集成学习算法的性能优于基于特征集的集成学习算法的性能.  相似文献   

7.
针对基于数据块的集成算法,存在数据块大小影响分类效果,且不能及时应对完整式概念漂移的问题,提出了一种考虑数据流局部特征的和能应对多种类型概念漂移的集成分类算法.用滑动窗口作为概念漂移检测器,当检测到概念漂移时,则建立新的分类器并加入到集成分类器中.本文提出的算法在人工合成和真实数据集上与经典算法进行了广泛的对比实验.结果表明:提出的算法在分类准确率上具有明显优势,消耗更少的内存,更适合多种类型概念漂移的环境.  相似文献   

8.
聚类集成作为数据挖掘的重要应用工具,得到了广泛的认可和研究.本文在投票法的基础上提出一种新的软聚类投票(VMSC)算法.算法首先求取平均隶属度矩阵,然后进行迭代优化.该算法能够消除噪声点影响,具有很好的稳定性.Spark云计算平台能够高效处理大数据.为了提出的算法处理大数据,在Spark云计算平台上实现并行的VMSC算法.VMSC算法实验用12组UCI数据集进行验证,并与sCSPA、sMCLAs HGBF及SVCE等软聚类算法进行对比.结果表明,VMSC算法对软聚类算法具有较好的集成效果.在Spark云计算平台上对VMSC算法并行实现.实验表明,该算法具有较理想的并行效果,能够有效处理大数据.  相似文献   

9.
研究了基于聚类技术提高分类器差异性的方法.通过Bootstrap技术与分类器学习算法训练分类器模型,利用分类器在验证集上的分类结果作为聚类的数据对象;然后应用聚类算法对这些数据聚类,并在每个簇中选择分类器代表模型,以此构成集成学习的成员;最后应用融合方法实验研究了基于聚类技术提高差异性的集成学习性能,并与集成学习方法bagging,adaboost进行了实验比较.  相似文献   

10.
针对单细胞转录组数据上细胞分类准确率较低的问题, 提出一种新的细胞集成分类算法. 该方法能充分利用不同分类模型的优点, 降低单细胞数据的分类误差. 分别在慢性粒细胞白血病单细胞测序数据和三阴性乳腺癌单细胞测序数据两个不同数据集上进行实验验证, 实验结果表明, 由集成算法划分的细胞分类更清晰准确, 验证了该算法的有效性.  相似文献   

11.
最小代价属性选择是数据挖掘的重要问题之一,问题的优化目标是得到总代价最小的属性子集.在实际数据的获取过程中,测量误差是不可避免的.基于测量误差,目前已有一些相关的最小代价属性选择方法.但这些方法存在效率上的问题,特别是对大规模数据集.为解决这一关键问题,提出一种基于误差数据的最小代价属性选择分治算法.该算法将数据集按列拆分为若干个互不相交的子数据集,实现对各子数据集的求解,分而治之.对于不同规模的数据集,其子数据集的大小及总个数并非固定不变,而是根据各数据集的规模自适应设定的.该算法通过拆分数据集来降低问题规模,有效地提高了计算效率.对6个不同规模UCI数据集的实验分析表明该算法的有效性,与经典回溯算法相比,该算法的效果相当但效率至少提高了30%,更能适应实际问题的需要.  相似文献   

12.
为了提高文本标记和分类的效率,提出了基于概念语义相关性和LDA的文本自动标记算法(Text Mark Label,TML),用以代替人工标记的文本分类标记. 该算法在概念语义相关性计算的基础上,使用LDA(Latent Dirichlet Allocation)提取文本的主题表示,通过计算文本主题从属于各分类目录的期望从而实现文本自动标记. 为验证TML算法的效果,在标准文本分类数据集上使用文本分类器进行有监督文本分类实验. 为对比数据集和分类器对分类效果的影响,在3个数据集(WebKB、Reuters-21578、20-NewsGroup)上分别使用3种不同的分类器(Rocchio、KNN、SVM)进行实验. 实验结果表明:TML算法有效地提高了文本分类效率及文本标记效率.  相似文献   

13.
在线评分系统中的恶意或随机打分为准确评价在线用户声誉带来了极大的挑战.对3种基于迭代的经典在线用户声誉评价算法的鲁棒性进行了细致研究.实验先将不同数量用户打分随机化,再以均方根误差为指标衡量其余用户声誉值受影响程度.实验共在3个数据集中进行,在MovieLens和Netflix两个经典实证数据集上的实验结果表明:系统中1%~60%的用户进行随机打分时,基于关联分析的CR算法始终保持很好的鲁棒性;基于打分迭代的IARR算法的均方根误差略有增大,最大值达到0.22,但整体波动较小;而改进的基于打分迭代的IARR2算法的均方根误差最大值达到0.695,其鲁棒性的较大波动是因算法受高声誉用户的影响较大.在Douban数据集上的结果表明:在打分数据稀疏情况下,CR算法也能保持很好的鲁棒性.  相似文献   

14.
基于真实世界中医医疗数据集,提出了针对性的中医非结构化转结构化的数据预处理方法,并在监督分类模型和半监督分类模型上对得到的症状特征进行了实验验证.在真实医疗数据集上进行实验,发现无论是监督分类算法还是半监督分类算法在所提出的数据预处理模型上都得到了较优的分类效果,并且发现标签传播算法不仅在分类器稳定性上取得了较大的优势,在带标注数据较少时,仍能取得较好的实验结果.  相似文献   

15.
谱聚类是利用样本数据集的相似性矩阵中特征向量的性质对样本数据集进行聚类.而随着数据规模的增加,谱聚类算法所耗时间会因为大规模的特征分解而明显增大.采用抽样方法可以有效降低算法所耗时间,但是简单随机抽样子集之间关联性太弱,通常无法准确反映数据集的分布特征.基于此,设计了一种新的抽样策略,利用该方法进行多次抽样,生成多个既具有关联性又具有差异性的数据子集.在每个数据子集上分别利用NJW算法(由Ng A Y、Jordom M I和Weiss Y提出)进行谱聚类,并根据最近邻原则将聚类结果映射到全体数据集,生成若干基聚类,最后,将聚类结果集成,得到最终的聚类划分.实验证明,该方法与传统NJW算法以及简单抽样集成算法相比,算法的效率及有效性有了一定的提高.  相似文献   

16.
DPC算法是一种能够自动确定类簇数和类簇中心的新型密度聚类算法,但在样本分配策略上存在聚类质量不稳定的缺陷.其改进算法KNN-DPC虽然具有较好的聚类效果,但效率不高而影响实用.针对以上问题,文中提出了一种近邻密度分布优化的DPC算法.该算法在DPC算法搜索和发现样本的初始类簇中心的基础上,基于样本的密度分布采用两种样本类簇分配策略,依次将各样本分配到相应的类簇.理论分析和在经典人工数据集以及UCI真实数据集上的实验结果表明:文中提出的聚类算法能快速确定任意形状数据的类簇中心和有效地进行样本类簇分配;与DPC算法和KNN-DPC算法相比,文中算法在聚类效果与时间性能上有更好的平衡,聚类稳定性高,可适用于大规模数据集的自适应聚类分析.  相似文献   

17.
本文提出了一种基于混淆熵(confusion entropy,CEN)的分类器集成算法.该算法按照候选分类器的CEN值升序排序,遍历选择使得CEN值减小的分类器,从而使组合不断优化,以获得更好的集成分类结果.使用7个候选分类器在5个UCI数据集上进行实验,结果表明,所提算法整体上优于经典的分类器集成算法AdaBoost和XGBoost以及另外3种近期算法(AdaCost、AdaCost-CNN和CU-AdaCost),验证了算法的可行性.  相似文献   

18.
基于代表的邻域覆盖粗糙集分类算法,在某些数据集上表现良好,数据的类别不平衡问题严重影响算法的分类精度.为尽量消除类别不平衡问题的影响,在k折交叉验证方法的基础上,针对基于代表的邻域覆盖粗糙集分类算法,提出了3种集成策略.策略1依靠k折交叉验证,获得对应的k个基分类器,所有的基分类器组成委员会对未分类样本分类;在策略1的基础上,策略2选择分类精度相对较高的基分类器组成委员会,对未分类的样本进行分类;策略3在前2种策略的基础上,利用主动学习的思想,对训练集进行扩充,得到新的分类器再对未分类样本分类.实验所用数据集为UCI标准数据集,且对k的取值做了对比实验.结果显示,3种策略均有不同程度的提升,且k取5时总能取得较好的提升效果.对于不同数据集,应选择相适应的改进策略.  相似文献   

19.
针对K均值聚类随机初始聚类中心导致的聚类结果不稳定问题,提出一种基于仿射传播的聚类集成算法.该算法把每个聚类集成的成员个体结果看成是原始数据的一个属性,然后在其基础上对聚类成员个体的聚类结果进行加权集成,集成算法采用简单高效的仿射传播聚类,并且提出了直接集成、利用平均规范化互信息(NMI)和聚类有效性Silhouette指标进行加权集成.最后,运用Hungarian算法对仿射传播聚类集成的结果进行类别标签的统一和匹配.在加州大学尔湾分校数据集上进行了实验,结果表明,与集成前的K均值聚类及其他聚类集成算法相比,该算法能有效地提高聚类结果的准确性、鲁棒性和稳定性,建立起来的聚类集成算法具有良好的扩展性和灵活性,而且简单有效.  相似文献   

20.
针对各类网络数据中存在着大量的无标记数据,导致了SNS(social network service)隐私保护中数据可用性相对较差的问题,本文提出一种基于Bagging的ELM(extreme learning machine)集成算法,并将其与基于Seeds集的半监督聚类算法相结合应用于隐私保护.该算法首先利用ELM-Bagging集成方法对无标记数据进行标记,并将新标记的数据加入Seeds集以扩大其规模,然后采用基于Seeds集的半监督聚类实现K-匿名.实验结果表明,该算法在有效保护隐私的同时,提高了发布数据的可用性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号