首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
半监督学习是一种利用有标记样本和无标记样本进行学习的新的机器学习方法。针对单分类中只有目标类标记样本和大量无标记样本的情况,提出了一种基于半监督学习的单类分类算法。利用已标识的有标记样本建立两个单类分类器,通过相互学习来挖掘未标记样本中的隐含信息,扩大有标记样本的数量。利用所有已标识样本,用不同的单分类方法建立多个单类分类器,通过集成学习的方法得到最终的分类器。在UCI数据集上进行了实验,表明提出的基于半监督学习的单类分类器的有效性。  相似文献   

2.
半监督学习在入侵检测系统中的应用   总被引:1,自引:0,他引:1  
提出了一种基于半监督模糊聚类的异常入侵检测方法,半监督学习算法的训练样本包括已标记数据和未标记数据,在训练系统模型时使用少量已标记样本和大量未标记样本作为种子初始化入侵检测系统的分类器,在少量已标记数据的约束下利用模糊C均值方法生成聚类,无需提供大量标记数据,不易陷入局部最优.实验表明,与FCM算法相比具有较高的性能.  相似文献   

3.
为了提高半监督分类性能,提出了一种多分类器协同的半监督分类算法SSC_MCC.算法采用双层结构集成,使用多条件判断挖掘未标记样本信息,扩充有标记样本.第一层中,采用三分类器协同投票一致策略实现对未标记样本进行标记,第二层中采用基于正确分类率的分类器加权投票决策标记未标记样本,扩充有标记样本,用最终生成的有标记样本训练分类器,实现半监督分类.最后,使用UCI数据集模拟半监督实验,结果表明SSC_MCCL较好地提高了半监督分类性能.  相似文献   

4.
随着进入大数据时代,"标记数据少,而未标记数据多"的现象越来越普遍.半监督学习是充分利用样本中"廉价"的未标记样本,让学习器不依赖外界交互、自动地利用未标记样本提升学习性能.通过构建多模态概率生成模型对数据进行建模,然后分析该模型上的监督学习过程和非监督学习过程,最后结合两种学习过程实现半监督学习.通过在MNIST数据...  相似文献   

5.
针对主动学习面向大型数据集人工标记成本过高和半监督自训练算法中存在误标记点影响的问题,提出了一种主动学习与半监督自训练交替迭代训练的联合算法.算法在训练过程中奇数轮次采用主动学习算法,偶数轮次采用自训练算法,通过2种算法的交替迭代训练以弥补彼此不足.自训练算法对无标记样本的预测减轻了主动学习标记样本的负担,同时主动学习标记易变成噪声的样本,减轻了自训练算法训练过程中对样本的标记错误.提出了一种基于密度峰值聚类和隶属度的改进主动学习算法:将初始无标记样本聚类成簇,根据隶属度差值在每个簇内选取部分样本做人工标记,获得可表达样本的整体结构的均衡样本.仿真试验表明:提出的联合算法在性能上要优于2种单一算法.对比常见的主动学习算法,改进后的主动学习算法分类性能得到显著提升,将其应用于联合算法中的效果更具优势.   相似文献   

6.
为了克服由错误标记样本所引发的问题,提出半监督分类器模型。从标记数据和未标记数据中学习得到决策准则,并在马尔科夫随机场中,运用一个新的基于鲁棒误差函数的能量函数,分别设计基于迭代条件模型和马尔科夫链蒙特卡罗的两种算法来推断标记样本和未标记样本的类别。实验结果表明这两种方法对于现实世界的数据集来说是高效的,并具有很好的鲁棒性。  相似文献   

7.
针对高光谱影像处理应用中,标记样本往往数量较小且质量不均而未标记样本大量存在的问题,结合半监督学习方法,提出一种面向高光谱影像分类的半监督极限学习机分类算法.首先根据图理论,联合高光谱影像空间光谱信息,对标记和未标记样本共同构建无向加权图;然后,考虑平滑性约束和结构最小化原则,构造分类目标函数;最后,利用核方法求解最优参数,进而实现高光谱影像的半监督分类.采用该方法进行分类对比实验,结果表明:该方法能够有效利用未标记样本信息,提高小样本下的高光谱影像分类精度.  相似文献   

8.
图像检索中基于标记与未标记样本的主动学习算法   总被引:3,自引:0,他引:3  
为解决监督学习过程中训练样本集过小问题,提出一种未标记样本辅助学习与主动学习相结合的学习方法.基于用户已标记样本与数据库内未标记样本,利用EM算法得到初始朴素贝叶斯分类器与初始假设;主动学习算法寻找数据库内对于优化学习过程最有用的样本请求用户标记;算法根据用户反馈,迭代更新已有查询概念,直至用户满意为止.实验表明,本文算法能够显著提高学习器的效率和性能,并可快速收敛于用户定义的查询概念.  相似文献   

9.
为解决油层识别中存在的获得有标记数据的代价过高,有标记数据稀少的问题,提出一种新的基于分支定界的半监督支持向量机(branch and bound for semi-supervised support vector machine,BBS3VM)的油层识别方法。此方法主要将半监督学习(semi-supervised learning, SSL)和分支定界的思想引入到支持向量机(support vector machine, SVM)分类算法中。通过半监督学习的思想,使用大量未标记的样本来改善学习性能,利用分支定界算法提高半监督支持向量机(semi-supervised support vector machine,S3VM)算法的分类精度,将此改进算法应用于测井数据挖掘中的油层识别。经过对某油田的实际测井资料进行处理,实验结果表明,半监督油层识别方法要优于传统的S3VM分类算法,识别率更高,分类效果更显著,与全监督的SVM算法相比较,得到相差不大的分类精度的同时,速度更快。  相似文献   

10.
多标记学习研究的是一个对象同时具有多个标记的一类复杂问题.文本标注、视频内容标注、图像识别和蛋白质功能的发现等都属于这类任务.与单标记学习问题一样,多标记学习也遭遇到了数据维数大的挑战.针对多标记数据,目前已经设计出一些约简算法,但与单标记约简算法相比,方法数量有限且局限性大.随着大数据时代的到来,收集大量样本越来越容易,但标注收集到的全部样本不切实际.这给想要通过利用粗糙集模型来解决多标记学习问题的研究人员带来了三个挑战:数据维数更高、现有粗糙集的局限性和部分标记决策表的出现.为了解决这三个挑战,提出了面向多标记学习的局部粗糙集模型,并获得了一些有意思的性质.最后,通过利用局部粗糙集模型,设计了一个多标记的启发式约简算法,并在三个公开的多标记数据集上验证了算法的有效性.  相似文献   

11.
金融机构结合消费者和商业信息来为企业进行信用打分.我国的企业特别是小微企业信用信息少,造成了只有少量企业拥有信用信息,而大量企业没有信用信息的局面.半监督支持向量机可以利用标记数据和未标记数据进行学习,同时可以克服信用数据类别不均衡和样本信息不足等问题.由于半监督支持向量机的参数对算法效果有较大影响,实际参数选取往往根据经验所得.为此提出了一种利用模拟退火(SA)优化基于确定性退火半监督支持向量机(DAS3VM)参数的SAS3VM算法.该算法在少量有标记信用数据的基础上,利用大量无标记信用数据辅助学习,使用模拟退火寻找最优参数.最后在两组企业信用数据集和三组个人信用数据集上进行对比实验,结果表明,半监督学习方法(DAS3VM和SAS3VM)优于监督学习方法,SAS3VM在准确率上比DAS3VM最大提升了13.108%.  相似文献   

12.
一种基于多学习器标记的半监督SVM学习方法   总被引:2,自引:0,他引:2  
传统的支撑向量机是一种有监督学习方法,为了提高其泛化能力,提出了一种新的基于多学习器标记的半监督SVM学习方法。该方法将训练集分为有标记样本和无标记样本两个集合,通过对无标记样本进行分别标记,不断修正有标记样本集规模,从而提高SVM的泛化性能。在中文电子邮件过滤数据集上的实验结果证明了该方法的可行性和有效性。  相似文献   

13.
提出了一种基于非负稀疏表示(nonnegative sparse representation,NSR)的半监督学习标签传播算法.该算法首先构造一个稀疏概率图(sparse probability graph,SPG),其权重由非负稀疏表示算法计算的非负系数组成,自然地反映了各样本之间的聚类关系,避免了传统半监督学习算法中的邻居选择和参数设置过程;然后通过对未标记样本的标签进行迭代繁殖至收敛而获得所有样本的标签.在人脸识别、物体识别、UCI机器学习和TDT文本数据集上的实验结果表明采用非负稀疏表示的标签传播算法比典型的标签繁殖算法具有更好的分类准确率.  相似文献   

14.
针对大规模网络视频数据的学习需要考虑无标签数据和异构信息的问题,提出了一种基于视觉和文本异构信息的网络视频在线半监督学习方法.该方法将文本和视觉看作2个视图,采用图作为基分类器对每个视图进行建模,并利用线性邻域的传播算法来预测样本类别.在不同视图之间采用多图上的协同训练,利用未标记样本增量地更新基分类器,并根据类别相关的融合方法确定最终结果,从而提高了分类准确率.实验结果表明,该方法的结果优于支持向量机方法约8.3%,在线增量更新后,学习器的性能提高了约3%,因此比较适合于大规模视频数据的在线半监督学习.  相似文献   

15.
半监督学习是机器学习近年来的热点研究方向,而协同训练(Co-training)则是半监督学习中的重要范式,它利用双视图训练两个分类器来互相标记样本以扩大训练集,以此借助未标记样本提升学习性能.在实际应用中,视图通常会受到属性退化和噪声的影响而变得不充分(即视图不能提供足够的信息来正确预测样本的标记).在不充分视图下,两个视图上的最优分类器变得不再兼容,一个视图中的分类器标记的样本可能不利于另一个视图学得最优分类器.针对这一问题,提出一种改进的协同训练算法Compatible Co-training,它记录学习过程中每个未标记样本被赋予的标记,通过比较更新后的分类器对样本预测的标记与其初始标记,动态地删除标记不一致的样本,从而除去不利于学得最优分类器的样本.实验结果显示出Compatible Co-training比协同训练具有更好的泛化能力和更快的收敛速度.  相似文献   

16.
针对数据标注的代价昂贵和半监督学习难以直接处理高维数据,其包含的冗余特征往往导致分类模型效果不理想问题。为了解决上述问题,根据粒计算模型,提出基于一致性和知识粒度的半监督特征选择方法。利用正域的依赖度去度量有标记样本的一致性,同时采用知识粒度对未标记样本去评价特征对样本空间的可区分性,由此结合数据分布情况构造了一种基于线性融合的特征重要性方法。在此基础上,设计了面向半监督数据的特征选择方法。最后,通过实例分析和与当前四种半监督特征选择方法对比进一步验证了本文方法在半监督数据中的有效性和可行性。  相似文献   

17.
针对影像分类中少量标记样本问题,提出了基于模糊粗糙集的影像半监督分类算法.首先,通过模糊粗糙集对数据的粗糙性与模糊性进行建模,采用归一化的模糊互信息来度量特征与类别信息的相关性,并利用模糊上下近似度量样本的类别隶属度;然后,结合归一化的模糊互信息改进正则化框架下的特征评价方法,在谱图分析的半监督特征选择框架下实现特征优选;其次,结合近邻约束提高模糊上下近似预测样本类别的准确性,设计基于模糊粗糙集的约束自学习,选择信息量大的未标记样本更新训练样本集;最后,利用新的样本集训练分类器,完成影像分类任务.多组实验表明所提算法能够在少量标记样本的条件下有效提高影像的分类精度.  相似文献   

18.
针对现有入侵检测技术的不足,文章研究了基于机器学习的异常入侵检测系统,将多标记和半监督学习应用于入侵检测,提出了一种基于多标记学习的入侵检测算法。该算法采用"k近邻"分类准则,统计近邻样本的类别标记信息,通过最大化后验概率(maximum a posteriori,MAP)的方式推理未标记数据的所属集合。在KDD CUP99数据集上的仿真结果表明,该算法能有效地改善入侵检测系统的性能。  相似文献   

19.
随着污水处理过程日趋复杂,易测量变量和难测量变量的比例严重失衡,传统的监督性软测量建模方法已经无法满足需求.针对这一问题,提出了一种新的半监督学习的软测量模型?Tri-training MPLS模型.首先将标记数据均分为相互独立的3个部分,并由这3个相互独立的标记样本子集选择置信度高的未标记样本训练模型,提高模型的预测...  相似文献   

20.
针对当前无监督学习的入侵检测算法准确度低、误报率高以及有监督学习算法所需训练样本标记成本高的问题,提出一种基于对抗性自编码器的入侵检测算法.这是一种半监督学习算法,仅需要训练数据集中少量标记数据进行训练,并在训练数据集中支持未标记数据,从而提高性能.首先,自编码器通过提取重要特征作为潜在变量来降低输入数据的维数;其次,...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号