首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为了克服由错误标记样本所引发的问题,提出半监督分类器模型。从标记数据和未标记数据中学习得到决策准则,并在马尔科夫随机场中,运用一个新的基于鲁棒误差函数的能量函数,分别设计基于迭代条件模型和马尔科夫链蒙特卡罗的两种算法来推断标记样本和未标记样本的类别。实验结果表明这两种方法对于现实世界的数据集来说是高效的,并具有很好的鲁棒性。  相似文献   

2.
【目的】针对协同训练算法不能直接应用于单视图数据,且在迭代过程中加入的无标记样本隐含有用信息不够的问题,提出基于核均值漂移聚类的改进局部协同训练算法。【方法】该算法先在有标记样本集中利用改进局部协同训练算法训练一个完整视图分类器h1,同时挑选出价值高的特征子集来训练局部视图分类器h2,然后在无标记样本集中采用核均值漂移算法选择聚类过程中指定带宽范围内的样本,交由分类器h2标记类别后再加入分类器h1的训练中,以此来优化分类模型。【结果】在UCI数据集上的3组对比实验证明了该算法的有效性,实验结果表明该算法具有更高的模型评价能力。【结论】改进局部协同训练算法将数据集划分为局部视图和完整视图,解决了单视图数据的视图划分问题。利用核均值漂移算法选出较好表现数据空间结构的无标记样本,降低了无标记样本带来的误差。  相似文献   

3.
针对主动学习面向大型数据集人工标记成本过高和半监督自训练算法中存在误标记点影响的问题,提出了一种主动学习与半监督自训练交替迭代训练的联合算法.算法在训练过程中奇数轮次采用主动学习算法,偶数轮次采用自训练算法,通过2种算法的交替迭代训练以弥补彼此不足.自训练算法对无标记样本的预测减轻了主动学习标记样本的负担,同时主动学习标记易变成噪声的样本,减轻了自训练算法训练过程中对样本的标记错误.提出了一种基于密度峰值聚类和隶属度的改进主动学习算法:将初始无标记样本聚类成簇,根据隶属度差值在每个簇内选取部分样本做人工标记,获得可表达样本的整体结构的均衡样本.仿真试验表明:提出的联合算法在性能上要优于2种单一算法.对比常见的主动学习算法,改进后的主动学习算法分类性能得到显著提升,将其应用于联合算法中的效果更具优势.   相似文献   

4.
【目的】自训练方法易选出低置信度的无标记样本去训练分类器,在训练中也易误标记无标记样本导致错误累积,针对这些问题提出结合相似度选择高置信度样本的朴素贝叶斯自训练方法。【方法】选择朴素贝叶斯作为基分类器,在迭代中通过相似度计算方法计算样本相似度,选择同时满足相似度阈值和类别号判别一致的无标记样本加入训练集。【结果】在UCI数据集的对比实验中发现,提出的新方法的分类正确率高于其他对比算法。【结论】新方法能够利用少量有标记样本和不断添加的置信度高的无标记样本去训练分类器,提高分类精度,解决了自训练方法因有标记样本集初始分布不均导致准确率较低的问题。
  相似文献   

5.
基于动态API序列挖掘的恶意代码检测方法未考虑不同类别恶意代码之间的行为差别,导致代表恶意行为的恶意序列挖掘效果不佳,其恶意代码检测效率较低.本文引入面向目标的关联挖掘技术,提出一种最长频繁序列挖掘算法,挖掘最长频繁序列作为特征用于恶意代码检测.首先,该方法提取样本文件的动态API序列并进行预处理;然后,使用最长频繁序列挖掘算法挖掘多个类别的最长频繁序列集合;最后,使用挖掘的最长频繁序列集合构造词袋模型,根据该词袋模型将样本文件的动态API序列转化为向量,使用随机森林算法构造分类器检测恶意代码.本文采用阿里云提供的数据集进行实验,恶意代码检测的准确率和AUC(Area Under Curve)值分别达到了95.6%和0.99,结果表明,本文所提出的方法能有效地检测恶意代码.  相似文献   

6.
对不平衡数据进行聚类分析时,K-means聚类方法可能会错误地将分布在较小区域类别中的样本划分到大区域类别中;谱聚类算法,虽然可以有效优化数据结构,并很好地识别不同形状的样本,但却难以处理大规模数据.针对这些问题,提出一种改进地标点采样的不平衡数据聚类算法.该算法首先对不平衡数据进行预聚类以获得初始类标签,然后基于数据密度对数据进行采样.在此基础上,通过对采样数据执行K-means聚类,并将聚类中心作为地标点,对数据进行谱聚类分析.实验结果显示,该方法在处理不平衡数据时,不仅能够有效提高样本的聚类准确率,而且能够保证聚类结果的稳定性和精度.  相似文献   

7.
为了利用样本的局部结构信息与少量标记样本的类别信息,提出了一种基于局部学习的受限非负矩阵分解算法,并应用于数据表示.为了考虑样本的局部结构信息,通过每个样本邻域构建出的分类器对样本的类别进行预测;同时,还将样本中存在的类别信息作为硬约束,使得相同类别的高维样本在低维表示空间保持一致.算法不仅利用了样本的几何流形结构信息与鉴别结构信息,还考虑了标记样本的类别信息,因此比传统的非负矩阵算法具有更强的鉴别性.在20Newsgroups文本库和ORL人脸库中的实验结果表明了算法能提高分解准确率和归一化互信息.  相似文献   

8.
聚类分析是从基因表达谱数据中提取生物医学信息的主要方法之一.针对传统谱聚类算法无法确定聚类个数的问题,提出一种改进的谱聚类算法并将其应用于基因表达谱聚类分析.首先用基因表达谱数据构造Laplacian矩阵,经特征值分解后得到相应的特征值和特征向量,用谱隙来描述相邻特征值的差值;然后通过寻找谱隙序列的最大值来确定聚类个数;最后从单位化的特征向量着手实现数据类别的划分.通过模拟数据与癌症数据的实验,证明了该文算法的有效性.  相似文献   

9.
针对基于样例的偏标记学习方法 IPAL需对每个样本求取近邻及近邻的权值、耗时太多而不适用于求取大规模数据的问题,提出了一种基于近邻距离加权的偏标记学习算法,对IPAL中近邻权值的求取方式进行改进.为提升新算法的运行效率,在训练集与测试集的读取、相似度图的构建、迭代标记传播和测试样本的预测等方面进行了并行计算;设计了新算法的并行模型,且在MPI的集群环境下实现此模型.将改进后串行算法WIPAL的运行效率和分类准确率与IPAL进行对比,且将不同进程数下并行算法PWIPAL的运行时间和加速比进行对比.试验结果表明:新算法在保证分类准确率的前提下缩短了运行时间;随着数据规模的增大,PWIPAL与WIPAL分类准确率相同,运行时间的加速比逐渐接近所设定的进程数,可以用来处理大规模数据.  相似文献   

10.
高阶多标记学习算法能够挖掘所有类别标记之间的关系或标记子集的关系,但在处理错误传播和冗余或错误的类别依赖关系这两个问题上存在弊端。针对此类问题,在链式分类器的基础上,提出稀疏链式多标记学习算法(Sparse Classifier Chains,SCC);为了验证所提出算法的有效性,将其与5种多标记学习算法进行对比,选取8个评价指标来评估算法的性能,在12个标准数据集上进行了实验验证,并利用秩和检验方法来分析所有对比算法之间的相对性能;实验结果表明:稀疏链式多标记学习算法优于所有对比算法,显著优于部分算法,并具有较强的泛化性能。  相似文献   

11.
针对大规模网络视频数据的学习需要考虑无标签数据和异构信息的问题,提出了一种基于视觉和文本异构信息的网络视频在线半监督学习方法.该方法将文本和视觉看作2个视图,采用图作为基分类器对每个视图进行建模,并利用线性邻域的传播算法来预测样本类别.在不同视图之间采用多图上的协同训练,利用未标记样本增量地更新基分类器,并根据类别相关的融合方法确定最终结果,从而提高了分类准确率.实验结果表明,该方法的结果优于支持向量机方法约8.3%,在线增量更新后,学习器的性能提高了约3%,因此比较适合于大规模视频数据的在线半监督学习.  相似文献   

12.
针对影像分类中少量标记样本问题,提出了基于模糊粗糙集的影像半监督分类算法.首先,通过模糊粗糙集对数据的粗糙性与模糊性进行建模,采用归一化的模糊互信息来度量特征与类别信息的相关性,并利用模糊上下近似度量样本的类别隶属度;然后,结合归一化的模糊互信息改进正则化框架下的特征评价方法,在谱图分析的半监督特征选择框架下实现特征优选;其次,结合近邻约束提高模糊上下近似预测样本类别的准确性,设计基于模糊粗糙集的约束自学习,选择信息量大的未标记样本更新训练样本集;最后,利用新的样本集训练分类器,完成影像分类任务.多组实验表明所提算法能够在少量标记样本的条件下有效提高影像的分类精度.  相似文献   

13.
基于半监督K-means的K值全局寻优算法   总被引:3,自引:0,他引:3  
提出一种基于半监督K-means的K值全局寻优算法,该算法打破传统方法中采用样本类别作为K值的限定,利用少量标记数据即可指导和规划大量无监督数据.结合数据集自身的分布特点及聚类后各个簇内的监督信息,根据投票方法来指导簇中数据集的类别标记.实验表明,本文所提出的方法可以有效的寻找适合数据集的最佳K值和聚类的中心,提高聚类性能.  相似文献   

14.
针对传统k-means聚类算法面对海量数据存在时间复杂度急剧增加的问题,结合云计算的优势,提出基于MapReduce编程框架来实现k-means聚类算法的并行化处理。Map函数完成每个样本记录到聚类中心的距离计算并标记其所属聚类类别,Reduce函数汇总中间结果并计算出新的聚类中心,供下一轮迭代使用。通过实验表明:基于MapReduce的并行化k-means聚类算法具有较好的加速比和良好的扩展性。  相似文献   

15.
【目的】自训练方法易选出低置信度的无标记样本去训练分类器,在训练中也易误标记无标记样本导致错误累积,针对这些问题提出结合相似度选择高置信度样本的朴素贝叶斯自训练方法。【方法】选择朴素贝叶斯作为基分类器,在迭代中通过相似度计算方法计算样本相似度,选择同时满足相似度阈值和类别号判别一致的无标记样本加入训练集。【结果】在UCI数据集的对比实验中发现,提出的新方法的分类正确率高于其他对比算法。【结论】新方法能够利用少量有标记样本和不断添加的置信度高的无标记样本去训练分类器,提高分类精度,解决了自训练方法因有标记样本集初始分布不均导致准确率较低的问题。  相似文献   

16.
偏标记学习是近几年提出的新机器学习框架,已有的逻辑回归偏标记算法尚不能解决数据不平衡问题.建立了一种可以解决数据不平衡的逻辑回归模型偏标记学习算法.基本思想是在多元逻辑回归模型中定义新的似然函数以达到处理不平衡数据的目的.算法先根据训练集中各个类别样本所占比例定义了一个新的似然函数,之后通过逼近和求导等数学手段推导得到了能够求解的光滑的逻辑回归偏标记学习模型.在UCI数据集和真实数据集上的仿真实验表明,所提算法在数据存在不平衡问题时提高了样本的平均分类精度.  相似文献   

17.
人机交互研究领域中行为分析与识别是当前研究的一个热点,行为序列分割是行为分析与识别的基础.鉴于强度摄像机视频在进行行为分割时对光线、视角变化过于敏感,提出了一种由深度视频提取的骨架信息,基于本征维数与置信度二次判断的无监督行为序列分割算法.首先,通过Kinect跟踪人体20个骨骼关节点数据,获得视频中人的姿态,通过提取关节点极坐标位置信息来描述行为特征;然后通过奇异值分解(sigular value decomposition,SVD)估计行为序列的本征维数,确定数据对应的低维流形,通过检测特征数据在该流形上投影误差的突变来找到分割帧,并对分割出来的行为序列进行类别标记.每找到一个分割帧就对当前标记类包含样本和当前标记类的前一类包含样本进行基于置信度的二次判断,找到前一类最优分割帧并初始化继续分割.最后采用随机森林模型对分割结果进行识别验证.实验结果表明采用本文算法可以明确分割出代表不同模式的行为片段.  相似文献   

18.
提出了一种基于非负稀疏表示(nonnegative sparse representation,NSR)的半监督学习标签传播算法.该算法首先构造一个稀疏概率图(sparse probability graph,SPG),其权重由非负稀疏表示算法计算的非负系数组成,自然地反映了各样本之间的聚类关系,避免了传统半监督学习算法中的邻居选择和参数设置过程;然后通过对未标记样本的标签进行迭代繁殖至收敛而获得所有样本的标签.在人脸识别、物体识别、UCI机器学习和TDT文本数据集上的实验结果表明采用非负稀疏表示的标签传播算法比典型的标签繁殖算法具有更好的分类准确率.  相似文献   

19.
为提高少量样本情况下分类器的性能,提出一种基于多分类器协同的半监督样本选择方法,利用未标注样本实现样本增强,提高分类器泛化能力.依靠多分类器的互相监督和多分类器标签一致的原理,将已标记样本作为训练集,利用SVM和RF两个分类器协同训练,多分类器的类别标签和确定度值作为约束条件,从未标记样本集中筛选出最有代表性的样本构成增强样本集,以准确率为评价标准,验证本算法对分类器泛化性能的影响.本算法在手写数字数据集(Mnist字符库)和Landsat土壤数据集上测试,实验结果表明相比少量原始训练样本构建的分类器,增强样本构建分类器预测的全部类别准确率都得到提升.两个数据集的总体准确率分别提升5.97%和7.02%,Mnist数据集中数字5这类准确率提升最高(提升11.9%,从79.3%到91.2%),Landsat土壤数据集中土壤3这一类准确率提升最明显(提升15.8%,从73.5%到89.3%),结果证明了该算法显著提高了分类器的泛化性能.同时与经典的KNN、Co-training和Co-forest算法对比,所提出的算法能够最大限度地利用未标记样本信息,具有最好的精度表现,证明了该研究提出算法的优越性.  相似文献   

20.
图像检索中基于标记与未标记样本的主动学习算法   总被引:3,自引:0,他引:3  
为解决监督学习过程中训练样本集过小问题,提出一种未标记样本辅助学习与主动学习相结合的学习方法.基于用户已标记样本与数据库内未标记样本,利用EM算法得到初始朴素贝叶斯分类器与初始假设;主动学习算法寻找数据库内对于优化学习过程最有用的样本请求用户标记;算法根据用户反馈,迭代更新已有查询概念,直至用户满意为止.实验表明,本文算法能够显著提高学习器的效率和性能,并可快速收敛于用户定义的查询概念.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号