首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
随着科技的发展,数据的获取渠道变得越来越多,所获得的数据也越来越多样化,多视角数据在目前的应用也已经相当普遍. 但是在处理真实世界的问题时,获得的多视角数据一般只带有少量标签,而人工标注的成本比较高昂,因此多视角半监督学习在机器学习和图像处理领域引起了许多学者的关注. 本文总结了近年来发表的多视角半监督分类方法并对这些方法进行了归类,对多视角半监督分类方法所面临的挑战进行了讨论.  相似文献   

2.
基于真实世界中医医疗数据集,提出了针对性的中医非结构化转结构化的数据预处理方法,并在监督分类模型和半监督分类模型上对得到的症状特征进行了实验验证.在真实医疗数据集上进行实验,发现无论是监督分类算法还是半监督分类算法在所提出的数据预处理模型上都得到了较优的分类效果,并且发现标签传播算法不仅在分类器稳定性上取得了较大的优势,在带标注数据较少时,仍能取得较好的实验结果.  相似文献   

3.
一种基于KNN的半监督分类改进算法   总被引:1,自引:0,他引:1  
本文提出一种新的基于KNN分类的半监督学习self-training改进算法,并以多个UCI数据集为实验,对基于KNN的半监督分类模型算法进行改进,充分利用已知类别标签数据的正确知识进行自训练,以得到最终分类结果.实验结果表明,该方法能显著提高分类准确率.  相似文献   

4.
提出一种新的基于半监督的SVM-KNN分类方法,当可用的训练样本较少时,使用SVM进行分类,不能得到准确的分类边界,本文采用半监督学习策略从大量未标记样本中提取边界向量来改善SVM.KNN分类器的引进不仅扩充了SVM的训练样本数目,而且优化了迭代过程中训练样本的标记质量,可不断修复SVM的分类边界.实验结果表明,所提出的方法能提高SVM算法的分类精度,通过调整参数能够获得更好的分类效果,同时也减小了标记大量未标记样本的代价.  相似文献   

5.
提出了一种基于LPA和Tri-Training算法的半监督文本倾向性分类框架.通过LPA对初始样本进行快速分类,获得更多可信的有标签数据,优化分类框架的训练过程.引入Tri-Training算法,提高分类框架的泛化能力和可用性.实验结果表明,在不同标注比例的样本集上,该框架都有较好的分类性能,相较有监督学习算法和单一的半监督算法提高了分类精度,并有较强的鲁棒性,为解决有标签样本比例较少情况下的文本倾向性分类提供了一个新的思路.  相似文献   

6.
提出了一种基于Markov随机游走的渐进式半监督分类模型:在随机游走过程中,计算待标注数据到各类的迁移概率时,只考虑相应类别样本的影响,而忽略其他类别样本对随机过程的影响;并在学习过程中借鉴渐进学习思想,通过不断地“纠正”半监督学习过程中的“错误”,从而提高模型的预测精度.在20newsgroups数据集上的实验结果表明:所提出的方法能够提高半监督分类的精度.  相似文献   

7.
在一致性正则化与熵最小化的基础上提出一种新的半监督学习算法Mean Mixup,集成数据的互补信息,然后使用熵最小化给未标记数据生成可靠的伪标签,在一致性正则化下进一步优化模型分类结果.在常用数据集SVHN和CIFAR10上对Mean Mixup算法进行了评估,实验结果表明,所提出的方法在分类准确率上优于一些已有的半监...  相似文献   

8.
针对不同视角的行人样本具有较大的类内差异性,造成多视角行人识别错误率较高的问题,提出一种基于非负矩阵分解最小二乘的多视角行人分类算法.采用非负矩阵分解的方法对多视角的行人样本图像进行子空间分解,提取基向量;引入协同表示的方法并在最小二乘约束下,对子空间进行稀疏表示获得稀疏分解系数;利用近邻子空间方法对分解系数进行分类.基于自行构建的多视角行人数据库进行对比实验,结果表明该算法的准确性和有效性优于其他方法.  相似文献   

9.
在许多实际应用场景中,可以从不同层次、不同角度获取相同对象的特征数据,如何有效地利用获取的多视角数据是一个值得研究的问题.和传统的单视角学习相比,多视角学习在多源数据的应用中显示了一定的优势.多角度学习(Multi-View Learning,MVL)面临的一个重要问题是在满足不同视角互补性的前提下如何保持视角之间的一致性.针对以上问题,提出一种新的多视角特权协同核化随机向量功能链接网络(KMPRVFL)来有效地解决多视角分类问题,其基本思想是将冗余视角的额外信息与平均视角上的特权信息相结合来监督当前视角的分类任务,将多视角数据用核化后加权线性组合成综合第二视角.同时,还设计了一种增量学习方法,可以有效地减少计算量.在真实数据集上的实验结果表明,和传统的多视角学习方法相比,KMPRVFL的能力更强,其平均测试精度要优于对比算法.  相似文献   

10.
随着万维网的快速普及和发展,Web上出现了大量短文本,如科技文献摘要、微博和电子邮件等.短文本内容短小,相互联系,已标注数据获得困难,导致传统分类方法很难取得较高的分类精度.为了解决短文本分类问题,提出了一种基于半监督学习的迭代分类算法(SS-ICA).它使用较少的已标记数据,利用短文本间的关系进行迭代分类.通过与常用分类方法进行对比表明,在标注数据较少的情况下SS-ICA比其他分类器有更高的分类精度.  相似文献   

11.
近年来,随着生命科学研究的不断发展,生物信息学这个利用智能算法处理生物数据的新型交叉学科越来越受到科研工作者的关注.机器学习在智能算法的研究中占据极其重要的地位,而机器学习中的半监督分类学习在生物信息学中有着广泛应用.以半监督分类学习中的间谍算法为例,首先回顾了半监督分类学习的发展历程,分析了该方法的研究现状,然后描述了间谍算法在生物信息学研究中的应用,最后总结了间谍算法的优势和局限性,并且讨论了可以改进的方向和未来的发展.  相似文献   

12.
典型相关分析(CCA)是一种经典的多视角特征提取方法,可以从2个视角中查找特征集之间的线性相关关系.但CCA在做分类任务时具有多个缺点,一是CCA本身为无监督学习方法,做分类时没有利用样本的类信息,二是CCA仅考虑需要分类的目标数据,而忽略了与目标数据来自同一域的Universum数据的信息.因此人们提出增强组合特征判...  相似文献   

13.
在半监督分类问题中,某些无标签的数据点很有可能属于某一特定的类,则这些点可被信任,应当被充分地利用去帮助学习正确的分类界面,从而提升图像分类的效果.因此,如何区分出可信点在半监督分类问题中显得尤为重要.针对该问题,提出一种联合的半监督学习方法,可以自适应地区分可信点,并且提出了相应的迭代优化分类器和可信点标签矩阵的算法,把分类器的归纳能力和无标签数据的标签直推化能力融合到了一个框架中,不需要额外的步骤去预测无标签数据的标签.在两个人脸数据库中大量实验验证了所提方法的可行性和有效性.  相似文献   

14.
针对非平衡数据的半监督分类问题,提出了一种基于Biased-SVM的非平衡半监督分类算法.该方法首先利用初始的标记样本集训练处理不平衡数据的Biased-SVM模型,然后用训练好的Biased-SVM模型为未标记样本加上标签,再把新标记样本加入到初始标记样本集中,重新训练Biased-SVM模型,最后在测试集上进行测试.选取公共数据库里的一些数据集进行实验,首先在两类不平衡数据集上实验的结果表明,在标记样本所占比例为20%~80%时,所提方法能够在不降低数据集整体G-mean值的基础上,提高小类的F-value值并具有较高的稳定性;然后在多类不平衡数据集上实验的结果表明,在标记样本所占比例为20%~80%时,所提方法能够在不降低数据集整体的EG-mean值的基础上,提高小类识别率并具有较高的稳定性.  相似文献   

15.
对于仅有部分数据带标签且标签含有噪声的二分类问题,提出了一类基于重要性重加权的半监督分类算法,借助贝叶斯公式和无约束最小二乘拟合进行标签噪声率的估计,并由此利用BP神经网络逐步求解带权的优化问题,在多个标准数据集上的实验结果表明,本文提出重加权的半监督分类方法,能有效地降低标签不足以及标签噪声对分类准确率的影响.  相似文献   

16.
为解决油层识别中存在的获得有标记数据的代价过高,有标记数据稀少的问题,提出一种新的基于分支定界的半监督支持向量机(branch and bound for semi-supervised support vector machine,BBS3VM)的油层识别方法。此方法主要将半监督学习(semi-supervised learning, SSL)和分支定界的思想引入到支持向量机(support vector machine, SVM)分类算法中。通过半监督学习的思想,使用大量未标记的样本来改善学习性能,利用分支定界算法提高半监督支持向量机(semi-supervised support vector machine,S3VM)算法的分类精度,将此改进算法应用于测井数据挖掘中的油层识别。经过对某油田的实际测井资料进行处理,实验结果表明,半监督油层识别方法要优于传统的S3VM分类算法,识别率更高,分类效果更显著,与全监督的SVM算法相比较,得到相差不大的分类精度的同时,速度更快。  相似文献   

17.
通过建立模型对电商企业的客户查询信息进行文本分类分析,帮助企业掌握用户的消费习惯,同时帮助用户及时找到需要的商品.本文首先获取客户查询数据并对该文本数据进行预处理,利用改进的TF-IDF方法获得文本特征向量,最后结合朴素贝叶斯文本分类及半监督的EM迭代算法建立分类模型,并应用各种标准对模型进行评估,验证模型的有效性.多类别文本集选取文本特征时,关键词权值容易产生波动,本研究改进关键词权值计算公式来改善分类结果.实验结果表明分类器具有良好的分类效果.  相似文献   

18.
为了提高半监督分类性能,提出了一种多分类器协同的半监督分类算法SSC_MCC.算法采用双层结构集成,使用多条件判断挖掘未标记样本信息,扩充有标记样本.第一层中,采用三分类器协同投票一致策略实现对未标记样本进行标记,第二层中采用基于正确分类率的分类器加权投票决策标记未标记样本,扩充有标记样本,用最终生成的有标记样本训练分类器,实现半监督分类.最后,使用UCI数据集模拟半监督实验,结果表明SSC_MCCL较好地提高了半监督分类性能.  相似文献   

19.
为提高分类准确率, 解决城市区域社会功能标签分类难的问题, 提出了一种基于不确定抽样选择策略的半监督城市土地功能分类方法。该算法从轨迹数据中提取城市区域的特征向量, 只需对少量区域进行标签, 根据不确定抽样的主动学习选择策略, 从未标注训练样本中选取具有较多信息的数据, 利用半监督学习算法进行标注, 得到新的标注训练样本添加到训练集, 反复迭代后得到分类结果。实验结果表明, 该方法对不同社会功能的城市区域分类准确率可达90. 2%, 与传统方法相比分类准确率高, 减少了大量标注工作, 在少数标签数据上仍有较好的分类效果。  相似文献   

20.
网络数据流的精准业务识别是实现差异化服务的先决条件,常用的监督学习在构建训练数据集时因需要大量人力标注因而难以实施,基于少量标注数据的半监督学习成为研究的热点之一.自步协同训练(self-paced co-training)的半监督框架在处理未标记数据时采用了从易到难、多视角协同的方法,但该方法仅以置信度为选取依据给样本标记伪标签,容易导致多视角的差异性在训练过程中逐步下降,从而引起协同增益下降、模型性能受限等问题.为此面向微信数据流识别问题,提出了一种基于模糊度的自步协同训练模型(fuzziness based self-paced co-training, FBSpaCo),在标注伪标签时进一步引入模糊度评估机制.实验表明,该模型在保证置信度的前提下有效地避免了训练过程中两视角差异性下降,较已有方法较大地提升了识别准确度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号