首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
一种基于KNN的半监督分类改进算法   总被引:1,自引:0,他引:1  
本文提出一种新的基于KNN分类的半监督学习self-training改进算法,并以多个UCI数据集为实验,对基于KNN的半监督分类模型算法进行改进,充分利用已知类别标签数据的正确知识进行自训练,以得到最终分类结果.实验结果表明,该方法能显著提高分类准确率.  相似文献   

2.
基于真实世界中医医疗数据集,提出了针对性的中医非结构化转结构化的数据预处理方法,并在监督分类模型和半监督分类模型上对得到的症状特征进行了实验验证.在真实医疗数据集上进行实验,发现无论是监督分类算法还是半监督分类算法在所提出的数据预处理模型上都得到了较优的分类效果,并且发现标签传播算法不仅在分类器稳定性上取得了较大的优势,在带标注数据较少时,仍能取得较好的实验结果.  相似文献   

3.
实际应用中的大量数据具有不确定属性,而传统的挖掘算法无法直接应用在不确定数据集上.针对不确定数据的分类问题,提出一种基于抽样方法的不确定极限学习机.该算法通过抽样的方法,对不确定数据集中样本的抽样实例进行学习和分类,得到该不确定样本的所属类别的概率,从而实现了传统极限学习机分类算法对不确定数据的分类,并极大降低了不确定对象实例的枚举代价.实验结果表明,该算法在不确定数据的分类问题中具有较好的有效性和高效性.  相似文献   

4.
提出了一种基于LPA和Tri-Training算法的半监督文本倾向性分类框架.通过LPA对初始样本进行快速分类,获得更多可信的有标签数据,优化分类框架的训练过程.引入Tri-Training算法,提高分类框架的泛化能力和可用性.实验结果表明,在不同标注比例的样本集上,该框架都有较好的分类性能,相较有监督学习算法和单一的半监督算法提高了分类精度,并有较强的鲁棒性,为解决有标签样本比例较少情况下的文本倾向性分类提供了一个新的思路.  相似文献   

5.
为了有效利用电能质量复合扰动识别中存在的大量难以标注的实测样本,提出了一种基于Jerk流形正则化深度极限学习机(DJRELM)的半监督扰动学习方法. 算法通过堆叠嵌入Jerk流形正则化的极限学习机自编码器(JRELM-AE)实现在复合扰动特征自动提取的同时保持数据内部流形结构. 分类层通过阈值预测极限学习机和Jerk正则化半监督极限学习机的结合将多层网络扩展到多标签半监督分类应用. 实验结果表明:该方法在不同噪声环境下的分类准确率均高于几种基于极限学习机的监督学习、半监督学习算法、传统多层极限学习机和深度卷积神经网络,具有理论意义和实用价值.  相似文献   

6.
针对数据实际分布与假设不匹配时半监督学习算法难以改善分类器性能的问题,该文提出一种最大化样本可分性半监督Boosting算法,通过引入"高密度区域局部散度最小、样本空间全局散度最大"准则来学习未标注的样本。该准则使用两种半监督假设(聚类假设和流形假设),减少了因半监督假设与数据不匹配造成的准确率下降问题。实验结果表明,该文算法有效提高了Boosting算法在符合聚类假设数据集和符合流形假设数据集上的准确性,提高了分类器噪声数据的稳定性。  相似文献   

7.
近年来由于其表示的有效性,基于表示的分类方法,例如稀疏表示分类器(SRC)或者协同表示分类器(CRC)被广泛的应用于各种各样的识别任务.但是,SRC或者CRC的性能严重依赖于每类带标签训练样本的个数,当每类带标签的训练样本不够充分,SRC或者CRC的识别性能将会显著地下降.为了解决这个问题,文章[34]把协同表示技术引入到半监督学习方法中,提出了一种基于协同表示的标签传播算法,有效的利用了大量未标记样本的信息来进行标签传播.受此启发,把这种标签传播算法与正交鉴别分析算法相结合,提出了一种基于协同表示标签传播的半监督正交鉴别分析算法,目的是为了学习一个更好的鉴别子空间.不同于传统的半监督降维方法,所提算法首先利用这种标签传播算法将部分有标签数据的标签信息传递给不带标签的数据,之后利用传播后获得的全体软标签信息构造离散度矩阵实现鉴别分析,其次对鉴别投影施加正交约束,采用一种更加有效快速的迹比优化算法进行鉴别分析.大量的实验结果验证了所提算法的有效性.尤其在只存有少量标签样本的情况下,算法仍能保持良好的分类性能.  相似文献   

8.
提出了一种基于非负稀疏表示(nonnegative sparse representation,NSR)的半监督学习标签传播算法.该算法首先构造一个稀疏概率图(sparse probability graph,SPG),其权重由非负稀疏表示算法计算的非负系数组成,自然地反映了各样本之间的聚类关系,避免了传统半监督学习算法中的邻居选择和参数设置过程;然后通过对未标记样本的标签进行迭代繁殖至收敛而获得所有样本的标签.在人脸识别、物体识别、UCI机器学习和TDT文本数据集上的实验结果表明采用非负稀疏表示的标签传播算法比典型的标签繁殖算法具有更好的分类准确率.  相似文献   

9.
对于仅有部分数据带标签且标签含有噪声的二分类问题,提出了一类基于重要性重加权的半监督分类算法,借助贝叶斯公式和无约束最小二乘拟合进行标签噪声率的估计,并由此利用BP神经网络逐步求解带权的优化问题,在多个标准数据集上的实验结果表明,本文提出重加权的半监督分类方法,能有效地降低标签不足以及标签噪声对分类准确率的影响.  相似文献   

10.
专家可为社区问答提供权威的答复,高效精准的专家发现有助于提升问答社区的服务质量.现有社区用户数据中存在噪声标签数据,且由于专家数量较少造成分类数据不平衡,从而降低了监督学习模型的专家发现精度.针对上述问题,本文提出一种基于特征扰动的半监督专家发现方法.该方法构建了一种无标签数据特征扰动策略,利用Sharpening算法实现无标签数据的伪标签化;基于ADASYN算法,通过构建专家用户邻近样本的方式扩充专家样本数据量,缓解分类数据的不平衡;构建联合损失函数,利用有标签和伪标签数据共同训练分类器,增强模型的泛化性能.实验结果表明,该方法在多个评价指标上优于已有模型和方法.  相似文献   

11.
社交机器人一直在应用中不断发展,并且为了逃避现有的检测方法,变得更加先进和复杂,较大地影响了原有部分社交机器人检测方法的效果.检测社交机器人成为了一项漫长而又艰巨的工作.在社交机器人检测领域中,目前存在着已公开相关数据集较少的情况,需要人工标注大量的数据.本文提出了一种结合主动学习与关系图卷积神经网络(RGCN)的检测方法——ALRGCN,用以解决人工标注大量数据成本较高的问题.其主要思路是利用主动学习方法来扩充标记数据集,以最大化人工标注的价值.主动学习利用种子选择算法构建初始训练集以及不确定性采样方法筛选出较高信息熵的样本,交由分类模型进行训练,旨在通过专业人员的经验来人工标注一些分类器难以分类的数据.鉴于社交机器人通常以集群的形式出现,本文引入了RGCN来捕捉其网络结构特征.RGCN可以有效地分析节点及其相邻节点的属性,进而帮助该节点进行分类.实验在TwiBot-20数据集上进行,通过对比进行使用的基线实验,ALRGCN在F1上取得了2.83%的提升.实验结果证明,ALRGCN在标注样本更小的情况下可以更有效地检测出社交机器人.  相似文献   

12.
针对主动学习面向大型数据集人工标记成本过高和半监督自训练算法中存在误标记点影响的问题,提出了一种主动学习与半监督自训练交替迭代训练的联合算法.算法在训练过程中奇数轮次采用主动学习算法,偶数轮次采用自训练算法,通过2种算法的交替迭代训练以弥补彼此不足.自训练算法对无标记样本的预测减轻了主动学习标记样本的负担,同时主动学习标记易变成噪声的样本,减轻了自训练算法训练过程中对样本的标记错误.提出了一种基于密度峰值聚类和隶属度的改进主动学习算法:将初始无标记样本聚类成簇,根据隶属度差值在每个簇内选取部分样本做人工标记,获得可表达样本的整体结构的均衡样本.仿真试验表明:提出的联合算法在性能上要优于2种单一算法.对比常见的主动学习算法,改进后的主动学习算法分类性能得到显著提升,将其应用于联合算法中的效果更具优势.   相似文献   

13.
在模式识别中,采取支持向量机对有类别标签样本分类是非常有效的,但在实际应用中,对样本进行标记并不是一件容易的工作.通过综合利用有类别标签和无类别标签样本信息构造目标函数和约束条件,借助二次规划模型提出了一种新的半监督支持向量机,从而提高了仅依靠有类别标签样本支持向量机的分类准确率.  相似文献   

14.
提出了一种基于支持向量机(SVM)和条件随机场(CRF)的双层模型进行中文机构名识别的方法.第一层模型采用CRF识别简单机构名,并将识别结果传至第二层辅助下一步的识别;第二层采用基于驱动的方法,将SVM和CRF结合进行复杂机构名的识别;最后将两层的识别结果合并,并通过一个后续处理对置信度较低的识别结果进行修正.大规模真实语料的开放测试表明,精确率达到94.83%,召回率达到95.02%,证明了该方法的有效性.  相似文献   

15.
提出了一种基于伪标签-1D DenseNet-KNN的光伏阵列故障诊断方法,实现在少标签样本下的光伏阵列复合故障开集识别。首先,分析了各种常见单一故障及灰尘覆盖下复合故障的I-V曲线特性。然后,为了克服常规的半监督机器学习算法需手动提取数据特征,采用一种伪标签与1D DenseNet相结合的半监督方法自动提取特征。最后,将对训练数据提取的特征、训练数据预测的标签及测试样本提取的特征输入K最近邻(KNN)算法进行开集复合故障诊断。实验表明,该方法不仅能准确分类各种已知类样本,而且能识别出未知类别故障,并且模型的训练仅需少量标签数据。  相似文献   

16.
提出一种改进的结合情感词典的主动贝叶斯情感分类方法(SLAB).为了证明提出方法的有效性,选用康奈尔影评数据集和互联网电影资料库(IMDB)数据集作为实验数据,并与基于不确定性采样策略的主动学习方法进行比较.结果表明:文中提出的方法在较少的标注训练集下,能够取得更高的分类准确率,一定程度上解决了基于不确定性采样策略的主动学习方法中的误差累积问题.  相似文献   

17.
为提高少量样本情况下分类器的性能,提出一种基于多分类器协同的半监督样本选择方法,利用未标注样本实现样本增强,提高分类器泛化能力.依靠多分类器的互相监督和多分类器标签一致的原理,将已标记样本作为训练集,利用SVM和RF两个分类器协同训练,多分类器的类别标签和确定度值作为约束条件,从未标记样本集中筛选出最有代表性的样本构成增强样本集,以准确率为评价标准,验证本算法对分类器泛化性能的影响.本算法在手写数字数据集(Mnist字符库)和Landsat土壤数据集上测试,实验结果表明相比少量原始训练样本构建的分类器,增强样本构建分类器预测的全部类别准确率都得到提升.两个数据集的总体准确率分别提升5.97%和7.02%,Mnist数据集中数字5这类准确率提升最高(提升11.9%,从79.3%到91.2%),Landsat土壤数据集中土壤3这一类准确率提升最明显(提升15.8%,从73.5%到89.3%),结果证明了该算法显著提高了分类器的泛化性能.同时与经典的KNN、Co-training和Co-forest算法对比,所提出的算法能够最大限度地利用未标记样本信息,具有最好的精度表现,证明了该研究提出算法的优越性.  相似文献   

18.
通过选取最有信息量的样本提交专家进行标注,主动学习算法可以有效地减少无效标注样本的工作量.在充分考虑位于分类边界的不确定样本和基于先验分布的具有代表性样本的基础上,本文构造了不确定性与代表性相结合的可控主动学习算法.首先利用样本的kNN分布状况建立不确定性置信度模型,该思路不需要知道样本分布的具体类型和参数计算;然后在样本聚集度模型的基础上进行聚类,在此基础上建立代表性置信度模型.最后将不确定性置信度模型与代表性置信度模型进行综合,构造可控的主动学习策略,使得每次主动学习选择的样本更具有"价值".在UCI机器学习数据库上的仿真实验结果表明本文的思路是合理可行的,在实验所用数据集上,当达到相同的目标正确率时,本文的方法比随机采样算法所需的样本数量少得多.  相似文献   

19.
油气管道在储运过程中,沿线区域地物变化对其安全具有较大影响,特别是道路的修建、沟壑的挖掘、滑坡等。由于油气管道分布范围广、周边环境复杂,传统的人工巡检方式存在一定的局限性,因此研究了基于卫星遥感的油气管道沿线地物变化检测。在综合考虑空间信息和算法自动化程度的基础上提出一种改进的基于多特征融合和主动学习的油气管道沿线地物变化检测算法。首先利用基于自适应阈值算法选择初始训练样本,然后利用梯度提升树、k近邻和极限随机树集成结构进行未标记样本的类别判定,并基于边缘采样的主动学习算法进行未标注样本增选。在样本增选过程中为了减少噪声对训练样本的影响并且减少冗余信息,通过两方面对增选样本进行优化,首先通过分割对象约束分类器集成变化检测结果,提高增选样本的准确性,然后利用边缘采样方法选择信息量较大的未标记样本进行标注。通过两景融合后的资源三号(ZY-3)影像进行实验,结果表明该算法可以有效检测地物变化情况,并且在提高变化检测结果精度的同时,可以有效减少训练样本的标注成本。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号