首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
提出一种基于多种文本类型的半监督性别分类方法,即根据微博平台中用户所产生的不同类型的文本(如:原创微博、转发微博等)对用户的进行性别分类。文中的方法是一种基于协同训练(Co-training)的半监督学习方法,旨在减少分类器对大量标注样本的依赖。首先将不同类型的文本分为不同的独立视图;其次,在每个视图中利用LSTM分类器挑选置信度最高的未标注样本;最后,将挑选出来的未标注样本加入训练模型迭代训练。实验结果表明我们的方法能够有效利用非标注样本信息,并明显优于其他现有的半监督性别分类方法。  相似文献   

2.
针对大规模网络视频数据的学习需要考虑无标签数据和异构信息的问题,提出了一种基于视觉和文本异构信息的网络视频在线半监督学习方法.该方法将文本和视觉看作2个视图,采用图作为基分类器对每个视图进行建模,并利用线性邻域的传播算法来预测样本类别.在不同视图之间采用多图上的协同训练,利用未标记样本增量地更新基分类器,并根据类别相关的融合方法确定最终结果,从而提高了分类准确率.实验结果表明,该方法的结果优于支持向量机方法约8.3%,在线增量更新后,学习器的性能提高了约3%,因此比较适合于大规模视频数据的在线半监督学习.  相似文献   

3.
为了提高半监督分类性能,提出了一种多分类器协同的半监督分类算法SSC_MCC.算法采用双层结构集成,使用多条件判断挖掘未标记样本信息,扩充有标记样本.第一层中,采用三分类器协同投票一致策略实现对未标记样本进行标记,第二层中采用基于正确分类率的分类器加权投票决策标记未标记样本,扩充有标记样本,用最终生成的有标记样本训练分类器,实现半监督分类.最后,使用UCI数据集模拟半监督实验,结果表明SSC_MCCL较好地提高了半监督分类性能.  相似文献   

4.
【目的】针对在标准协同训练中不具有充分冗余的视图分割,致使分类器错误累计过多,以及一对基分类器标记样本类别不一致的问题,提出了基尼指数结合K均值聚类的协同训练算法。【方法】该算法首先计算已标记样本中各特征的基尼指数,将该指数升序排列后均等划分到两个视图,然后在基分类器所标记的样本中,运用K均值聚类确定标记不一致样本的类别后加入标记样本。【结果】通过9个UCI数据集在3组实验上的结果表明,所提算法相较于对比算法提升了分类效果。【结论】运用基尼指数均等划分关键特征于两个视图,有利于改善视图分割不充分冗余的缺陷;K均值聚类法对分类不一致样本进行重新标记,降低了协同训练算法中的误标记率。  相似文献   

5.
【目的】针对标准协同训练中视图分割不充分冗余导致两个分类器误差累积加大,且两个分类器对同一个未标记样本分类不一致的问题,提出了结合信息增益率和K-means聚类的协同训练算法。【方法】该算法先根据有标记样本计算出数据中每一个特征的信息增益率,将信息增益率高的特征平均划分到两个视图,再在每次分类过程中应用K-means聚类确定标记不一致样本点的最终类别。【结果】通过在9个UCI数据集上的3组实验表明,与对比算法相比,所提算法中两视图分类器的平均正确率差值降低了2.9%,有效均衡了分类器性能,同时在分类准确率和算法稳定性上也有较大提升。【结论】利用信息增益率将关键特征均衡划分到两个视图,有效解决了视图分割不充分冗余问题;K-means聚类重新分类标记不一致的样本,降低了样本被误分类的概率。  相似文献   

6.
为提高少量样本情况下分类器的性能,提出一种基于多分类器协同的半监督样本选择方法,利用未标注样本实现样本增强,提高分类器泛化能力.依靠多分类器的互相监督和多分类器标签一致的原理,将已标记样本作为训练集,利用SVM和RF两个分类器协同训练,多分类器的类别标签和确定度值作为约束条件,从未标记样本集中筛选出最有代表性的样本构成增强样本集,以准确率为评价标准,验证本算法对分类器泛化性能的影响.本算法在手写数字数据集(Mnist字符库)和Landsat土壤数据集上测试,实验结果表明相比少量原始训练样本构建的分类器,增强样本构建分类器预测的全部类别准确率都得到提升.两个数据集的总体准确率分别提升5.97%和7.02%,Mnist数据集中数字5这类准确率提升最高(提升11.9%,从79.3%到91.2%),Landsat土壤数据集中土壤3这一类准确率提升最明显(提升15.8%,从73.5%到89.3%),结果证明了该算法显著提高了分类器的泛化性能.同时与经典的KNN、Co-training和Co-forest算法对比,所提出的算法能够最大限度地利用未标记样本信息,具有最好的精度表现,证明了该研究提出算法的优越性.  相似文献   

7.
【目的】针对协同训练算法不能直接应用于单视图数据,且在迭代过程中加入的无标记样本隐含有用信息不够的问题,提出基于核均值漂移聚类的改进局部协同训练算法。【方法】该算法先在有标记样本集中利用改进局部协同训练算法训练一个完整视图分类器h1,同时挑选出价值高的特征子集来训练局部视图分类器h2,然后在无标记样本集中采用核均值漂移算法选择聚类过程中指定带宽范围内的样本,交由分类器h2标记类别后再加入分类器h1的训练中,以此来优化分类模型。【结果】在UCI数据集上的3组对比实验证明了该算法的有效性,实验结果表明该算法具有更高的模型评价能力。【结论】改进局部协同训练算法将数据集划分为局部视图和完整视图,解决了单视图数据的视图划分问题。利用核均值漂移算法选出较好表现数据空间结构的无标记样本,降低了无标记样本带来的误差。  相似文献   

8.
半监督学习在入侵检测系统中的应用   总被引:1,自引:0,他引:1  
提出了一种基于半监督模糊聚类的异常入侵检测方法,半监督学习算法的训练样本包括已标记数据和未标记数据,在训练系统模型时使用少量已标记样本和大量未标记样本作为种子初始化入侵检测系统的分类器,在少量已标记数据的约束下利用模糊C均值方法生成聚类,无需提供大量标记数据,不易陷入局部最优.实验表明,与FCM算法相比具有较高的性能.  相似文献   

9.
半监督学习是一种利用有标记样本和无标记样本进行学习的新的机器学习方法。针对单分类中只有目标类标记样本和大量无标记样本的情况,提出了一种基于半监督学习的单类分类算法。利用已标识的有标记样本建立两个单类分类器,通过相互学习来挖掘未标记样本中的隐含信息,扩大有标记样本的数量。利用所有已标识样本,用不同的单分类方法建立多个单类分类器,通过集成学习的方法得到最终的分类器。在UCI数据集上进行了实验,表明提出的基于半监督学习的单类分类器的有效性。  相似文献   

10.
[目的]针对协同训练算法在视图分割时未考虑噪声影响和两视图分类器对无标记样本标注不一致问题,提出了基于加权主成分分析和改进密度峰值聚类的协同训练算法.[方法]首先引入加权主成分分析对数据进行预处理,通过寻求初始有标记样本中特征和类标记之间的依赖关系求得各特征加权系数,再对加权变换后的数据进行降维并提取高贡献度特征进行视...  相似文献   

11.
半监督学习介于传统监督学习和无监督学习之间,是一种新型机器学习方法,其思想是在标记样本数量很少的情况下,通过在模型训练中引入无标记样本来避免传统监督学习在训练样本不足(学习不充分)时出现性能(或模型)退化的问题.半监督学习已在许多领域被成功应用.回顾了半监督学习的发展历程和主要理论,并介绍了半监督学习研究的最新进展,最后结合应用实例分析了半监督学习在解决实际问题中的重要作用.  相似文献   

12.
针对影像分类中少量标记样本问题,提出了基于模糊粗糙集的影像半监督分类算法.首先,通过模糊粗糙集对数据的粗糙性与模糊性进行建模,采用归一化的模糊互信息来度量特征与类别信息的相关性,并利用模糊上下近似度量样本的类别隶属度;然后,结合归一化的模糊互信息改进正则化框架下的特征评价方法,在谱图分析的半监督特征选择框架下实现特征优选;其次,结合近邻约束提高模糊上下近似预测样本类别的准确性,设计基于模糊粗糙集的约束自学习,选择信息量大的未标记样本更新训练样本集;最后,利用新的样本集训练分类器,完成影像分类任务.多组实验表明所提算法能够在少量标记样本的条件下有效提高影像的分类精度.  相似文献   

13.
基于机器学习的网络异常检测方法是入侵检测领域的重要研究内容.传统的机器学习方法需要大量的已标记样本对分类器进行训练,然而已标记样本通常较难获取,导致分类器训练困难;此外单分类器训练面临难以消除的分类偏向性和检测孔洞.针对上述问题,本文提出了一种基于多分类器协同训练的异常检测方法MCAD,该方法利用少量的已标记样本和大量的未标记样本对多个分类器进行协同训练,以减少分类的偏向性和检测孔洞.对比实验采用经典的网络异常检测数据集KDD CUP99对MCAD的异常检测性能进行验证。实验结果表明,MCAD有效地降低了检测器训练代价,提高了网络异常检测性能.  相似文献   

14.
网页分类需要使用标记网页对分类算法进行训练,然而,对网页进行标记的过程既费时又费力.随着web的快速发展,获得未标记网页已经变得相对容易.为了有效地利用未标记网页来提高网页分类的性能,提出了一种基于集成学习的网页分类算法,迭代运行支持向量机、中心分类器和朴素贝叶斯分类器,并对各分类器的预测进行集成,不断地从未标记集中对网页进行标记后用于训练.实验结果表明.提出的算法有效地提高了网页分类的性能.  相似文献   

15.
PU学习是指从正例样本和无标记样本中训练分类器的一种学习方法.针对传统PU学习中所含初始正例过少,难以有效地从无标记样本中选出可靠负例,且分类过程易受噪声点影响等问题.本文提出了一种基于数据模糊性来提取无标记样本中有效信息的PU学习方法:先对正例无标记样本集进行半监督聚类,选出靠近正例样本的低模糊度数据来扩充初始正例集,并选择远离正例样本的低模糊度数据作为可靠负例;再剪辑掉无标记样本中高模糊度数据;最后在扩充后的正例样本集和可靠负例集上训练分类器,对初始无标记样本集进行分类.在标准数据集上的对比实验证实了提出算法的有效性.  相似文献   

16.
刘美春 《科学技术与工程》2013,13(19):5508-5512
针对如何提高有标签样本不足时的分类精度问题。提出脑-机接口系统(BCI)的类协同半监督学习算法(LCTSSL),采用有监督和无监督两种算法提取双特征训练双分类器协同扩充有标签样本集。在训练前后阶段设置不同置信度度量,选择两分类器分类结果一样的高置信度样本进行标记,保持每类每次新标记样本数目一样,提高有标样本集的可信度及识别系统的鲁棒性。迭代更新两分类器、有监督提取系统及相应特征,充分利用新标签信息。最后利用BCI竞赛2005的数据I证明LCTSSL算法的有效性。  相似文献   

17.
随着进入大数据时代,"标记数据少,而未标记数据多"的现象越来越普遍.半监督学习是充分利用样本中"廉价"的未标记样本,让学习器不依赖外界交互、自动地利用未标记样本提升学习性能.通过构建多模态概率生成模型对数据进行建模,然后分析该模型上的监督学习过程和非监督学习过程,最后结合两种学习过程实现半监督学习.通过在MNIST数据...  相似文献   

18.
提出了充分利用未标注样本的样本信息的双语对抗学习方法。具体而言,中文的标注样本和未标注样本分别通过不同的LSTM进行编码,再经过分类器和判别器进行对抗学习。其中,分类器的作用是使标注样本和未标注样本处于同一分布,而判别器用来区分输入样本是标注样本还是未标注样本。最后,构建一个相同的英文语料的对抗神经网络,通过联合学习中英文对抗神经网络提升半监督情感分类的性能。实验结果表明,所提出的基于双语对抗学习的半监督情感分类方法在不同标注样本数量的训练集上都取得了较好的准确率,与其他基准方法相比有明显提升。  相似文献   

19.
20.
为了提高半监督分类的有效性,提出一种基于交叉验证思想的半监督分类方法(CV-S3VM)。通过对未标记样本进行伪标记,将伪标记后的样本加入到标记样本集中,参与交叉验证,选取能使SVM分类器误差最小的标记作为最终的标记,实现对未标记样本进行标记。依次挖掘未标记样本的隐含信息,增加标记样本的数目。使用UCI数据集模拟半监督分类实验环境,结果表明CV-S3VM具有较高的分类率,在标记样本较少的情况下效果更为明显。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号