首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
通过选取最有信息量的样本提交专家进行标注,主动学习算法可以有效地减少无效标注样本的工作量.在充分考虑位于分类边界的不确定样本和基于先验分布的具有代表性样本的基础上,本文构造了不确定性与代表性相结合的可控主动学习算法.首先利用样本的kNN分布状况建立不确定性置信度模型,该思路不需要知道样本分布的具体类型和参数计算;然后在样本聚集度模型的基础上进行聚类,在此基础上建立代表性置信度模型.最后将不确定性置信度模型与代表性置信度模型进行综合,构造可控的主动学习策略,使得每次主动学习选择的样本更具有"价值".在UCI机器学习数据库上的仿真实验结果表明本文的思路是合理可行的,在实验所用数据集上,当达到相同的目标正确率时,本文的方法比随机采样算法所需的样本数量少得多.  相似文献   

2.
甘宏 《江西科学》2022,(2):346-350
现有元学习方法的初始模型在训练过程中会偏向于某些任务,从而影响元学习方法的泛化能力。针对以上不足,提出了基于正则化元学习算法(Regularized Meta Learning,REML)用于小样本图像分类。该算法通过在元学习的目标函数中添加正则化项,以阻止元学习的初始模型偏向于部分训练任务,使元学习模型具有更强适应新任务的能力。此外针对元学习过程中涉及二阶求导使得计算量较大的不足,采用一阶导数近似二阶导数,以减小元学习模型训练所需计算量。在mini Image Net、CUB-200和CIFAR-100这3个数据集上进行的实验验证本文算法性能。实验结果表明,提出的算法能够增强元学习的泛化能力,从而提高小样本图像分类的性能,同时减小元学习算法训练参数的计算量。  相似文献   

3.
度量学习是机器学习中的重要研究问题之一,针对实际应用中的噪声数据,如何建立一个鲁棒的度量仍是一个挑战.本文将稀疏表示、特征学习与分类模型相结合提出了一种新的基于鲁棒回归度量学习(RRML)的算法并将其应用于图像分类.算法对最优特征子空间和稀疏表示进行联合学习,在更具判别性的低维表征空间中,通过稀疏表示有效地编码数据的局部结构信息,进而更好地揭示数据的内在鉴别信息,并以此指导该模型学习到最优的投影矩阵;同时对噪声矩阵和投影矩阵的行稀疏约束,可以极大降低噪声的影响.实验结果表明所提算法在图像分类准确率和鲁棒性方面均优于其他对比算法.  相似文献   

4.
SAR图像分类是实现SAR图像理解和解译的关键步骤,本文将显著性检测、主动学习和支持向量机分类技术相结合,提出基于显著性主动学习的SAR图像分类算法.该算法首先将基于卷积和下采样得到不同尺度的SAR图像;然后对各尺度SAR图像进行显著性检测,分为显著性区域与非显著性区域,最后对区域内像素提取特征,并由基于支持向量机的主动学习方法进行分类.实验结果表明:本文提出的方法极大提高了支持向量机分类的精度和效率.  相似文献   

5.
对于多类别的细粒度情感分类任务,目前主流的少样本学习方法不能取得较好的性能。针对这一问题,提出一种基于联合学习的少样本多类别情感分类方法。采用基于替换词检测任务的少样本学习方式,将回归和分类的替换词检测模板以及标签描述词同时添加至输入语句,从而将细粒度情感分类任务同时建模为分类问题和回归问题。在此基础上,设计了不同的融合方法进行联合学习。实验结果表明,与主流少样本学习方法相比,该方法在F1-Score和正确率上都取得更优的结果。  相似文献   

6.
针对单类分类方法中只用正类训练样本导致训练样本数量和质量的选择直接影响分类结果精度的问题,以正类和未标记样本学习(PUL)为例,研究如何利用主动学习选择训练样本,以求改善单类分类的精度。首先用随机选取的训练样本进行PUL分类,直到获得稳定的分类精度,然后利用主动学习选择和增加最有用(informative)的正类或负类样本,用于PUL分类。结果表明,当利用足够多的随机选取的正类样本得到稳定的分类精度后,利用主动学习选择和增加正类样本可以提高分类精度;利用主动学习的同时加入正类和负类样本,可以得到比只加入正类样本更高的分类精度;将利用主动学习得到的正类样本经相似性筛选后得到的正类样本,分类精度与直接利用主动学习选择的样本相似,但达到同样精度时需要更少的样本。因此,利用主动学习选择和增加样本可以有效地改善单类分类的精度。  相似文献   

7.
在机器学习中,偏标记学习是一类重要的弱监督学习框架;在该框架中训练示例不再具有单一明确的标记,每个训练示例的真实标记被隐藏在一个候选标记集中并且在学习过程中不可获知。为了解决从训练示例的候选标记集中学习真实标记的问题,基于最大间隔准则提出了一种新的偏标记学习算法;该算法是通过优化模型在候选标记集中最大输出与非候选标记集中最大输出之间的间隔,以及优化模型在候选标记集中最大输出与候选标记集中其他输出之间的间隔进行偏标记学习。采用改进的次梯度Pegasos算法完成模型参数的优化学习。在四组人工改造的UCI数据集中,在平均65%的情况下优于其他对比算法。在四组真实偏标记数据集中,相比其他对比算法,取得了4.4%~10.2%的性能提升。实验证明,具有更好的泛化性能。  相似文献   

8.
在油气勘探中,利用深度学习技术对岩石进行识别与分类能极大提高工作效率。岩石采样并制作样本图像费时费力,因此岩石样本通常较少。有鉴于此,基于深度学习技术设计一个新的神经网络模型MyNet,该模型能对小样本进行学习并完成岩石样本的分类。使用数据增强技术通过Python编程将314张岩石样本扩充成28 272张图像,为了充分利用现有数据,取其中的27 384张作为训练集,剩余888张作为测试集。将数据分别导入MyNet、ResNet50、Vgg16进行训练和测试。实验结果表明,加载、不加载预训练参数的ResNet50、Vgg16的岩石分类结果因受有无迁移学习影响会有所不同;MyNet的总体分类准确率为75.6%,均优于有无迁移学习的ResNet50、Vgg16,且MyNet、ResNet50、Vgg16所需训练的参数量分别为919 278、25 503 912、138 357 544,显然,MyNet模型的复杂度与训练代价明显低于其他对比模型,但性能最优,说明新模型应用于小样本的岩石分类可行有效且经济安全,更容易推广应用。  相似文献   

9.
基于样本重要性原理的KNN文本分类算法   总被引:1,自引:0,他引:1  
KNN是重要数据挖掘算法之一,具有良好的文本分类性能.传统的KNN方法对所有样本权重看作相同,而忽略了不同样本对于分类贡献的不同.为了解决该个问题,提出了一种样本重要性原理,并在此基础上构造KNN分类器.应用随机游走算法识别类边界点,并计算出每个样本点的边界值,生成每个样本点的重要性得分,将样本重要性与KNN方法融合形成一种新的分类模型——SI-KNN.在中英文文本语料上的实验表明:改进的SI-KNN分类模型相比于传统的KNN方法有一定的提高.  相似文献   

10.
针对传统的多分类模型学习效率较低,对于复杂的多类别数据无法进行高效分类的问题,提出了一种基于支撑向量机(Support Vector Machine,SVM)的主动多分类方法.该方法通过引入就绪分类器和阻塞分类器的概念,将主动学习的策略用于SVM多分类器的构造过程,在主动多分类过程中随着分类器的不断更新,动态地控制样本...  相似文献   

11.
为解决不均衡多分类问题,提出一种特征选择和AdaBoost的集成方法。首先,数据进行预处理。利用WSPSO算法进行特征选择,根据特征重要性选取初始粒子构建初始种群,使得算法初期就可以沿着正确的搜索方向开展,减少不相关特征的影响。其次,利用AdaBoost算法对于样本权重较敏感的特点,增强对小类样本的关注度。并且利用AUCarea作为评价标准,相对于其他评价标准,AUCarea具有可视化的优点且对较差AUC更加敏感。最后,与其他几种不均衡分类算法在不平衡数据集上进行对比,结果证明该算法可有效处理不均衡多分类问题。  相似文献   

12.
主动学习是机器学习领域的重要研究方向.现有主动学习方法通常选择不确定性的或具有代表性的样本供专家打标,然后添加到已标记的数据集中供分类器学习,但没能充分利用数据的分布信息,并且在野点采集问题上有待改进.结合邻域粗糙集理论,提出了一种基于邻域粗糙集的主动学习方法(neighhbor rough set active learn-ing,NRS-AL).实验结果表明,在加州大学数据集(university of CaliforniaIrvine,UCI)上,该算法充分利用了数据的分布信息,同时结合样本的不确定性和代表性计算,处理了野点的选择,是一种能有效解决主动学习样本选择问题的算法,在accuracy,受试者工作特征(receiver operating characteristic curve,ROC)曲线下面的面积(area under curve,AUC)指标上优于文献中的主动学习算法.  相似文献   

13.
随着万维网的快速普及和发展,Web上出现了大量短文本,如科技文献摘要、微博和电子邮件等.短文本内容短小,相互联系,已标注数据获得困难,导致传统分类方法很难取得较高的分类精度.为了解决短文本分类问题,提出了一种基于半监督学习的迭代分类算法(SS-ICA).它使用较少的已标记数据,利用短文本间的关系进行迭代分类.通过与常用分类方法进行对比表明,在标注数据较少的情况下SS-ICA比其他分类器有更高的分类精度.  相似文献   

14.
半监督学习是一种利用有标记样本和无标记样本进行学习的新的机器学习方法。针对单分类中只有目标类标记样本和大量无标记样本的情况,提出了一种基于半监督学习的单类分类算法。利用已标识的有标记样本建立两个单类分类器,通过相互学习来挖掘未标记样本中的隐含信息,扩大有标记样本的数量。利用所有已标识样本,用不同的单分类方法建立多个单类分类器,通过集成学习的方法得到最终的分类器。在UCI数据集上进行了实验,表明提出的基于半监督学习的单类分类器的有效性。  相似文献   

15.
传统的基于稀疏编码的图像分类算法没有考虑不同特征之间的关系。针对这一不足,该文提出了一种新的词典学习算法。该算法考虑特征所处的多个流形空间上的拓扑结构,并显式地对其进行建模,然后将该模型嵌入到稀疏编码算法中构造多流形上的词典优化目标函数。为求解该优化问题,还提出了使用坐标下降的方法,同时给出了收敛性分析。在图像分类3个基准数据集上的实验结果表明,提出的算法分类性能超过了基于传统稀疏编码的算法。这也进一步证明了该算法的有效性。  相似文献   

16.
Internet traffic classification is vital to the areas of network operation and management. Traditional classification methods such as port mapping and payload analysis are becoming increasingly difficult as newly emerged applications (e.g. Peer-to-Peer) using dynamic port numbers, masquerading techniques and encryption to avoid detection. This paper presents a machine learning (ML) based traffic classification scheme, which offers solutions to a variety of network activities and provides a platform of performance evaluation for the classifiers. The impact of dataset size, feature selection, number of application types and ML algorithm selection on classification performance is analyzed and demonstrated by the following experiments: (1) The genetic algorithm based feature selection can dramatically reduce the cost without diminishing classification accuracy. (2) The chosen ML algorithms can achieve high classification accuracy. Particularly, REPTree and C45 outperform the other ML algorithms when computational complexity and accuracy are both taken into account. (3) Larger dataset and fewer application types would result in better classification accuracy. Finally, early detection with only several initial packets is proposed for real-time network activity and it is proved to be feasible according to the preliminary results.  相似文献   

17.
针对主动学习由于初始阶段随机选择样本而导致的抽样偏差,将Sanjoy Dasgupta等人提出的分层聚类采样(Hierarchical sampling,HS)引入到主动学习方法中,替代初始阶段随机样本选择,然后在基于支持向量机分类器的图像算法中引入最优标号和次优标号(Best vs second-best,BvSB)的反馈准则,提出了基于HS和BvSB(HS+BvSB)的多类图像分类方法。分别在两组标准测试数据集上进行分类实验,比较HS+BvSB方法与随机选择样本+BvSB方法的学习性能,结果表明,随着初始选择样本数目的增多,提出的Hs+BvSB方法具有更优的性能。  相似文献   

18.
通过详细分析多示例主动学习的特点,提出将多示例主动学习概括为包层、示例层以及混合层次主动学习三种模式;针对包层主动学习,将示例数目统计特征作为重要度量并与样本不确定性相结合,提出一种新的样本选择策略.在Corel数据集上进行实验,与传统的主动学习方法比较表明,该算法能够有效减少学习的样本数,显著提高学习器的效率和性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号