首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
专家可为社区问答提供权威的答复,高效精准的专家发现有助于提升问答社区的服务质量.现有社区用户数据中存在噪声标签数据,且由于专家数量较少造成分类数据不平衡,从而降低了监督学习模型的专家发现精度.针对上述问题,本文提出一种基于特征扰动的半监督专家发现方法.该方法构建了一种无标签数据特征扰动策略,利用Sharpening算法实现无标签数据的伪标签化;基于ADASYN算法,通过构建专家用户邻近样本的方式扩充专家样本数据量,缓解分类数据的不平衡;构建联合损失函数,利用有标签和伪标签数据共同训练分类器,增强模型的泛化性能.实验结果表明,该方法在多个评价指标上优于已有模型和方法.  相似文献   

2.
针对假币的特征未知以及样本数量不平衡的局限性问题,提出基于半监督辅助分类生成对抗网络的纸币红外特征鉴伪算法.辅助分类生成对抗模型可以扩充样本的数据集,经过半监督的方式训练得到分类器进行分类,实现对纸币红外特征的鉴伪.实验结果表明,该算法能提高假币鉴伪的准确率以及泛化能力.  相似文献   

3.
提出了一种基于LPA和Tri-Training算法的半监督文本倾向性分类框架.通过LPA对初始样本进行快速分类,获得更多可信的有标签数据,优化分类框架的训练过程.引入Tri-Training算法,提高分类框架的泛化能力和可用性.实验结果表明,在不同标注比例的样本集上,该框架都有较好的分类性能,相较有监督学习算法和单一的半监督算法提高了分类精度,并有较强的鲁棒性,为解决有标签样本比例较少情况下的文本倾向性分类提供了一个新的思路.  相似文献   

4.
针对传统的神经网络训练算法收敛速度慢和泛化性能低的缺陷,提出一种新的自适应粒子群优化算法用于神经网络的训练.该算法通过改进自适应搜索策略以提高网络泛化性能,并结合Ionosphere雷达信号分类数据集进行仿真测试.研究结果表明:基于自适应粒子群优化算法训练的神经网络在分类准确率和分类误差上明显优于传统的BP算法,且很好地提高了网络泛化能力和优化效果.  相似文献   

5.
为提高少量样本情况下分类器的性能,提出一种基于多分类器协同的半监督样本选择方法,利用未标注样本实现样本增强,提高分类器泛化能力.依靠多分类器的互相监督和多分类器标签一致的原理,将已标记样本作为训练集,利用SVM和RF两个分类器协同训练,多分类器的类别标签和确定度值作为约束条件,从未标记样本集中筛选出最有代表性的样本构成增强样本集,以准确率为评价标准,验证本算法对分类器泛化性能的影响.本算法在手写数字数据集(Mnist字符库)和Landsat土壤数据集上测试,实验结果表明相比少量原始训练样本构建的分类器,增强样本构建分类器预测的全部类别准确率都得到提升.两个数据集的总体准确率分别提升5.97%和7.02%,Mnist数据集中数字5这类准确率提升最高(提升11.9%,从79.3%到91.2%),Landsat土壤数据集中土壤3这一类准确率提升最明显(提升15.8%,从73.5%到89.3%),结果证明了该算法显著提高了分类器的泛化性能.同时与经典的KNN、Co-training和Co-forest算法对比,所提出的算法能够最大限度地利用未标记样本信息,具有最好的精度表现,证明了该研究提出算法的优越性.  相似文献   

6.
单样本学习的目的是利用一个包含大量训练样本的源类别数据集以及每个类别只包含一个训练样本的目标类别数据集来构建一种学习算法,使得算法能够对目标类别空间中的样本进行准确分类.已有的单样本学习算法主要是先利用源类别数据来训练模型,然后在测试时将目标类别训练数据作为支持集来实现对未标注样本的分类,因此在训练时没有有效地利用支持集的信息.为此提出一种在训练阶段和测试阶段同时利用支持集信息的单样本学习算法,基本思想是利用孪生神经网络构建模型并在训练时加入支持集信息,即让不同类别的支持集样本之间的相似度尽可能小.在Omniglot数据集和满文识别问题上的实验结果表明,该算法能取得较好的识别准确率.  相似文献   

7.
为提高分类准确率, 解决城市区域社会功能标签分类难的问题, 提出了一种基于不确定抽样选择策略的半监督城市土地功能分类方法。该算法从轨迹数据中提取城市区域的特征向量, 只需对少量区域进行标签, 根据不确定抽样的主动学习选择策略, 从未标注训练样本中选取具有较多信息的数据, 利用半监督学习算法进行标注, 得到新的标注训练样本添加到训练集, 反复迭代后得到分类结果。实验结果表明, 该方法对不同社会功能的城市区域分类准确率可达90. 2%, 与传统方法相比分类准确率高, 减少了大量标注工作, 在少数标签数据上仍有较好的分类效果。  相似文献   

8.
弱监督场景下的标签噪声广泛存在于现实世界的数据中,导致分类性能下降。测量误差、主观标签偏差和人为标记错误都是导致噪声标签的主要原因。为降低噪声标签对模型分类性能的影响,该文提出一种噪声标签识别与纠正的置信度预测方法(CPRC)。首先,定义初始可信样本选择策略,筛选优质的可信样本;然后,建立置信度连接关系,设计标签概率预测方法,推断样本标签置信度;最后,迭代搜索最优置信度样本,实现噪声标签识别和纠正。该文选择在Seeds、Penbase等经典数据集上进行广泛实验,实验结果表明,该文算法可以显著提高不同类型基础分类器在不同噪声比下的分类性能,且性能优于目前先进的噪声标签学习算法。  相似文献   

9.
在多源域迁移学习应用中,现有的分类模型大多对数据标签要求较高,难以适应数据集的动态变化和标签缺失情况.针对该问题,提出一种基于动态域定界的循环分类模型CAMDOT(cyclic classification model based on dynamic domain delimitation).首先,引入互信息量化各数据域间的相关性,提高分类模型适应异构用户和数据动态变化的能力.其次,针对数据标签缺失和不平衡问题,提出一种循环分类算法.最后,通过理论与实验分析,验证该模型在多源域数据训练中具有较高的分类准确率.  相似文献   

10.
真实数据集中存在的对抗样本一方面易导致分类器取得较差分类结果,另一方面如果能够被合理利用,分类器的泛化能力将得到显著提高。针对现有大部分分类算法并没有利用对抗样本训练分类模型,提出一种攻击标签信息的对抗分类算法(ACA)。该方法从给定数据集中选取一定比例样本并攻击所选取的样本标签使之成为对抗样本,即将样本标签替换成其他不同类型的标签。利用支持向量机(support vector machine,SVM)训练包含对抗样本的数据集,计算生成的SVM输出误差对于输入样本的一阶梯度信息并嵌入到输入样本特征中以更新输入样本。再次利用SVM训练更新后的样本以生成对抗的SVM(A-SVM)。原理分析与实验结果表明,一阶梯度信息不仅提供了一种分类器输出与输入之间的正相关关系,而且可提高A-SVM的实际分类性能  相似文献   

11.
提出了一种基于伪标签-1D DenseNet-KNN的光伏阵列故障诊断方法,实现在少标签样本下的光伏阵列复合故障开集识别。首先,分析了各种常见单一故障及灰尘覆盖下复合故障的I-V曲线特性。然后,为了克服常规的半监督机器学习算法需手动提取数据特征,采用一种伪标签与1D DenseNet相结合的半监督方法自动提取特征。最后,将对训练数据提取的特征、训练数据预测的标签及测试样本提取的特征输入K最近邻(KNN)算法进行开集复合故障诊断。实验表明,该方法不仅能准确分类各种已知类样本,而且能识别出未知类别故障,并且模型的训练仅需少量标签数据。  相似文献   

12.
基于深度学习的图像识别技术在具体应用前必须先经过大量带标签样本的训练,然而在实际场景中目标域样本可能非常稀缺,小样本图像识别技术应运而生.为了提升小样本场景下的图像识别准确率,本文提出一个通用的两阶段训练模型以融合现行主流方法并增强其表现.首先,针对训练时不同害虫种类背景相似度过高的问题提出融合双注意力机制的特征加强模块;其次,针对小样本情况下预测可能产生的过拟合问题提出基于高斯分布的特征生成模块以提高泛化能力;最后,将三种典型小样本识别方法统一成两阶段训练模型以融入提出的方法.将该思路及改进首次应用于传统害虫分类数据集IP102,识别准确率可以在基准方法上取得2.11%到6.87%的提升.为了进一步验证本文方法的有效性,在小样本领域公开数据集Mini Imagenet也进行了相应的实验,提升效果同样显著.  相似文献   

13.
单实例多标签分类是指一个样本拥有多个标签的分类问题,对此提出了一种基于半模糊核聚类和模糊支持向量机的多标签分类算法.该算法采用一对一分解策略将多类多标签数据集分解为多个两类双标签数据子集,在每个子集上训练两类双标签模糊支持向量机.为提高分类器的性能引入了半模糊核聚类技术.实验结果表明,与现有的一些算法相比新算法具有其优...  相似文献   

14.
针对一般的选择性集成学习算法在选择分类器阶段需要独立设置验证集因而损失了一定的训练数据的缺点,提出了一种新的选择性集成分类算法FPSE,该算法采用一种基于排序的策略,这种策略在选择阶段就存在速度上的优势;其优势在于不必独立设置验证集,而采取一种将个体选择评估融入在原始数据本身的方法.实验验证了FPSE算法在个体评估策略的有效性,以及较好的泛化性能;对比试验说明了该算法的分类预测表现要优于Bagging算法和AdaBoost算法.  相似文献   

15.
针对大量有标签样本的数据驱动模型方法存在数据分布不完备问题,结合实际环境中通信信号样本差异大的特点,提出一种对抗域适应迁移算法.通过类判别器和域判别器对抗训练,使特征提取器能够提取到既具有类差异性又具有域不变性的特征.以无监督学习方式对目标域信号进行分类,以提升调制识别算法在实际环境中拟合存在分布差异数据集的自适应能力.对实际信号样本集中调制方式相近的9类调制信号在不同信噪比条件下进行测试,域适应迁移方法通过对抗训练有标签高信噪比的源域样本和无标签低信噪比的目标域样本,结果发现该算法的平均识别准确率较以往直接训练的平均识别准确率大幅提升.  相似文献   

16.
在一致性正则化与熵最小化的基础上提出一种新的半监督学习算法Mean Mixup,集成数据的互补信息,然后使用熵最小化给未标记数据生成可靠的伪标签,在一致性正则化下进一步优化模型分类结果.在常用数据集SVHN和CIFAR10上对Mean Mixup算法进行了评估,实验结果表明,所提出的方法在分类准确率上优于一些已有的半监...  相似文献   

17.
RAKEL(random k-labelsets)算法是一种集成技术,能有效解决多标签分类问题.它将原始标签集随机选用一小部分标签子集构成的数据集来训练每个分类器,但由于RAKEL算法构造标签空间的随机性,并未充分考察到样本多个标签之间的相关性,从而造成分类精度不高,泛化性能受到一定影响.为此,提出了改进的LC-RAKEL算法.首先,通过标签聚类将原始标签集划分成标签簇,再从每个标签簇中各选择一个标签构成标签集,以此发现标签空间中重要且不频繁的映射关系;然后,利用出现次数较少的标签集合组成新的训练数据,训练相应的分类器.实验证明,改进的算法性能优于其他常用多标签分类算法.  相似文献   

18.
《河南科学》2017,(8):1227-1231
针对不均衡数据集下分类超平面偏移导致直推式支持向量机样本标记准确率低的问题,结合动态代价和TSVM算法,提出一种代价敏感的TSVM算法,该算法依据类样本的空间分布信息计算类错分代价,利用KKT条件选择对当前分类超平面有影响的样本加入下一轮迭代,该算法可以提高初始分类器的分类性能,减少错误的传递和累积,从而提高标注准确率,增强最后分类器的泛化性能.最后在UCI数据集上的实验结果表明该算法在不均衡数据集下的有效性.  相似文献   

19.
PU学习是指从正例样本和无标记样本中训练分类器的一种学习方法.针对传统PU学习中所含初始正例过少,难以有效地从无标记样本中选出可靠负例,且分类过程易受噪声点影响等问题.本文提出了一种基于数据模糊性来提取无标记样本中有效信息的PU学习方法:先对正例无标记样本集进行半监督聚类,选出靠近正例样本的低模糊度数据来扩充初始正例集,并选择远离正例样本的低模糊度数据作为可靠负例;再剪辑掉无标记样本中高模糊度数据;最后在扩充后的正例样本集和可靠负例集上训练分类器,对初始无标记样本集进行分类.在标准数据集上的对比实验证实了提出算法的有效性.  相似文献   

20.
无监督特征选择是无标签高维数据预处理过程中一种有效的数据降维技术,然而大多数无监督特征选择算法忽略了数据样本本身的类簇结构特性,选择具有低判别性信息的特征.基于此,提出一种基于伪标签回归和流形正则化的无监督特征选择算法.具体地,联合伪标签回归和最大化类间散度来保证算法在迭代过程中学习伪标签,同时,自适应学习数据样本之间的局部几何结构,获得更加精准的标签信息和结构信息,进而选择具有高判别性且能保持数据流形结构的特征.在四个公开数据集上的对比实验表明,提出算法的特征选择结果优于现有的一些无监督特征选择算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号