首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
针对已有神经网络方法采用示例决定标记从而导致多示例学习(MIL)中包结构信息丢失的问题,提出了一种新的RK_BP多示例学习方法.在示例空间,首先采用粗糙集对其进行属性约简;然后进行K均值聚类,利用聚类点构造新包空间;在新空间中,利用误差反向传播神经网络算法进行分类.在多个测试数据集上对算法进行测试,结果表明该算法可有效解决已有神经网络方法包结构信息丢失问题,明显提高分类性能.  相似文献   

2.
针对基于对象的图像检索问题,提出一种新的谱聚类多示例学习算法.该算法将图像当作包,将分割区域的视觉特征当作包中的示例,针对正包示例集合进行谱聚类,按聚类中心点数最大原则选择潜在正示例中心和潜在正示例代表,并采用径向基函数和金字塔核分别度量潜在正示例间和其它示例间的相似性,最后利用支持向量机和相关反馈实现图像检索.采用S...  相似文献   

3.
通过详细分析多示例主动学习的特点,提出将多示例主动学习概括为包层、示例层以及混合层次主动学习三种模式;针对包层主动学习,将示例数目统计特征作为重要度量并与样本不确定性相结合,提出一种新的样本选择策略.在Corel数据集上进行实验,与传统的主动学习方法比较表明,该算法能够有效减少学习的样本数,显著提高学习器的效率和性能.  相似文献   

4.
Domain-based protein-protein interactions( PPIs) is a problem that has drawn the attentions of many researchers in recent years and it has been studied using lots of computational approaches from many different perspectives. Existing domain-based methods to predict PPIs typically infer domain interactions from known interacting sets of proteins. However,these methods are costly and complex to implement. In this paper, a simple and effective prediction model is proposed. In this model,an improved multiinstance learning( MIL) algorithm( MilCaA) is designed that doesn't need to take the domain interactions into consideration to construct MIL bags. Then, the pseudo-amino acid composition( PseAAC) transformation method is used to encode the instances in a multi-instance bag and the principal components analysis( PCA) is also used to reduce the feature dimension. Finally, several traditional machine learning and MIL methods are used to verify the proposed model. Experimental results demonstrate that MilCaA performs better than state-of-the-art techniques including the traditional machine learning methods which are widely used in PPIs prediction.  相似文献   

5.
针对基于检测目标跟踪中的特征描述子Haar-like表征能力不强和易引入错误训练样本导致目标漂移的问题,提出了一种利用分布域描述算子进行示例层级的在线判别特征选择跟踪算法.首先,用软直方图方法快速近似得到分布域特征,并利用此描述算子取代Haar-like特征有效表示目标的外观信息.然后,基于示例级样本的先验信息进行有监督学习,利用在线判别特征选择算法选择最佳的分布域层特征以减少漂移现象发生.实验利用多场景视频标准测试库及新的评价指标进行验证,结果表明本文算法性能优于对比算法.  相似文献   

6.
针对网络流量协议标注比较困难的问题,提出一种基于贝叶斯网络的半监督学习模型,以提高Inter-net协议的识别精度.该模型首先使用少量的标注样本训练贝叶斯网络分类模型,并对未标注样本进行初始分类,然后从未标注样本中挑选分类损失最小的样本加入到训练集中并重复训练分类模型,经过多次循环训练出最终的分类器.该模型可以使用未标注样本和标注样本共同训练分类模型,非常适合于标注比较困难的Internet应用协议的识别.实验结果表明:在标注样本较少的情况下,该模型的识别精度和稳定性均优于朴素贝叶斯模型和贝叶斯网络模型,对于提高Internet协议的识别精度是有效的.  相似文献   

7.
一种新的基于多示例学习的场景分类方法   总被引:1,自引:0,他引:1  
多示例学习是近年来才出现的一种新的学习框架,并以其对多义性对象的出色表示能力而被成功地运用在图像分类任务中。首先提出了一种新的图像多示例包生成方式,采用特征的概率分布表示图像,并对图像像素分布提取一个高斯混合模型,将每个高斯分布作为一个示例,生成图像的多示例包。然后,在对图像进行分类时,采用了信息瓶颈聚类把多示例包转化成单示例,从而将传统的单示例分类器用在该问题上。为了提高分类器的泛化能力,对多个分类器进行了集成。选取了5类自然场景图像进行试验,结果显示所提出的方法平均性能优于当前常用的一些多示例学习算法。  相似文献   

8.
在监督学习实际任务中,特征的高维性、标记的动态性和缺失性为监督学习带来严峻的挑战。为解决这些不足,提出流缺失标记环境下的多标记特征选择算法。首先,为解决缺失标记的影响,通过学习标记相关性填补不完整的标记矩阵。其次,利用稀疏学习方法为每个新到达的标记选择类属属性。然后,根据已到达标记的类属属性,通过计算得分选取一个有代表性的特征子集。最后,在11个基准数据集上进行一系列实验表明,所提算法能选择有代表性的特征子集,且分类性能较优。  相似文献   

9.
提出了一种基于非负稀疏表示(nonnegative sparse representation,NSR)的半监督学习标签传播算法.该算法首先构造一个稀疏概率图(sparse probability graph,SPG),其权重由非负稀疏表示算法计算的非负系数组成,自然地反映了各样本之间的聚类关系,避免了传统半监督学习算法中的邻居选择和参数设置过程;然后通过对未标记样本的标签进行迭代繁殖至收敛而获得所有样本的标签.在人脸识别、物体识别、UCI机器学习和TDT文本数据集上的实验结果表明采用非负稀疏表示的标签传播算法比典型的标签繁殖算法具有更好的分类准确率.  相似文献   

10.
多标签分类中如何有效处理具有许多实例和大量标签的大规模数据集、补偿训练集中缺失标签以及利用未标记实例改进预测性能等问题已成为重要研究方向。提出嵌入式多标签分类(EMC)算法,首先从伪实例参数化的高斯过程(GP)中提取两组随机变换来模拟特征向量、潜在空间表示向量和标签向量之间的非线性关系映射,其次引入一组辅助变量结合专家集成(EEOE)方法补偿缺失标签,最后利用未标记实例学习随机函数的平滑映射提高预测性能。仿真结果表明,与特征识别隐式标签空间编码的多标签分类(FaLE)算法和半监督低秩映射多标签分类(SLRM)算法相比,EMC算法优化了处理大规模数据集、补偿缺失标签及利用未标记数据的能力,从而提高了类标签的预测性能,且具有良好的可扩展性,训练时间短。  相似文献   

11.
针对单类分类方法中只用正类训练样本导致训练样本数量和质量的选择直接影响分类结果精度的问题, 以正类和未标记样本学习(PUL)为例, 研究如何利用主动学习选择训练样本, 以求改善单类分类的精度。首先用随机选取的训练样本进行PUL分类, 直到获得稳定的分类精度, 然后利用主动学习选择和增加最有用(informative)的正类或负类样本, 用于PUL分类。结果表明, 当利用足够多的随机选取的正类样本得到稳定的分类精度后, 利用主动学习选择和增加正类样本可以提高分类精度; 利用主动学习的同时加入正类和负类样本, 可以得到比只加入正类样本更高的分类精度; 将利用主动学习得到的正类样本经相似性筛选后得到的正类样本, 分类精度与直接利用主动学习选择的样本相似, 但达到同样精度时需要更少的样本。因此, 利用主动学习选择和增加样本可以有效地改善单类分类的精度。  相似文献   

12.
通过选取最有信息量的样本提交专家进行标注,主动学习算法可以有效地减少无效标注样本的工作量.在充分考虑位于分类边界的不确定样本和基于先验分布的具有代表性样本的基础上,本文构造了不确定性与代表性相结合的可控主动学习算法.首先利用样本的kNN分布状况建立不确定性置信度模型,该思路不需要知道样本分布的具体类型和参数计算;然后在样本聚集度模型的基础上进行聚类,在此基础上建立代表性置信度模型.最后将不确定性置信度模型与代表性置信度模型进行综合,构造可控的主动学习策略,使得每次主动学习选择的样本更具有"价值".在UCI机器学习数据库上的仿真实验结果表明本文的思路是合理可行的,在实验所用数据集上,当达到相同的目标正确率时,本文的方法比随机采样算法所需的样本数量少得多.  相似文献   

13.
针对主动学习面向大型数据集人工标记成本过高和半监督自训练算法中存在误标记点影响的问题,提出了一种主动学习与半监督自训练交替迭代训练的联合算法.算法在训练过程中奇数轮次采用主动学习算法,偶数轮次采用自训练算法,通过2种算法的交替迭代训练以弥补彼此不足.自训练算法对无标记样本的预测减轻了主动学习标记样本的负担,同时主动学习标记易变成噪声的样本,减轻了自训练算法训练过程中对样本的标记错误.提出了一种基于密度峰值聚类和隶属度的改进主动学习算法:将初始无标记样本聚类成簇,根据隶属度差值在每个簇内选取部分样本做人工标记,获得可表达样本的整体结构的均衡样本.仿真试验表明:提出的联合算法在性能上要优于2种单一算法.对比常见的主动学习算法,改进后的主动学习算法分类性能得到显著提升,将其应用于联合算法中的效果更具优势.   相似文献   

14.
主动学习时向专家查询得到的标注如果带有噪声,将会影响学习的性能.为减少噪声,人们提出了基于“少数服从多数”的多专家主动学习算法,但该算法的缺点是代价往往太高.文章采用了一种自我训练(self-training)方法,对某些平均置信度高的样本,直接确定其分类标注,不必向专家查询,以节省学习代价.同时,使用置信度差异作为度量标准,选取那些最不确定的样本向专家查询,提高了学习效率.在UCI数据集上验证了本文算法的有效性.  相似文献   

15.
主动学习是机器学习领域的重要研究方向.现有主动学习方法通常选择不确定性的或具有代表性的样本供专家打标,然后添加到已标记的数据集中供分类器学习,但没能充分利用数据的分布信息,并且在野点采集问题上有待改进.结合邻域粗糙集理论,提出了一种基于邻域粗糙集的主动学习方法(neighhbor rough set active learn-ing,NRS-AL).实验结果表明,在加州大学数据集(university of CaliforniaIrvine,UCI)上,该算法充分利用了数据的分布信息,同时结合样本的不确定性和代表性计算,处理了野点的选择,是一种能有效解决主动学习样本选择问题的算法,在accuracy,受试者工作特征(receiver operating characteristic curve,ROC)曲线下面的面积(area under curve,AUC)指标上优于文献中的主动学习算法.  相似文献   

16.
油气管道在储运过程中,沿线区域地物变化对其安全具有较大影响,特别是道路的修建、沟壑的挖掘、滑坡等。由于油气管道分布范围广、周边环境复杂,传统的人工巡检方式存在一定的局限性,因此研究了基于卫星遥感的油气管道沿线地物变化检测。在综合考虑空间信息和算法自动化程度的基础上提出一种改进的基于多特征融合和主动学习的油气管道沿线地物变化检测算法。首先利用基于自适应阈值算法选择初始训练样本,然后利用梯度提升树、k近邻和极限随机树集成结构进行未标记样本的类别判定,并基于边缘采样的主动学习算法进行未标注样本增选。在样本增选过程中为了减少噪声对训练样本的影响并且减少冗余信息,通过两方面对增选样本进行优化,首先通过分割对象约束分类器集成变化检测结果,提高增选样本的准确性,然后利用边缘采样方法选择信息量较大的未标记样本进行标注。通过两景融合后的资源三号(ZY-3)影像进行实验,结果表明该算法可以有效检测地物变化情况,并且在提高变化检测结果精度的同时,可以有效减少训练样本的标注成本。  相似文献   

17.
为提高分类准确率, 解决城市区域社会功能标签分类难的问题, 提出了一种基于不确定抽样选择策略的半监督城市土地功能分类方法。该算法从轨迹数据中提取城市区域的特征向量, 只需对少量区域进行标签, 根据不确定抽样的主动学习选择策略, 从未标注训练样本中选取具有较多信息的数据, 利用半监督学习算法进行标注, 得到新的标注训练样本添加到训练集, 反复迭代后得到分类结果。实验结果表明, 该方法对不同社会功能的城市区域分类准确率可达90. 2%, 与传统方法相比分类准确率高, 减少了大量标注工作, 在少数标签数据上仍有较好的分类效果。  相似文献   

18.
对用方向向量标识示例的学习问题,以预测方向与实际方向之间的方向误差最小化为目标,提出了一种可用于方向预测的集成学习算法,详细分析了构造多个预测函数以及组合各个预测函数以实现方向的最优化预测方法. 提出的算法具有广泛的应用特性:当用不同的轴向来标识类别时,可简化得到多分类连续AdaBoost算法,其能确保训练错误率随分类器个数增加而降低;用错分代价组成的向量来标识示例时,可简化得到一种平均错分代价最小化的集成学习算法. 理论分析和实验结果均表明了算法的合理性和有效性.  相似文献   

19.
汪云云  桂旭  郑潍雯  薛晖 《广西科学》2022,29(4):660-667
域适应(Domain Adaptation,DA)学习旨在利用标签丰富的源域来帮助标签稀缺的目标域学习。DA方法通常假设源域数据已正确标记,然而现实中通常很难收集到大量带有干净标签的源实例,带有噪声源标签的噪声DA学习可能会降低目标学习性能。为此,本文提出基于自适应标签噪声校正的鲁棒DA学习方法(Robust DA Method through Adaptive Noise Correction,RoDAC)。RoDAC包含两个学习阶段,即自适应噪声标签检测(Adaptive Noise Label Detection,ANLD)和自适应噪声标签校正(Adaptive Noise Label Correction,ANLC)。在ANLD中,使用自适应噪声检测器识别带有噪声标签的源实例,并进一步在ANLC中自适应地校正噪声标签,将其重新投入域适应学习中。与基准数据集进行比较,结果表明RoDAC方法在源域标签存在噪声的域适应场景中取得了显著的性能提升。该学习策略可集成至许多现有的DA方法中,以提升其在噪声标签场景下的学习性能。  相似文献   

20.
传统多标记学习方法通常只考虑和示例相关联的单个特征向量以及无差别地预测全体标签,从而忽视了与示例相似的其他示例及隐含的标签属性,造成输入空间特征信息较少、标签属性被忽略和对大标记空间预测效果差等问题.为解决以上问题,文章转化传统多标记学习任务为多标记学习的序列到序列任务,并由此提出新的多标记学习标签生成神经网络模型(Fea2Lab模型):通过交错的顺序排列示例和相似示例形成链式特征向量序列,来增加输入空间特征信息;通过挖掘标签属性来有差别地预测标签;通过在解码流程中使用全局标签信息,来缓解预测过程中出现的错误标签级联问题.在多个数据集上的实验结果和消融实验表明转化任务和Fea2Lab模型的合理性、可行性及有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号