首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 890 毫秒
1.
基于主动学习SVM分类器的视频分类   总被引:4,自引:0,他引:4  
提出一种基于主动学习SVM分类器的视频分类算法.该算法分为两个步骤:首先分析并提取与视频类型有关的十维底层视觉特征;然后用SVM分类器建立这些底层特征与视频类型之间的联系.在获取SVM分类器所需的训练样本时,采用主动学习的方法选择对SVM分类器最"有用"的样本提供给用户进行标注,用更少的训练样本获得与大量训练样本近似的分类效果,从而减轻用户标注负担.针对多类SVM分类的主动学习问题,提出用后验概率计算分类器对未标注样本的置信度进行样本选择.实验结果表明,主动学习算法与随机采样标注的被动学习算法相比,在相同的训练样本情况下能够获得更高的分类精度;而基于后验概率选择样本的主动学习要略好于传统的基于变型空间(version space)选择样本的主动学习.  相似文献   

2.
针对样本集中的类不平衡性和样本标注代价昂贵问题,提出基于不确定性采样的自训练代价敏感支持向量机.不确定性采样通过支持向量数据描述评价未标注样本的不确定性,对不确定性高的未标注样本进行标注,同时利用自训练方法训练代价敏感支持向量,代价敏感支持向量机利用代价参数和核参数对未标注样本进行预测.实验结果表明:该算法能有效地降低平均期望误分类代价,减少样本集中样本需要标注次数.  相似文献   

3.
针对模糊神经网络分类器设计过程中所遇到的样本采样与标注过程耗时、代价大的问题,提出了一个新颖的模糊神经网络分类器主动学习方法,以最小-最大边界法以及确定样本的不确定性闽值两个新概念为主动样本选择准则,确保选择其中信息量尽可能大的样本进行标注,使得网络设计过程中对未标注样本的标注工作量和时间大为减少.实验结果表明,该方法与模糊神经网络的被动学习模型相比,训练样本数目大为减少,训练时间大大缩短.  相似文献   

4.
图像检索中基于记忆与半监督的主动相关反馈算法   总被引:3,自引:0,他引:3  
为快速提高相关反馈算法的效率,提出一种记忆与半监督相结合的主动相关反馈算法.在检索初期,利用记忆信息获得较多的正训练样本,利用用户已标记样本与数据库内未标记样本有效地解决训练样本不平衡问题,获得准确的初始SVM分类器;在检索后期,利用主动学习算法寻找数据库内对优化学习过程中最有用的样本请求用户标记,减少用户标记的样本量,加快收敛速度.对5000幅Corel图像数据库的实验表明,与传统相关反馈算法相比,新算法能够显著提高学习器的效率和性能,并快速收敛于用户的查询概念.  相似文献   

5.
图像检索中基于标记与未标记样本的主动学习算法   总被引:3,自引:0,他引:3  
为解决监督学习过程中训练样本集过小问题,提出一种未标记样本辅助学习与主动学习相结合的学习方法.基于用户已标记样本与数据库内未标记样本,利用EM算法得到初始朴素贝叶斯分类器与初始假设;主动学习算法寻找数据库内对于优化学习过程最有用的样本请求用户标记;算法根据用户反馈,迭代更新已有查询概念,直至用户满意为止.实验表明,本文算法能够显著提高学习器的效率和性能,并可快速收敛于用户定义的查询概念.  相似文献   

6.
通过选取最有信息量的样本提交专家进行标注,主动学习算法可以有效地减少无效标注样本的工作量.在充分考虑位于分类边界的不确定样本和基于先验分布的具有代表性样本的基础上,本文构造了不确定性与代表性相结合的可控主动学习算法.首先利用样本的kNN分布状况建立不确定性置信度模型,该思路不需要知道样本分布的具体类型和参数计算;然后在样本聚集度模型的基础上进行聚类,在此基础上建立代表性置信度模型.最后将不确定性置信度模型与代表性置信度模型进行综合,构造可控的主动学习策略,使得每次主动学习选择的样本更具有"价值".在UCI机器学习数据库上的仿真实验结果表明本文的思路是合理可行的,在实验所用数据集上,当达到相同的目标正确率时,本文的方法比随机采样算法所需的样本数量少得多.  相似文献   

7.
针对标签传播算法缺乏对新生成样本的评价进而影响分类精度的问题,本文提出一种利用阈值的标签传播算法来提高高光谱图像的分类精度。首先,用基于图像融合和递归滤波的特征提取方法对原始高光谱图像进行处理。然后,给出一个阈值并对标签传播算法新生成样本进行评价,保留一些可信度较高的样本。最后,保留的新样本和已标记样本之和作为训练样本,对图像进行分类。实验表明,基于改进标签传播算法优于其他的高光谱图像分类算法。  相似文献   

8.
针对单类分类方法中只用正类训练样本导致训练样本数量和质量的选择直接影响分类结果精度的问题,以正类和未标记样本学习(PUL)为例,研究如何利用主动学习选择训练样本,以求改善单类分类的精度。首先用随机选取的训练样本进行PUL分类,直到获得稳定的分类精度,然后利用主动学习选择和增加最有用(informative)的正类或负类样本,用于PUL分类。结果表明,当利用足够多的随机选取的正类样本得到稳定的分类精度后,利用主动学习选择和增加正类样本可以提高分类精度;利用主动学习的同时加入正类和负类样本,可以得到比只加入正类样本更高的分类精度;将利用主动学习得到的正类样本经相似性筛选后得到的正类样本,分类精度与直接利用主动学习选择的样本相似,但达到同样精度时需要更少的样本。因此,利用主动学习选择和增加样本可以有效地改善单类分类的精度。  相似文献   

9.
遥感图像中的能量信息反映了地物的电磁散射特性,具有重要的物理意义。而基于边缘特征的方法不能有效地保留能量信息的结构。对基于边缘的算法进行了改进,综合考虑了边缘和能量结构。采用非下采样Contourlet变换(NSCT)对图像进行分解和综合。利用高斯混合模型将低频系数划分为边缘和平滑两部分,对两区域分别采用基于边缘能量和局部能量的融合规则。高频子带使用重要性测度法进行融合。实验结果表明该算法融合效果较基于边缘算法有所改善,是一种有效兼顾细节和能量结构的方法。  相似文献   

10.
多数在线垃圾邮件识别方法未有效区分用户针对不同邮件内容的感兴趣程度,导致垃圾邮件识别精度不高.文中提出了一种基于支持向量机的垃圾邮件在线识别新方法.即结合传统增量学习及主动学习理论,先通过随机选择代表样本寻找分类最不确定的样本进行人工标注;接着引入用户兴趣度的概念,提出了新的样本标注模型和算法性能评价标准;最后结合"轮盘赌"方法将标注后样本加入训练样本集.多种对比实验表明,文中方法针对垃圾邮件识别精度高,样本训练及待标注样本选择速度快,具有较高的在线应用价值.  相似文献   

11.
为提高分类准确率, 解决城市区域社会功能标签分类难的问题, 提出了一种基于不确定抽样选择策略的半监督城市土地功能分类方法。该算法从轨迹数据中提取城市区域的特征向量, 只需对少量区域进行标签, 根据不确定抽样的主动学习选择策略, 从未标注训练样本中选取具有较多信息的数据, 利用半监督学习算法进行标注, 得到新的标注训练样本添加到训练集, 反复迭代后得到分类结果。实验结果表明, 该方法对不同社会功能的城市区域分类准确率可达90. 2%, 与传统方法相比分类准确率高, 减少了大量标注工作, 在少数标签数据上仍有较好的分类效果。  相似文献   

12.
针对主动学习面向大型数据集人工标记成本过高和半监督自训练算法中存在误标记点影响的问题,提出了一种主动学习与半监督自训练交替迭代训练的联合算法.算法在训练过程中奇数轮次采用主动学习算法,偶数轮次采用自训练算法,通过2种算法的交替迭代训练以弥补彼此不足.自训练算法对无标记样本的预测减轻了主动学习标记样本的负担,同时主动学习标记易变成噪声的样本,减轻了自训练算法训练过程中对样本的标记错误.提出了一种基于密度峰值聚类和隶属度的改进主动学习算法:将初始无标记样本聚类成簇,根据隶属度差值在每个簇内选取部分样本做人工标记,获得可表达样本的整体结构的均衡样本.仿真试验表明:提出的联合算法在性能上要优于2种单一算法.对比常见的主动学习算法,改进后的主动学习算法分类性能得到显著提升,将其应用于联合算法中的效果更具优势.   相似文献   

13.
主动学习是机器学习领域的重要研究方向.现有主动学习方法通常选择不确定性的或具有代表性的样本供专家打标,然后添加到已标记的数据集中供分类器学习,但没能充分利用数据的分布信息,并且在野点采集问题上有待改进.结合邻域粗糙集理论,提出了一种基于邻域粗糙集的主动学习方法(neighhbor rough set active learn-ing,NRS-AL).实验结果表明,在加州大学数据集(university of CaliforniaIrvine,UCI)上,该算法充分利用了数据的分布信息,同时结合样本的不确定性和代表性计算,处理了野点的选择,是一种能有效解决主动学习样本选择问题的算法,在accuracy,受试者工作特征(receiver operating characteristic curve,ROC)曲线下面的面积(area under curve,AUC)指标上优于文献中的主动学习算法.  相似文献   

14.
为解决入侵检测训练集(通常包含大量无标记样本和少量已标记样本),在传统半监督支持向量机(S3VM)上确定最优分类决策面,提出一种优化的多分类决策S3VM方法(MLL_S3VM)。该方法结合启发式搜索和聚类方法筛选出差异性较大的分类决策面,采用距离向量法对未标记样本进行标记。实验结果表明,在入侵检测中,该算法明显提高了模型预测精确度。  相似文献   

15.
随着遥感技术的发展,运用烃类微渗漏遥感探测进行直接找油成为油气勘探的发展趋势。国内外众多学者的研究表明,烃类微渗漏会造成岩石、土壤和植被的异常并在遥感影像上得到表现。基于油气烃微渗漏理论,研究了土壤吸附烃、黏土矿物、碳酸盐矿物和二三价铁离子作为识别油气信息的光谱特征,通过对吉木萨尔地区SASI与CASI航空高光谱遥感数据进行处理与分析,使用混合协调匹配滤波(MTMF)方法完成了矿物蚀变填图,提取到研究区烃类微渗漏异常信息,为下一步的野外实地勘探提供了有效资料。  相似文献   

16.
基于海面纹理特征,利用Borda算法进行了航空遥感图像中油膜和非油膜的识别研究。首先,对航空遥感图像进行纹理特征分析和提取:二值化处理并且提取谱相关性、方向粒度和条状粒度的纹理特征值;然后,建立海面油膜数据库,包括原始图像、特征向量,以及图像和纹理特征间的映射表;最后引入Borda算法,根据被测图像的特征来识别其是否含有油膜。实验结果表明,本模型能有效的识别油膜,能为大范围海面溢油检测奠定研究基础。  相似文献   

17.
针对现有道路提取算法中难以大规模人工标注样本类别标签的问题,提出了一种基于自适应标注样本提取遥感影像道路的方法。首先,通过改进的模糊C均值聚类算法提取道路区域,进行初步的样本标注;其次,利用基于二次投票的集成去噪算法定位标签噪声样本,更新样本数据集;再次,将更新后的样本集投入随机森林训练并预测影像的分类结果;最后,对道路提取结果进行多方向形态学滤波去除非道路区域,得到精确的道路提取结果。通过不同分辨率、不同场景、不同方法的实验结果表明,所提方法可以自主选择并标注样本,相比传统算法具有较高的提取精度,对于高分辨率遥感影像中直线型、曲线型道路均有较好的道路提取效果。  相似文献   

18.
在基于深度学习的遥感图像大范围目标检测中,部分地物获取难度较大,训练结果不佳。因此,本文利用形态学建筑物指数与生成式对抗网络进行样本增广,减少因检测样本不足导致的模型过拟合问题。通过提取纹理结构信息相关的形态学建筑物指数,将其与原始样本进行叠加,对建筑物的纹理与空间特征进行强化。同时利用已有样本训练生成式对抗网络以增广部分目标类别,并将其与形态学建筑物指数增强后的样本进行合成,以扩充原始样本集。相比于翻转,裁剪,色调变化的增广策略,使用该方法的检测精度在Yolov5,EfficientDet等模型上的检测精度均有2%-5%的提升。通过实验证明,利用建筑物指数与生成式对抗网络相结合的样本增广方法对于诸如发电站等特殊感兴趣类别的小样本遥感图像目标检测精度具有明显提升效果。  相似文献   

19.
Multiple-Instance Learning (MIL) is used to predict the unlabeled bags' label by learning the labeled positive training bags and negative training bags.Each bag is made up of several unlabeled instances.A bag is labeled positive if at least one of its instances is positive,otherwise negative.Existing multiple-instance learning methods with instance selection ignore the representative degree of the selected instances.For example,if an instance has many similar instances with the same label around it,the instance should be more representative than others.Based on this idea,in this paper,a multiple-instance learning with instance selection via constructive covering algorithm (MilCa) is proposed.In MilCa,we firstly use maximal Hausdorff to select some initial positive instances from positive bags,then use a Constructive Covering Algorithm (CCA) to restructure the structure of the original instances of negative bags.Then an inverse testing process is employed to exclude the false positive instances from positive bags and to select the high representative degree instances ordered by the number of covered instances from training bags.Finally,a similarity measure function is used to convert the training bag into a single sample and CCA is again used to classification for the converted samples.Experimental results on synthetic data and standard benchmark datasets demonstrate that MilCa can decrease the number of the selected instances and it is competitive with the state-of-the-art MIL algorithms.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号