首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 453 毫秒
1.
多示例多标记学习在多语义对象处理中克服了多示例学习和多标记学习的缺点,成功应用于文本分类、图像识别标注、基因数据分析等任务中.其中基于退化策略的多示例多标记学习算法,多利用K-Medoids聚类将多示例多标记退化成单示例多标记,但此种退化方式过于简化多语义和复杂语义的对象,并未考虑示例间的相关性,导致退化过程中的信息削弱甚至丢失.针对这一问题,提出了结合均值漂移的多示例多标记学习改进算法(MultiInstance Multi-Label with Mean Shift,MIMLMS),将高斯核函数和权值加入均值漂移中.权值的加入保证了示例之间的相关性得以保留,而将多示例集合加入高斯核函数就可利用核密度估计和梯度下降法求解退化过程最优解,最终以误差平方和为分类目标函数,建立多示例多标记分类模型.算法在基准的多示例多标记测试数据集中的实验结果,验证了算法的良好分类效果及算法的有效性和可靠性.  相似文献   

2.
通过详细分析多示例主动学习的特点,提出将多示例主动学习概括为包层、示例层以及混合层次主动学习三种模式;针对包层主动学习,将示例数目统计特征作为重要度量并与样本不确定性相结合,提出一种新的样本选择策略.在Corel数据集上进行实验,与传统的主动学习方法比较表明,该算法能够有效减少学习的样本数,显著提高学习器的效率和性能.  相似文献   

3.
针对传统转换多标记学习算法较难确定最低阈值的问题,该文对传统转换策略的多标记学习算法进行改进,提出了一种基于最低阈值的学习算法(TFEL),该方法根据类别标记学习为每个类别得到一个最低阈值.当分类器将一个测试示例预测为某个类别标记的分值大于为该类别标记学得的最低阈值时,则将该类别标记添加到该测试示例的最终分类结果中.实验结果表明, TFEL方法能够得到较好的分类效果,证明了该方法的可行性和有效性.  相似文献   

4.
传统多标记学习方法通常只考虑和示例相关联的单个特征向量以及无差别地预测全体标签,从而忽视了与示例相似的其他示例及隐含的标签属性,造成输入空间特征信息较少、标签属性被忽略和对大标记空间预测效果差等问题.为解决以上问题,文章转化传统多标记学习任务为多标记学习的序列到序列任务,并由此提出新的多标记学习标签生成神经网络模型(Fea2Lab模型):通过交错的顺序排列示例和相似示例形成链式特征向量序列,来增加输入空间特征信息;通过挖掘标签属性来有差别地预测标签;通过在解码流程中使用全局标签信息,来缓解预测过程中出现的错误标签级联问题.在多个数据集上的实验结果和消融实验表明转化任务和Fea2Lab模型的合理性、可行性及有效性.  相似文献   

5.
潘强  张钢  王春茹 《科学技术与工程》2012,12(30):7931-7936
提出了一种考虑包中样本在概念空间中重要度的多示例核学习方法。引入了包中示例对整个样本空间所包含概念的权重向量。通过数量化的手段表示出每个示例从属于每个概念的重要程度。主要步骤如下:a)通过对所有示例进行聚类,得到能够反映多示例包中所含概念的簇;b)借用文本分类中的r-pattern计算得到每个示例对于概念空间中每个概念的权重向量;c)在多示例核中通过余弦相似度结合示例的权重,得到更能反映概念空间特性的多示例概念核。该方法同时考虑了包层次的概念和示例层次的权重,能够有效度量包中示例对于最终包标记的影响,且本身建立在多示例核的基础上,适用于多种多示例学习的场合。在标准数据集和图像数据集上的实验表明,该算法是有效的。  相似文献   

6.
一种基于多学习器标记的半监督SVM学习方法   总被引:2,自引:0,他引:2  
传统的支撑向量机是一种有监督学习方法,为了提高其泛化能力,提出了一种新的基于多学习器标记的半监督SVM学习方法。该方法将训练集分为有标记样本和无标记样本两个集合,通过对无标记样本进行分别标记,不断修正有标记样本集规模,从而提高SVM的泛化性能。在中文电子邮件过滤数据集上的实验结果证明了该方法的可行性和有效性。  相似文献   

7.
将基于多示例学习的相关反馈技术应用到遥感图像检索中.为了避免局部最小值和减少冗余计算量,对传统的多示例学习算法--多样密度算法进行了改进.改进的算法利用用户标注的样本学习得到的查询概念,指导下一轮检索.为了提高查准率,综合学习得到的查询概念,提出了查询概念集来取代查询概念.实验结果表明,该算法比传统方法具有更好的检索性能.  相似文献   

8.
提出了一种基于决策树C4.5的多示例学习算法C4.5-MI,通过拓展C4.5的熵函数和信息增益比来适应多示例学习框架.应用梯度提升方法对C4.5-MI算法进行优化,得到效果更优的GDBT-MI算法.与同类决策树算法在benchmark数据集上进行比较,结果表明,C4.5-MI和GDBT-MI算法具有更好的多示例分类效果.  相似文献   

9.
多标记学习研究的是一个对象同时具有多个标记的一类复杂问题.文本标注、视频内容标注、图像识别和蛋白质功能的发现等都属于这类任务.与单标记学习问题一样,多标记学习也遭遇到了数据维数大的挑战.针对多标记数据,目前已经设计出一些约简算法,但与单标记约简算法相比,方法数量有限且局限性大.随着大数据时代的到来,收集大量样本越来越容易,但标注收集到的全部样本不切实际.这给想要通过利用粗糙集模型来解决多标记学习问题的研究人员带来了三个挑战:数据维数更高、现有粗糙集的局限性和部分标记决策表的出现.为了解决这三个挑战,提出了面向多标记学习的局部粗糙集模型,并获得了一些有意思的性质.最后,通过利用局部粗糙集模型,设计了一个多标记的启发式约简算法,并在三个公开的多标记数据集上验证了算法的有效性.  相似文献   

10.
现有的多标记降维算法常通过学习标记相关性构建样本间的相似关系,进而提高学习系统的性能.然而,在实际应用中,样本的标记信息可能存在噪声,且部分标记信息可能缺失,因此由样本的标记信息学得的标记相关性可能不准确,无法有效挖掘样本间的相似关系.为了解决该问题,从样本的特征空间与标记空间两个方面构建样本间的相似关系.在利用标记空间学习标记相关性的同时,通过引入特征空间中的概率超图模型,提出一种嵌入样本流形结构与标记相关性的多标记降维算法.在十个多标记数据集和六种评价准则上的实验结果证明了所提算法的有效性.  相似文献   

11.
针对已有神经网络方法采用示例决定标记从而导致多示例学习(MIL)中包结构信息丢失的问题,提出了一种新的RK_BP多示例学习方法.在示例空间,首先采用粗糙集对其进行属性约简;然后进行K均值聚类,利用聚类点构造新包空间;在新空间中,利用误差反向传播神经网络算法进行分类.在多个测试数据集上对算法进行测试,结果表明该算法可有效解决已有神经网络方法包结构信息丢失问题,明显提高分类性能.  相似文献   

12.
为了提高图像分类的准确度,提出基于最小Hausdorff距离的多示例多标记K近邻图像分类方法。该方法通过改善图像包的生成方法,均匀分割并提取图像的颜色和纹理特征,使用最小Hausdorff距离作为包间的距离度量,对多示例多标记K近邻算法进行改进。实验结果表明,该方法提高了分类准确度,减少了运行时间。  相似文献   

13.
传统的机器学习主要解决单标记学习,即一个样本仅有一个标记.在生物信息学中,一个基因通常至少具有一个功能,即至少具有一个标记,与传统学习方法相比,多标记学习能更有效地识别生物相关基因组的功能.目前的研究主要集中在监督多标记学习算法.然而,研究半监督多标记学习算法,从已标记和未标记的基因表达数据中学习,仍然是未解决问题.提出一种有效的基因功能分析的半监督多标记学习算法SML_SVM首先,SML_SVM根据PT4方法,将半监督多标记学习问题转化为半监督单标记学习问题,然后根据最大后验概率原则(MAP)和K近邻方法估计未标记样本的标记,最后,用SVM求解单标记学习问题.在yeast基因数据和genbase蛋白质数据上的实验表明,SML_SVM性能比基于PT4方法的MLSVM和自训练MLSVM更优.  相似文献   

14.
在多标记学习中,特征空间的高维性是多标记学习研究的主要问题。文章通过聚类构建由代表性样本组成新多标记数据,定义了多标记决策系统中样本的分类间隔及样本的差异性概念,在此基础上定义了特征权重,提出一种基于样本差异性的多标记特征选择算法,并用4个指标对4个多标记数据集进行实验评价,对比一些当前流行的特征选择算法,验证了本文所提算法的有效性。  相似文献   

15.
多示例学习中的数据是由包含多个示例的包所组成的,样本之间真实的相似性被正包中大量的假正例所掩盖。为了拟合多示例数据真实的分布情况,提出了一种结合Fisher编码的多示例聚类算法MIFK-means。首先通过Fisher编码在保留数据语义的同时对多示例数据进行归一化降维,然后通过示例层次的K-means聚类算法揭示多示例数据的分布情况。在基准数据集上的实验表明,MIFK-means算法的聚类效果明显好于包层次的多示例K-means聚类算法,分类精度也可以和现有的经典多示例算法相媲美。  相似文献   

16.
在多标记学习中,属性约简是解决多标记数据维数灾难的一个关键技术.针对邻域粗糙集属性约简在计算正域代价较大和多标记数据中标记具有不同的强弱性问题,提出了基于邻域粗糙集的多标记属性约简算法.该算法首先利用样本在整个属性空间下到其异类样本的平均距离与到其同类样本的平均距离的差值对标记进行加权;其次,利用取整函数对样本空间进行划分,提出了一种新的多标记邻域粗糙集快速计算正域的方法;最后,根据前向贪心搜索算法进行属性约简,以获得一组新的属性排序.实验给出了5个多标记数据集在4个评价准则上的对比结果,实验结果分析表明了所提算法的有效性.  相似文献   

17.
基于图结构的多示例学习可用于解决挖掘包中示例间相关性问题.然而,现有的方法大多随机选择包中示例构建图结构,忽略了包中具有代表性示例对图结构的影响;同时都是间接在包图结构上建立分类器,造成了模型运行效率低下的问题.针对上述问题,提出了一种基于聚类的图卷积多示例学习算法MIL-GCC,首先通过聚类方法获取每个包中的超示例,...  相似文献   

18.
在二叉树结构支持向量机(SVM)多分类算法的基础上,针对二叉树算法中点和叶盲目划分的问题,提出了一种新的二叉树SVM多分类算法.该算法通过标记划分的方法,一方面解决了盲目划分的问题,另一方面大大减少了子分类器的数目,大幅度提高了算法的速度.实验结果表明,该算法具有一定的优越性.  相似文献   

19.
在机器学习中,偏标记学习是一类重要的弱监督学习框架;在该框架中训练示例不再具有单一明确的标记,每个训练示例的真实标记被隐藏在一个候选标记集中并且在学习过程中不可获知。为了解决从训练示例的候选标记集中学习真实标记的问题,基于最大间隔准则提出了一种新的偏标记学习算法;该算法是通过优化模型在候选标记集中最大输出与非候选标记集中最大输出之间的间隔,以及优化模型在候选标记集中最大输出与候选标记集中其他输出之间的间隔进行偏标记学习。采用改进的次梯度Pegasos算法完成模型参数的优化学习。在四组人工改造的UCI数据集中,在平均65%的情况下优于其他对比算法。在四组真实偏标记数据集中,相比其他对比算法,取得了4.4%~10.2%的性能提升。实验证明,具有更好的泛化性能。  相似文献   

20.
半监督学习是一种利用有标记样本和无标记样本进行学习的新的机器学习方法。针对单分类中只有目标类标记样本和大量无标记样本的情况,提出了一种基于半监督学习的单类分类算法。利用已标识的有标记样本建立两个单类分类器,通过相互学习来挖掘未标记样本中的隐含信息,扩大有标记样本的数量。利用所有已标识样本,用不同的单分类方法建立多个单类分类器,通过集成学习的方法得到最终的分类器。在UCI数据集上进行了实验,表明提出的基于半监督学习的单类分类器的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号