首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 578 毫秒
1.
基于样本的社会关系, 提出一种新的半监督学习方法, 创建一种基于文档?词及社会关系的二部图模型, 并根据标签传播算法将未标注样本加入到分类器的构建中。实验结果表明, 加入社会关系网络的半监督情感分类方法明显优于传统的仅利用评论文本信息的半监督情感分类方法。  相似文献   

2.
针对大规模网络视频数据的学习需要考虑无标签数据和异构信息的问题,提出了一种基于视觉和文本异构信息的网络视频在线半监督学习方法.该方法将文本和视觉看作2个视图,采用图作为基分类器对每个视图进行建模,并利用线性邻域的传播算法来预测样本类别.在不同视图之间采用多图上的协同训练,利用未标记样本增量地更新基分类器,并根据类别相关的融合方法确定最终结果,从而提高了分类准确率.实验结果表明,该方法的结果优于支持向量机方法约8.3%,在线增量更新后,学习器的性能提高了约3%,因此比较适合于大规模视频数据的在线半监督学习.  相似文献   

3.
提出了充分利用未标注样本的样本信息的双语对抗学习方法。具体而言,中文的标注样本和未标注样本分别通过不同的LSTM进行编码,再经过分类器和判别器进行对抗学习。其中,分类器的作用是使标注样本和未标注样本处于同一分布,而判别器用来区分输入样本是标注样本还是未标注样本。最后,构建一个相同的英文语料的对抗神经网络,通过联合学习中英文对抗神经网络提升半监督情感分类的性能。实验结果表明,所提出的基于双语对抗学习的半监督情感分类方法在不同标注样本数量的训练集上都取得了较好的准确率,与其他基准方法相比有明显提升。  相似文献   

4.
针对网络流量协议标注比较困难的问题,提出一种基于贝叶斯网络的半监督学习模型,以提高Inter-net协议的识别精度.该模型首先使用少量的标注样本训练贝叶斯网络分类模型,并对未标注样本进行初始分类,然后从未标注样本中挑选分类损失最小的样本加入到训练集中并重复训练分类模型,经过多次循环训练出最终的分类器.该模型可以使用未标注样本和标注样本共同训练分类模型,非常适合于标注比较困难的Internet应用协议的识别.实验结果表明:在标注样本较少的情况下,该模型的识别精度和稳定性均优于朴素贝叶斯模型和贝叶斯网络模型,对于提高Internet协议的识别精度是有效的.  相似文献   

5.
分别利用用户名和微博文本对个人与非个人两种用户类型进行判别,并对不同的特征(例如:字特征、词特征等)进行研究分析;其次,在针对用户名和微博文本的两个分类器的基础上,使用贝叶斯融合方法进行分类器融合,充分利用两种文本分类信息同时进行用户类型判断。实验结果表明此方法可以达到较高的识别准确率,并且分类器融合方法明显优于仅利用用户名或者微博文本的分类方法。  相似文献   

6.
读者情绪分类具体是指针对某个文本推测读者可能产生的情绪。针对该新问题,目前遇到的主要挑战是标注语料库的匮乏问题。文章提出了一种基于主动学习的读者情绪分类方法,即在已有少量标注样本的基础上,利用主动学习方法挑选优质样本,使得使用尽量少的标注代价获得较好的分类性能。考虑到新闻读者情绪分类可以同时使用新闻文本和评论文本的特殊性,提出了分类器融合分类方法,并在主动学习方面提出了结合不确定性与新闻评论信息量的挑选策略。实验表明,分类器融合方法能够获得比仅用新闻文本更好的分类性能。此外,文章提出的主动学习方法能够有效减小标注规模,在同等标注规模下,获得比随机更佳的分类性能。  相似文献   

7.
半监督学习是机器学习近年来的热点研究方向,而协同训练(Co-training)则是半监督学习中的重要范式,它利用双视图训练两个分类器来互相标记样本以扩大训练集,以此借助未标记样本提升学习性能.在实际应用中,视图通常会受到属性退化和噪声的影响而变得不充分(即视图不能提供足够的信息来正确预测样本的标记).在不充分视图下,两个视图上的最优分类器变得不再兼容,一个视图中的分类器标记的样本可能不利于另一个视图学得最优分类器.针对这一问题,提出一种改进的协同训练算法Compatible Co-training,它记录学习过程中每个未标记样本被赋予的标记,通过比较更新后的分类器对样本预测的标记与其初始标记,动态地删除标记不一致的样本,从而除去不利于学得最优分类器的样本.实验结果显示出Compatible Co-training比协同训练具有更好的泛化能力和更快的收敛速度.  相似文献   

8.
大规模和高质量的标注语料是进行监督算法分类器训练的重要前提,而进行大规模的语料标注是一项费时费力的工作,并且针对特定的领域还需要该领域专家的介入.提出一种基于语义模式的半监督中文观点句识别方法,可以通过小规模语料的训练识别出中文观点句.首先,通过语义模型提取算法从训练集当中识别出观点句语义模型和非观点句语义模型;然后,将两种模型转化为语义特征,并且加入词汇特征和词性特征两方面特征,通过BootStrapping对小规模标注语料进行训练,得到朴素贝叶斯分类器;接着,使用朴素贝叶斯分类器对大规模未标注的语料进行分类,将可信度高的样本加入训练模型迭代进行训练,直到无样本加入;最后经过多轮迭代得到最终的分类器.实验表明,该方法在只具备少量样本的情况下就可达到83.7%的准确性,证明了该方法的有效性.  相似文献   

9.
为了提高半监督分类性能,提出了一种多分类器协同的半监督分类算法SSC_MCC.算法采用双层结构集成,使用多条件判断挖掘未标记样本信息,扩充有标记样本.第一层中,采用三分类器协同投票一致策略实现对未标记样本进行标记,第二层中采用基于正确分类率的分类器加权投票决策标记未标记样本,扩充有标记样本,用最终生成的有标记样本训练分类器,实现半监督分类.最后,使用UCI数据集模拟半监督实验,结果表明SSC_MCCL较好地提高了半监督分类性能.  相似文献   

10.
半监督学习是一种利用有标记样本和无标记样本进行学习的新的机器学习方法。针对单分类中只有目标类标记样本和大量无标记样本的情况,提出了一种基于半监督学习的单类分类算法。利用已标识的有标记样本建立两个单类分类器,通过相互学习来挖掘未标记样本中的隐含信息,扩大有标记样本的数量。利用所有已标识样本,用不同的单分类方法建立多个单类分类器,通过集成学习的方法得到最终的分类器。在UCI数据集上进行了实验,表明提出的基于半监督学习的单类分类器的有效性。  相似文献   

11.
基于主动学习SVM分类器的视频分类   总被引:4,自引:0,他引:4  
提出一种基于主动学习SVM分类器的视频分类算法.该算法分为两个步骤:首先分析并提取与视频类型有关的十维底层视觉特征;然后用SVM分类器建立这些底层特征与视频类型之间的联系.在获取SVM分类器所需的训练样本时,采用主动学习的方法选择对SVM分类器最"有用"的样本提供给用户进行标注,用更少的训练样本获得与大量训练样本近似的分类效果,从而减轻用户标注负担.针对多类SVM分类的主动学习问题,提出用后验概率计算分类器对未标注样本的置信度进行样本选择.实验结果表明,主动学习算法与随机采样标注的被动学习算法相比,在相同的训练样本情况下能够获得更高的分类精度;而基于后验概率选择样本的主动学习要略好于传统的基于变型空间(version space)选择样本的主动学习.  相似文献   

12.
随着万维网的快速普及和发展,Web上出现了大量短文本,如科技文献摘要、微博和电子邮件等.短文本内容短小,相互联系,已标注数据获得困难,导致传统分类方法很难取得较高的分类精度.为了解决短文本分类问题,提出了一种基于半监督学习的迭代分类算法(SS-ICA).它使用较少的已标记数据,利用短文本间的关系进行迭代分类.通过与常用分类方法进行对比表明,在标注数据较少的情况下SS-ICA比其他分类器有更高的分类精度.  相似文献   

13.
针对新颖的问答形式的文本展开研究,提出了基于网络表示的半监督问答文本情感分类方法,通过构建异构网络的联合学习提升半监督问答文本的情感分类性能。首先,通过分析标注和未标注样本构建一个异构网络,具体包括词-词网络、问题和答案文本-词网络、情感标签-词网络;其次,利用该异构网络学习获得词向量;最后,将学习到的词向量应用于目前性能最优的分层匹配情感分类模型(hierarchical matching network,HMN)中。实验结果表明,提出的方法在处理问答文本情感分类任务上具有一定优势。  相似文献   

14.
为了解决文本图神经网络小样本文本分类精度较差的问题,设计了基于文本图神经网络的原型网络,采用预训练语言模型,利用文本级图神经网络为每个输入文本构建图并共享全局参数,将文本图神经网络的结果作为原型网络的输入,对未标注文本进行分类,并验证新模型在多个文本分类数据集上的有效性。实验结果表明,与需要大量标注文档的监督学习方法相比,所采用的方法未标注文本的分类精度提高了1%~3%,在多个文本分类数据集上验证了新模型性能先进,内存占用更少。研究结果可为解决小样本文本分类问题提供参考。  相似文献   

15.
结合半监督学习中的自学习技术以及二维主成分分析(two-dimensional principal component analysis-2DPCA)方法,提出了一种基于半监督学习的人脸识别方法.在二维主成分分析的基础上,利用少量具有类别标签的样本训练分类器,然后利用半监督学习中的自学习技术,对未知类别标签的人脸样本进行分类,并将具有高置信度的人脸样本加入到训练集中,以此增加训练集中的人脸样本数量.在ORL人脸库和Yale人脸库的实验结果,表明了提出方法的有效性.  相似文献   

16.
提出了一种基于LPA和Tri-Training算法的半监督文本倾向性分类框架.通过LPA对初始样本进行快速分类,获得更多可信的有标签数据,优化分类框架的训练过程.引入Tri-Training算法,提高分类框架的泛化能力和可用性.实验结果表明,在不同标注比例的样本集上,该框架都有较好的分类性能,相较有监督学习算法和单一的半监督算法提高了分类精度,并有较强的鲁棒性,为解决有标签样本比例较少情况下的文本倾向性分类提供了一个新的思路.  相似文献   

17.
针对微博多类垃圾用户的检测问题,设计了一种基于模糊多类支持向量机的垃圾用户检测方法。首先,采用一对多SVM(support vector machines)的构造思想来构造多分类器,并针对每类用户的分类器重新选择训练集;然后,利用构造好的训练集来训练多分类器,经过反复调整参数,得到5个用户分类器;最后,针对多分类器的不可分样本,采用模糊聚类来进行模糊处理,即在垂直于SVM的最优分类面上定义一个改进的隶属度函数,选择最大隶属度对样本进行再分类。实验结果表明,该方法在保证垃圾用户检测效果的前提下,可以解决多分类中存在的混分和漏分问题。  相似文献   

18.
针对微博的倾向性分析问题,提出了一种基于三元词组模式的情感分类方法。该方法通过构造情感词典及微博的三元词组模式,对未标注语料自动进行情感评分并标注情感极性,然后使用自动标注的语料训练得到情感分类器。在测试集上的实验结果表明,使用无人工参与标注的训练语料达到了79.26%的测试正确率。  相似文献   

19.
用户属性在个性化服务中具有重要的作用,利用手机数据进行用户属性预测逐渐成为新方向.利用手机应用类别均使用时长和应用类别个数,提出了基本属性与辅助属性的概念.首先对所有未标注样本的辅助属性离散化,将辅助属性基于类别的海灵格距离作为基本属性的特征权重,将基本属性与权重的乘积作为特征训练集成分类器中的各个基分类器,并引入随机森林中的带外样本准确率作为基分类器的权重,得到最终的分类结果.实验结果表明,本文所给出的集成分类器框架能够提高用户属性预测的效果.  相似文献   

20.
为了提高半监督分类的有效性,提出一种基于交叉验证思想的半监督分类方法(CV-S3VM)。通过对未标记样本进行伪标记,将伪标记后的样本加入到标记样本集中,参与交叉验证,选取能使SVM分类器误差最小的标记作为最终的标记,实现对未标记样本进行标记。依次挖掘未标记样本的隐含信息,增加标记样本的数目。使用UCI数据集模拟半监督分类实验环境,结果表明CV-S3VM具有较高的分类率,在标记样本较少的情况下效果更为明显。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号