首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 859 毫秒
1.
提出一种基于多种文本类型的半监督性别分类方法,即根据微博平台中用户所产生的不同类型的文本(如:原创微博、转发微博等)对用户的进行性别分类。文中的方法是一种基于协同训练(Co-training)的半监督学习方法,旨在减少分类器对大量标注样本的依赖。首先将不同类型的文本分为不同的独立视图;其次,在每个视图中利用LSTM分类器挑选置信度最高的未标注样本;最后,将挑选出来的未标注样本加入训练模型迭代训练。实验结果表明我们的方法能够有效利用非标注样本信息,并明显优于其他现有的半监督性别分类方法。  相似文献   

2.
基于样本的社会关系, 提出一种新的半监督学习方法, 创建一种基于文档?词及社会关系的二部图模型, 并根据标签传播算法将未标注样本加入到分类器的构建中。实验结果表明, 加入社会关系网络的半监督情感分类方法明显优于传统的仅利用评论文本信息的半监督情感分类方法。  相似文献   

3.
半监督学习是一种利用有标记样本和无标记样本进行学习的新的机器学习方法。针对单分类中只有目标类标记样本和大量无标记样本的情况,提出了一种基于半监督学习的单类分类算法。利用已标识的有标记样本建立两个单类分类器,通过相互学习来挖掘未标记样本中的隐含信息,扩大有标记样本的数量。利用所有已标识样本,用不同的单分类方法建立多个单类分类器,通过集成学习的方法得到最终的分类器。在UCI数据集上进行了实验,表明提出的基于半监督学习的单类分类器的有效性。  相似文献   

4.
针对文本情感分类任务中,有情感标注的语料在不同语言中的不均衡问题,结合深度学习和迁移学习,提出一种基于对抗长短时记忆网络(ALSTM)的跨语言文本情感分类方法.设置双语各自独立的特征提取网络和共享特征提取网络,把获取到的特征拼接输入到分类器进行分类.在共享特征提取网络中,设置语言分类器,运用对抗思想优化模型,通过投票法决定文本最终的情感极性.实验表明:该方法可以取得跨语言文本情感分类任务更高的准确度.  相似文献   

5.
针对新颖的问答形式的文本展开研究,提出了基于网络表示的半监督问答文本情感分类方法,通过构建异构网络的联合学习提升半监督问答文本的情感分类性能。首先,通过分析标注和未标注样本构建一个异构网络,具体包括词-词网络、问题和答案文本-词网络、情感标签-词网络;其次,利用该异构网络学习获得词向量;最后,将学习到的词向量应用于目前性能最优的分层匹配情感分类模型(hierarchical matching network,HMN)中。实验结果表明,提出的方法在处理问答文本情感分类任务上具有一定优势。  相似文献   

6.
目的构造音乐情感分类器,为计算机理解情感提供途径。方法首先分析现有音乐情感模型,然后提取音乐情感特征并采用神经网络构造音乐情感分类器,最后采用相关反馈对分类结果进行标注并进一步训练分类器,直至训练样本的错误分类率在一定误差范围内。结果对测试样本进行情感分类,达到了最高89%的分类准确率,实现了音乐情感分类器的构建和音乐片断的情感标注。结论研究成果是音乐情感检索的基础工作,也可用于其他音频的情感识别和分类。  相似文献   

7.
针对网络流量协议标注比较困难的问题,提出一种基于贝叶斯网络的半监督学习模型,以提高Inter-net协议的识别精度.该模型首先使用少量的标注样本训练贝叶斯网络分类模型,并对未标注样本进行初始分类,然后从未标注样本中挑选分类损失最小的样本加入到训练集中并重复训练分类模型,经过多次循环训练出最终的分类器.该模型可以使用未标注样本和标注样本共同训练分类模型,非常适合于标注比较困难的Internet应用协议的识别.实验结果表明:在标注样本较少的情况下,该模型的识别精度和稳定性均优于朴素贝叶斯模型和贝叶斯网络模型,对于提高Internet协议的识别精度是有效的.  相似文献   

8.
多光谱卫星云图的SOFM-PNN网络耦合的云分类模型   总被引:1,自引:0,他引:1  
针对单一类型的神经网络分类器难以正确区分和有效识别复杂云类特征的缺陷,本文基于静止气象卫星云图多光谱云类样本,通过计算、分析云图灰度、梯度与纹理特征,提取了云分类最佳判别因子,建立了自组织网络(SOFM)与概率神经网络(PNN)的综合云分类器优化模型.该分类器首先利用自组织网络对云类样本进行无监督初始分类,确定出相似样本子集;随后用概率神经网络对初始分类误差进行有监督修正和分类结果的二次优化判别.试验结果表明,该分类器可有效提高云类判别效果,分类结果的总正确率达到92.4%,Kappa系数为90.82,明显优于单一的统计分类器判别效果.  相似文献   

9.
针对情感分类这一项从文章或句子中得到观点态度的任务,常规情感分类模型大多需要耗费大量人力获取标注数据.为解决某些领域缺乏标注数据,且其他领域分类器无法在目标领域直接使用的现状,设计了一种新颖的基于构建公共特征空间方法,使分类模型可从有标注领域向无标注领域进行迁移适应,减少人工标注的成本开销,实现情感分类的领域自适应.该方法以大规模语料下预训练的词向量信息作为以词为元素的特征,在同种语言中表达情感所采用的句法结构相似这一假设前提下,通过对领域内特有的领域特征词进行替换的方式构建有标注数据集与无标注数据集基本共有的公共特征空间,使有标注数据集与无标注数据集实现信息共享.以此为基础借助深度学习中卷积神经网络采用不同尺寸卷积核对词语不同范围的上下文特征进行抽取学习,进而采用半监督学习与微调学习相结合的方式从有标注数据集向未标注数据集开展领域自适应.在来自京东与携程共5个领域的真实电商数据集上进行实验,分别研究了领域特征词选择方法及其词性约束对领域间适应能力的影响,结果表明:相较于不采用领域适应的模型,可提升平均2.7%的准确率;且在来自亚马逊电商的公开数据集实验中,通过与现有方法进行对比,验证了该方法的有效性.  相似文献   

10.
针对模糊神经网络分类器设计过程中所遇到的样本采样与标注过程耗时、代价大的问题,提出了一个新颖的模糊神经网络分类器主动学习方法,以最小-最大边界法以及确定样本的不确定性闽值两个新概念为主动样本选择准则,确保选择其中信息量尽可能大的样本进行标注,使得网络设计过程中对未标注样本的标注工作量和时间大为减少.实验结果表明,该方法与模糊神经网络的被动学习模型相比,训练样本数目大为减少,训练时间大大缩短.  相似文献   

11.
为了提高半监督分类性能,提出了一种多分类器协同的半监督分类算法SSC_MCC.算法采用双层结构集成,使用多条件判断挖掘未标记样本信息,扩充有标记样本.第一层中,采用三分类器协同投票一致策略实现对未标记样本进行标记,第二层中采用基于正确分类率的分类器加权投票决策标记未标记样本,扩充有标记样本,用最终生成的有标记样本训练分类器,实现半监督分类.最后,使用UCI数据集模拟半监督实验,结果表明SSC_MCCL较好地提高了半监督分类性能.  相似文献   

12.
针对当前SAR图像半监督协同训练分类算法受相干斑噪声干扰等问题,本文提出了基于选择策略的SAR图像半监督分类方法.该方法首先以超像素为基本单元,在获取伪样本过程中,利用典型相关性分析作为SAR图像高置信度样本补充判别器,而对于低置信度样本,提出基于超像素和主动学习的样本扩充方法,然后基于扩充后的样本实现SAR图像的半监督分类;最后通过理论分析和实验验证了该方法在标注样本较少的情况下,取得了较好的效果和精度,降低了相干斑噪声对分类效果的影响.  相似文献   

13.
基于主题情感混合模型的无监督文本情感分析   总被引:4,自引:0,他引:4  
针对有监督、半监督的文本情感分析存在标注样本不容易获取的问题, 通过在LDA模型中融入情感模型, 提出一种无监督的主题情感混合模型(UTSU模型)。UTSU模型对每个句子采样情感标签, 对每个词采样主题标签, 无须对样本进行标注, 就可以得到各个主题的主题情感词, 从而对文档集进行情感分类。情感分类实验对比表明, UTSU模型的分类性能比有监督情感分类方法稍差, 但在无监督的情感分类方法中效果最好, 情感分类综合指标比ASUM模型提高了约2%, 比JST模型提高了约16%。  相似文献   

14.
大规模和高质量的标注语料是进行监督算法分类器训练的重要前提,而进行大规模的语料标注是一项费时费力的工作,并且针对特定的领域还需要该领域专家的介入.提出一种基于语义模式的半监督中文观点句识别方法,可以通过小规模语料的训练识别出中文观点句.首先,通过语义模型提取算法从训练集当中识别出观点句语义模型和非观点句语义模型;然后,将两种模型转化为语义特征,并且加入词汇特征和词性特征两方面特征,通过BootStrapping对小规模标注语料进行训练,得到朴素贝叶斯分类器;接着,使用朴素贝叶斯分类器对大规模未标注的语料进行分类,将可信度高的样本加入训练模型迭代进行训练,直到无样本加入;最后经过多轮迭代得到最终的分类器.实验表明,该方法在只具备少量样本的情况下就可达到83.7%的准确性,证明了该方法的有效性.  相似文献   

15.
针对数据实际分布与假设不匹配时半监督学习算法难以改善分类器性能的问题,该文提出一种最大化样本可分性半监督Boosting算法,通过引入"高密度区域局部散度最小、样本空间全局散度最大"准则来学习未标注的样本。该准则使用两种半监督假设(聚类假设和流形假设),减少了因半监督假设与数据不匹配造成的准确率下降问题。实验结果表明,该文算法有效提高了Boosting算法在符合聚类假设数据集和符合流形假设数据集上的准确性,提高了分类器噪声数据的稳定性。  相似文献   

16.
针对采用大样本离线训练的车辆识别分类器在新场景中性能显著下降的问题,提出了一种具有样本自标注能力的车辆识别迁移学习算法,并采用概率神经网络(probability neural netw ork,PNN)进行分类器训练.首先,提出一种基于多细节先验信息的样本标注策略,融合复杂度、垂直平面和相对速度等先验信息实现新样本的自动标注;然后,充分利用PNN训练速度快以及增加新样本时只需分类器进行局部更新的特点,将其引入到分类器训练模型中,取代传统机器学习算法中的Adaboost分类器.实验结果表明:该算法在新场景下的新样本标注准确率高达99.76%.通过迁移学习,新场景的车辆识别分类器性能较通用分类器在检测率和误检率指标上均有显著提升.  相似文献   

17.
为了提高半监督分类的有效性,提出一种基于交叉验证思想的半监督分类方法(CV-S3VM)。通过对未标记样本进行伪标记,将伪标记后的样本加入到标记样本集中,参与交叉验证,选取能使SVM分类器误差最小的标记作为最终的标记,实现对未标记样本进行标记。依次挖掘未标记样本的隐含信息,增加标记样本的数目。使用UCI数据集模拟半监督分类实验环境,结果表明CV-S3VM具有较高的分类率,在标记样本较少的情况下效果更为明显。  相似文献   

18.
基于主动学习SVM分类器的视频分类   总被引:4,自引:0,他引:4  
提出一种基于主动学习SVM分类器的视频分类算法.该算法分为两个步骤:首先分析并提取与视频类型有关的十维底层视觉特征;然后用SVM分类器建立这些底层特征与视频类型之间的联系.在获取SVM分类器所需的训练样本时,采用主动学习的方法选择对SVM分类器最"有用"的样本提供给用户进行标注,用更少的训练样本获得与大量训练样本近似的分类效果,从而减轻用户标注负担.针对多类SVM分类的主动学习问题,提出用后验概率计算分类器对未标注样本的置信度进行样本选择.实验结果表明,主动学习算法与随机采样标注的被动学习算法相比,在相同的训练样本情况下能够获得更高的分类精度;而基于后验概率选择样本的主动学习要略好于传统的基于变型空间(version space)选择样本的主动学习.  相似文献   

19.
针对小样本条件下通信信号识别混淆的问题,提出了一种基于半监督生成式对抗网络的调制识别算法.首先结合半监督学习思想利用少量标签数据和大量未标签数据训练网络;其次在输出层添加辅助分类器进行结果判定,针对性设计了目标函数和损失函数,以满足网络生成虚假数据和实现信号分类的目的;最后使用不同的激活函数并用反卷积和Dropout代替池化操作,有效降低了算法复杂度并加快网络收敛速度.仿真实验表明:该算法适应性强、计算量小,较传统算法识别准确率提升了6% ~13%,有效实现了小样本条件下的调制样式识别.  相似文献   

20.
为了提高半监督分类器在已标记和未标记样本的数量均不足时的分类性能,该文在迁移学习的基础上,提出了一种迁移拉普拉斯总间隔支持向量机。首先提出了联合最大均值差异度量准则,从全局和局部两方面衡量不同领域间的分布差异,并将迁移学习的思想引入半监督学习框架,提出了迁移拉普拉斯总间隔支持向量机。实现源域的知识到目标域的迁移,提高了目标域分类器的性能。8个迁移数据集上的实验结果证明,该方法能处理目标域标记和未标记数据均不足场景下的分类任务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号