首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在解决情感倾向性分析问题中,传统的监督学习和半监督学习都是在训练和测试所用的数据来自相同分布的假设基础之上的,但在很多情况下不能满足这样的假设,这就产生了跨领域的情感倾向性分析问题.在跨领域情感倾向性分析中,提出一种基于归纳式迁移学习的图模型,通过图模型建立源领域和目标领域数据之间的关联,使得源领域的数据通过图模型学习目标领域数据在特征和实例上的特点.同时,利用归纳式迁移学习方法使用少量的目标领域的已标注数据进行训练,从而提高了情感分类器在目标领域的分类准确率,极大地改进了跨领域情感倾向性分析的效果.在标准数据集上进行了实验,并与监督学习方法 SVM、半监督学习方向TSVM以及其它3种常用的迁移学习方法进行了对比,对比结果显示本文方法显著的高于SVM和TSVM,并在大多数数据集上优于其它3种迁移学习方法,实验结果表明该方法是有效的.  相似文献   

2.
传统的跨领域情感分类往往是实现单一源领域到目标领域的情感迁移,而在现实情况下,往往存在多个源领域的数据。文章从参数迁移和集成学习的角度,提出了一种基于集成深度迁移学习的多源跨领域文本情感分类方法。首先,使用字符向量增强的深度卷积神经网络模型,在单个源领域上训练情感分类模型,然后通过模型迁移的手段,实现源领域的情感知识到目标领域的迁移。通过深度特征抽取和模型迁移,有效提升了跨领域的特征表示能力。为了充分利用所有源领域信息,我们采用集成学习框架对训练好的迁移学习模型进行集成。通过在Amazon多领域的评论数据集上进行实验,验证了文章提出的框架对跨领域情感分类的正确率有一定提升。  相似文献   

3.
针对目前金融领域文本存在标注资源匮乏的问题,提出一种基于生成对抗网络的金融文本情感分类方法. 该方法以边缘堆叠降噪自编码器生成鲁棒性特征表示作为输入,在生成对抗过程中,通过向文本表示向量添加噪声向量再生成新样本,应用对抗学习思想优化文本特征表示. 在公开的跨领域情感评论Amazon数据集和金融领域数据集上进行实验,并与基准实验对比,结果表明,该方法在平均准确率上有显著提升.  相似文献   

4.
针对目前金融领域文本存在标注资源匮乏的问题,提出一种基于生成对抗网络的金融文本情感分类方法.该方法以边缘堆叠降噪自编码器生成鲁棒性特征表示作为输入,在生成对抗过程中,通过向文本表示向量添加噪声向量再生成新样本,应用对抗学习思想优化文本特征表示.在公开的跨领域情感评论Amazon数据集和金融领域数据集上进行实验,并与基准实验对比,结果表明,该方法在平均准确率上有显著提升.  相似文献   

5.
一种基于领域语义相关性挖掘的迁移学习方法   总被引:1,自引:0,他引:1  
针对基于特征的迁移学习方法 TPLSA只考虑领域共享主题而忽略领域独有主题的不足,提出一种基于领域语义相关性挖掘的迁移学习方法.首先,挖掘领域共享主题与独有主题;然后,构造新特征空间,将源领域、目标领域文本在新特征空间中进行表示;最后,在新特征空间中对目标领域的文本进行分类.实验结果表明该方法具有优越性.  相似文献   

6.
文本情感分析就是分析主观文本的情感倾向.针对情感分析中标签样本不足以及不同领域中情感表达存在差异的问题,提出一种基于卷积神经网络的跨领域情感分析方法,利用源领域标签样本完成对目标领域的无监督情感分析.首先,量化词项的情感极性、基于词向量度量词项的领域一致性,并在此基础上选择情感强烈且语义一致的词项作为领域间的共享词;然后,采用卷积神经网络提取文本特征,基于共享词的极性对源领域情感文本进行特征扩展;其次,基于扩展的文本完成情感分类器的训练,并对目标领域的情感文本进行分类;最后,在Amazon数据集上进行实验分析,实验结果表明该方法可以提高跨领域情感分类的准确率.  相似文献   

7.
利用多资源转化方法进行词性标注研究, 旨在将源端资源的标注进行转化, 以符合目标端标注规范, 进而将转化后的资源与目标资源合并, 增大训练数据规模。做了两方面创新: 在转化过程中, 额外利用指导特征的置信度信息; 在转化后的资源中, 用模糊标注表示方法减少错误标注。实验表明, 利用置信度信息能有效帮助转化, 而模糊标注表示方法的影响不大。  相似文献   

8.
针对情感分类这一项从文章或句子中得到观点态度的任务,常规情感分类模型大多需要耗费大量人力获取标注数据.为解决某些领域缺乏标注数据,且其他领域分类器无法在目标领域直接使用的现状,设计了一种新颖的基于构建公共特征空间方法,使分类模型可从有标注领域向无标注领域进行迁移适应,减少人工标注的成本开销,实现情感分类的领域自适应.该方法以大规模语料下预训练的词向量信息作为以词为元素的特征,在同种语言中表达情感所采用的句法结构相似这一假设前提下,通过对领域内特有的领域特征词进行替换的方式构建有标注数据集与无标注数据集基本共有的公共特征空间,使有标注数据集与无标注数据集实现信息共享.以此为基础借助深度学习中卷积神经网络采用不同尺寸卷积核对词语不同范围的上下文特征进行抽取学习,进而采用半监督学习与微调学习相结合的方式从有标注数据集向未标注数据集开展领域自适应.在来自京东与携程共5个领域的真实电商数据集上进行实验,分别研究了领域特征词选择方法及其词性约束对领域间适应能力的影响,结果表明:相较于不采用领域适应的模型,可提升平均2.7%的准确率;且在来自亚马逊电商的公开数据集实验中,通过与现有方法进行对比,验证了该方法的有效性.  相似文献   

9.
针对现有跨领域情感分类方法中文本表示特征忽略了重要单词与句子的情感信息, 且在迁移过程中存在负面迁移的问题, 提出一种将文本表示学习与迁移学习算法相结合的跨领域情感分类方法。首先, 利用低维稠密的词向量对文本进行初始化, 通过分层注意力网络, 对文本中重要单词与句子的情感信息进行建模, 从而学习源领域与目标领域的文档级分布式表示。随后, 采用类噪声估计方法, 对源领域中的迁移数据进行检测, 剔除负面迁移样例, 挑选高质量样例来扩充目标领域的训练集。最后, 训练支持向量机对目标领域文本进行情感分类。在大规模公开数据集上进行的两个实验结果表明, 与基准方法相比, 所提方法的均方根误差分别降低1.5%和1.0%, 说明该方法可以有效地提高跨领域情感分类性能。  相似文献   

10.
基于大规模领域内标注数据训练的句法分析模型在领域外数据上测试时,性能会急剧下降.导致该现象的原因之一是缺乏高质量的目标领域标注数据.由于人工标注数据耗时耗力,自动生成目标领域标注数据是一种有效的解决方法.其中,三元训练(tri-training)作为一种典型的多模型决策协同训练方法,旨在利用多个模型的预测结果来保证自动标注数据的质量.本文针对跨领域依存句法分析任务,系统比较了3种常用的tri-training方法,在NLPCC-2019评测数据集上取得了目前最佳的性能,并大幅度超过了目前最好结果.此外,还设计了详细的分析实验以深入理解跨领域模型性能下降的原因以及tri-training所起的作用.  相似文献   

11.
为了解决计算机深度学习时标注数据工作量大、准确度不高、耗时耗力等问题,需要将预先训练好的模型中的数据进行跨领域跨任务迁移学习。基于对不同数据集的迁移效果的研究,试验时将视觉领域中表现良好的ImageNet预训练模型迁移到音频分类任务,通过剔除无声部分、统一音频长度、数据转换和正则化处理这4个步骤,采用经典图像增强和样本混淆两种数据增强方法,以5种不同的方式训练数据集,实验证明:ImageNET目标训练模型的跨领域迁移学习效果显著,但源领域的模型效果和目标领域的最终效果并没有必然联系,且使用同领域相似数据分布的数据集的预训练效果比ImageNet上的预训练效果更差。  相似文献   

12.
传统的视觉分类方法普遍忽视了多标签间的相关性和大量相关源数据的判别信息.为此,基于共享子空间和领域适应学习方法,针对多标签视觉分类问题,提出了一种新的联合子空间和多源适应学习的多标签视觉分类方法,简称为多源适应多标签学习(Multi-Source adaptation Multi-Label learning,MSML).MSML将综合考虑多标签相关性、灵活的特征相似性嵌入和多源模型的适应学习等目标,并将其融为一个统一的学习模型,其全局最优解只需通过一个广义特征分解问题的求解便可获得.在视频概念识别、自动图像标注等实际应用中进行比较分析,结果显示了本文方法的有效性和优越性.  相似文献   

13.
尽管深度神经网络算法在标签自动标注领域已取得一定的成果,但对于包含大量噪声标签的真实音乐数据集仍存在自动标注效果差的问题.为此,文中通过对音乐标签进行表示学习,挖掘音乐标签与音频特征之间的潜在关系,提出了基于标签深度分析的音乐自动标注算法.该算法先通过多层级卷积网络提取音频特征,再通过音乐标签向量的表示学习来降低噪声数据对音乐自动标注网络的不良影响.在真实音乐标注数据集上的实验结果表明,该算法能取得更高的平均受试者特征曲线下面积,标注效果优于其他自动标注算法.  相似文献   

14.
实体解析致力于识别多条记录是否描述真实世界相同实体,这是数据清洗和数据集成中的关键问题.近年来,基于深度学习的实体解析广受欢迎,它们需要大量标注数据才能达到较优的效果.然而,在现实场景中,大量高质量标注数据不容易获得.本文提出了一个基于深度迁移学习的实体解析模型,通过域分离网络提取源域和目标域的公共特征,并利用公共特征得到实体解析结果,从而实现从源域到目标域的迁移.实验结果表明,在多个数据集上,本文提出的方法比之前最好的方法在F1度量上最大提高了40%左右.实验证明本文的方法具有更好的表现,并且训练时间更短.  相似文献   

15.
图像自动标注是图像理解与模式识别等领域中具有挑战性的关键研究问题.目前图像自动标注领域存在着一些问题,如未标注数据规模要远大于标注数据规模,只能单独使用某种图像分割策略与某类图像表示方法.针对上述问题,提出了基于Co-training的图像自动标注方法,通过构建4个独立的特征属性进而建立4个子分类器,将不同的图像分割方法与特征表示方法整合到一个统一框架中,利用提出的基于投票与一致性相结合的自适应算法扩展原始训练集.该方法通过使用Co-training算法,利用大量未标注数据来提升图像自动标注的性能.通过在Corel 5K数据库上进行实验,验证了提出方法的有效性.  相似文献   

16.
常用的基于特征表达的跨领域文本倾向性分析的基本思想是通过统计的方法对源领域和目标领域的数据进行特征对齐,再根据特征间关联构建目标领域的分类器。从词汇倾向性计算入手,提出了一种基于领域基准词表的跨领域倾向性计算的方法。与传统的词汇倾向性计算方法不同的是,该方法在构建基准词表时,同时考虑词性和领域信息,在计算倾向性时,根据词汇当前的词性和领域信息采用相应的领域基准词表进行计算。实验结果表明:与传统的跨领域倾向性分析算法相比,虽然该方法在准确率上的优势不明显,但可以不依赖源领域和目标领域文本数据;与传统的基于基准词表的倾向性计算方法相比,该方法能够大幅提高倾向性分析的准确率。  相似文献   

17.
为了解决现有领域在自适应方法中忽略了整个数据域内部结构的信息和源域与目标域之间的差异问题,提出了一种新的基于低秩交叉重构的领域自适应方法.通过对源域和目标域的交叉重构来构造新的源域与目标域,使得同类数据相互交织,缩短了同类数据之间的距离; 通过对重构矩阵施加低秩约束,将2个域的同类数据对齐,以此来充分挖掘源域和目标域同类数据之间的内在结构信息,并利用该结构信息来学习分类器,从而取得更好的跨域识别效果.在5个公开数据集上的实验结果表明:该方法具有较高的跨域识别准确率.  相似文献   

18.
米文博  李勇  陈囿任 《科学技术与工程》2022,22(32):14275-14281
通过软件缺陷预测可以有效地提高软件测试效率,保证软件产品的质量。针对新开发的项目面临训练数据不足,标注代价高以及源项目与目标项目的缺陷模式难以匹配的问题,提出了基于主动学习的跨项目软件缺陷预测方法。首先使用主动学习方法对目标项目进行筛选标注,其次将得到的标签集与跨项目数据进行数据融合和模式匹配,最后构建跨项目软件缺陷预测模型。采用真实的软件缺陷数据进行实验,在保证预测率的前提下,曲线下面积(area under curve, AUC)能够达到0.692,与传统方法相比综合性能均有显著提升。结果表明:所提方法可以通过模式匹配有效提高跨项目软件缺陷预测模型的性能。  相似文献   

19.
用于文本情感分析的深度学习模型如递归神经网络等参数较多,因此需要大量高质量标记训练数据对模型进行训练和优化。在实际应用中,特定领域难以获取高质量带情感标签评论数据。在跨领域文本情感分类任务中,针对不同领域数据分布差异性,提出了基于句法结构迁移和领域融合的跨领域文本情感分类方法,可以解决特定领域对带标签数据依赖问题。句法结构迁移方面,将依存语法特征加入到递归神经网络中,设计了一种可迁移的依存句法递归神经网络模型,通过句法结构迁移有效地迁移跨领域结构信息,为情感迁移提供支撑。领域融合方面,在传统的最大均值差异领域度量方法上细化了跨领域同类别距离度量信息。通过约束源领域和目标领域的分布,可以保证2个领域距离在学习过程中尽可能减小,有效地提取领域通用特征。实验结果表明,该方法比已有方法有效提高了跨领域情感分类准确率。  相似文献   

20.
在中文事件检测任务中,存在着领域互相独立,领域间的数据无法互通,需要分别为每个领域标注大量数据的问题。本文充分借鉴前人的研究,提出一个基于迁移学习的开放式中文事件检测方法。首先基于两个触发词关联假设,一个是同一个事件类型下,触发词与触发词在语义空间上有着一定的关联,且关联性较强。第二个是不同事件类型之间的触发词和触发词之间也存在着一定的关联,不过其关联性弱于相同事件类型下触发词之间的关联性。之后借助外部词典,构建候选词与种子触发词的关系特征以及候选词的上下文特征,再利用卷积神经网络构建事件检测的基础模型和迁移模型。最后对于新领域下的事件检测,只需要借助极少量的已知领域的标注数据即可完成。在ACE2005的中文事件数据集上,该方法在触发词识别这项任务上仅用20%的数据,其效果即可超越当前的主流方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号