首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
文本情绪多标签分类是一种细粒度的文本情感分析,通过挖掘文本中蕴含的多种情绪信息,为文本分配多种所属的情绪标签。文章提出一种基于标签特征的卷积神经网络(CNN)情绪多标签分类方法,首先利用word2vec模型对文本进行词向量表示,然后利用标签特征来强化文本情绪和标签之间的联系,将其融合于CNN模型中,用于对文本情绪进行深层次的表示和多标签分类。为了验证方法的有效性,选取了CLR和LPLO两个多标签分类方法作为基准方法,在NLPCC2014的中文微博情绪分析数据集进行比较实验。结果表明,使用标签特征的CNN模型,可以提升微博情绪的分类性能。  相似文献   

2.
情感分布学习(emotion distribution learning, EDL)采用情感分布记录给定样本在各个情绪上的表达程度,在处理具有模糊性的多标签情绪分析任务时具有明显优势。情感分布标签增强技术将已标注的情绪单标签增强为情感分布,可以解决EDL缺乏已标注情感分布的实验数据集的问题。然而,已有的情感分布标签增强方法采用离散空间情绪模型表示情绪,存在情绪间的相关信息丢失和情绪表达不连续等问题。针对上述问题,该文引入基于连续维度的效价-唤醒-支配(valence-arousal-dominance, VAD)心理学情绪模型,提出融合VAD情绪知识的文本情感分布标签增强方法(VAD emotion knowledge-based text emotion distribution label enhancement, VADLE)。VADLE方法基于先验的VAD情绪模型中的情绪距离,先为英文句子的真实情绪标签和句中情感词的情绪标签分别生成先验情感分布,再通过分布叠加将2种先验情感分布统一。通过英文单标签文本情感数据集的对比实验表明:VADLE方法在情绪预测任务方面的性能优于已有的情感...  相似文献   

3.
针对文本情感分类中情感语义特征利用不足、特征降维效果欠佳等影响分类效果的问题,提出了一种通过扩展语义相似的情感词以及引入词语间统计特征的高精度网络评论情感分类方法.该方法利用神经网络Skip-gram模型生成词嵌入,通过词嵌入相似性度量将语义相似的词语扩展为情感特征;再利用词语间的统计特征进行特征降维;通过多个弱分器加权构建Adaboost分类模型实现网络评论情感分类.基于酒店评论和手机评论公开测试集进行实验,结果表明其情感分类的正确率分别达到90.96%和93.67%.方法扩展语义相似情感词有利于丰富文本情感语义特征,引入词语间的统计特征有更好的特征降维效果,可以进一步提升文本情感分类的效果.   相似文献   

4.
面向微博短文本的情绪分析研究是当前的研究热点。提出了利用依存句法对微博短文本进行分析,抽取关系对,并设计相应的方法用于情感计算,其结果作为特征加入到情绪句判别模型之中;同时设计出情绪句判别规则,在分类模型之前或者之后利用规则进行预处理或者后处理,提高情绪句的判别正确率;最后使用NLP&2013中文微博数据,通过实验证明研究方法的有效性,在性能指标上相比评测最好成绩有了进一步提高。  相似文献   

5.
基于条件随机域的Web信息抽取   总被引:1,自引:0,他引:1  
为了获取隐藏在Internet中的信息,基于条件随机域模型(CRF),提出了一种Web信息抽取的方法。该方法对网页样本中的每一行加注标签,确定文本特征,建立条件随机域模型,采用拟牛顿迭代方法对样本进行训练,参照学习得到的条件概率分布模型,实现网页搜索结果的抽取。与HMM模型相比,CRF模型支持网页文本的语言特征,抽取准确率高。实验结果表明,使用CRF模型的抽取准确率达到90%以上,高于使用HMM模型的抽取准确率。  相似文献   

6.
情感原因抽取(ECE)是情感分析领域的一项重要子任务,旨在识别给定文档中某种情绪表达所对应的原因.现有的一些工作将该任务定义为子句分类任务,关注了文档和子句之间的联系,而忽略情感描述子句与情感原因子句的直接语义联系,同时存在标签不平衡问题,使得情感原因子句位置难以定位.因此,提出了一个基于子句的自注意力机制同时结合了子句相对位置关系的神经网络模型去寻找情感原因子句.为了更加突显句子的局部特征,利用卷积神经网络抽取每个子句的上下文特征.模型首先使用双向长短期记忆网络编码子句信息,融合子句位置特征后,利用自注意力机制计算情感原因子句和情感描述子句之间的语义信息,并结合子句局部上下文特征,抽取情感原因子句.在基于新浪城市新闻的情感原因抽取中文数据集上,查全率R达到83.83%,优于目前的基线方法.  相似文献   

7.
在“智慧法院”的建设中,法律信息抽取是法律人工智能任务中最基本的任务。目前,法律信息抽取方法主要基于深度神经网络的监督学习模型。由于现有的监督学习模型需要大量的标签数据,而人工标注的方式会提高法律信息抽取任务的成本,存在只有少样本情况下模型学习性能较差的问题。针对上述问题,提出一种结合预训练和自训练的法律信息抽取增强式方法。首先,利用大规模预训练模型和标签数据训练出一个教师模型;然后,利用改进的文本相似度计算公式从法律文书库中寻找出与训练集相似的无标签法律文本数据,再结合训练完成的教师模型对其生成伪标签数据;最后,将有标签数据和伪标签数据混合起来重新训练出一个学生模型用于下游的法律信息抽取任务。本文在2021法研杯提供的信息抽取数据集上进行验证。与基线模型进行对比,本文提出的结合预训练和自训练的法律信息抽取增强式方法取得了较好的抽取效果。  相似文献   

8.
针对目前大多数非分类关系抽取方法忽略词性和部分局部特征的问题,提出融合词性信息和注意力机制的BiLSTM模型.利用预训练词向量和词性标注工具,将舆情信息语义词向量和词性词向量作为BiLSTM的输入来获取句子高维语义特征,解决长距离依赖问题.利用词语层注意力机制计算2个概念与上下文词语的相关性,获取句子的上下文语义信息.通过构建句子层的注意力来降低噪声数据的权重,减少错误标签的干扰,进而完成舆情本体概念间非分类关系的抽取.最终在新闻网站上抽取11227条数据进行了验证.结果表明,该方法的精确率(P)和召回率(R)相比于其他方法更好地实现了非分类关系的抽取,验证了该方法的有效性.  相似文献   

9.
随机游走是一种应对推荐应用中用户规模庞大、数据稀疏等问题的有效方法.鉴于社交网络用户间亲密度差异、反向社交影响力等因素对基于随机游走的推荐具有积极影响,提出了一种引入频繁项挖掘来计算用户社交亲密度,进而优化转移概率矩阵,并与局部反向游走相结合的随机游走改进模型.此外,为了有效利用用户属性信息,提出了一种用户潜在好友关系推断的贝叶斯推理模型,并与随机游走改进模型协同应用,进一步提升了好友推荐性能.真实数据集上的对比实验验证了提出算法的有效性.  相似文献   

10.
针对关系抽取模型规模越来越大、耗时越来越长的问题,提出一种知识筛选机制,利用筛选出的正向软标签构造轻量级关系抽取模型.首先,利用知识蒸馏提取出知识并将其存储在软标签中,为避免知识蒸馏中教师与学生间差距大导致的知识难吸收问题,使用教师助手知识蒸馏模式;其次,使用标签的余弦相似度筛选出正向软标签,在每步蒸馏中都动态赋予正向软标签更高的权重,以此削弱知识传递中错误标签导致的影响.在数据集SemEval-2010 Task 8上的实验结果表明,该模型不仅能完成轻量化关系抽取任务,还能提升抽取精度.  相似文献   

11.
针对社会化标签中资源之间存在独立同分布特性,并且其对应的标签资源作为资源内容的特殊语义内容,提出一种联合特征词加权-LDA(Joint Feature Word Weighting-LDA)在资源内容和标签下联合主题识别方法,从而解决资源存在的独立同分布特性以及特征词采样等问题.首先建立评论及对应标签资源在信息熵相似度条件下的潜在关系,对该潜在关系使用随机游走方法获取各组资源和各组标签的权值系数,消除资源间的独立同分布.通过加权方法加权至每个资源的特征词,形成资源特征词和标签特征词的权重值系数.在此基础上构建联合特征词加权-LDA模型,通过迭代学习方法获取社会化标签资源的隐含主题知识.通过实验表明,提出的联合特征词加权-LDA相对于其他主题模型具有更好的主题识别效果.  相似文献   

12.
方面级情感分析旨在识别出句子中显式提及的方面及其情感极性,是细粒度情感分析中的重要任务.现有使用序列标注进行方面级情感分析的方法存在当方面(aspect)由多个单词构成时,每个单词的情感极性可能不一致,而基于跨度(span)的方法存在因方面标签和情感标签混合而导致的标签异质问题,同时现有的研究忽略了文本中方面-情感极性对之间的相互关联.为了解决上述问题,受关系抽取技术的启发,本文将方面-情感极性对抽取视作一元关系抽取问题,其中方面看成论元,其对应的情感极性作为关系,通过序列解码捕捉方面-情感极性对之间的关联.本文在3个数据集上进行了一系列实验来验证模型的有效性,实验结果表明,其性能超过了现有的最佳模型.  相似文献   

13.
提出一种基于词典与语料结合的中文微博主观句抽取方法,通过判断句子中是否包含情感表达文本来判断句子是否为主观句.首先,从现有的情感词典中挑选出情感倾向较为固定的情感词构建了一个高可信情感词典,用于抽取句子中的情感表达文本,保证情感表达文本抽取的准确率;然后提出N-POSW模型,并基于2-POS W模型通过语料学习的方法较为准确地抽取句子中的剩余情感表达文本,保证了情感表达文本抽取的召回率.实验结果表明,相比于传统的基于大规模情感词典的方法,本文方法主观句抽取的F值提高了7%.  相似文献   

14.
图像情感分布学习可以对多种情绪同时进行建模,但现有的模型缺乏有效的方法直接考虑情绪之间的相关性.针对这一问题,该文提出一种基于情感轮和多任务卷积神经网络(EW-MTCNN)的图像情感分布学习模型,通过先验知识模块将心理学情感知识直接引入到深度神经网络中.基于Mikel's情感轮定义成对情绪之间的相关性,EW-MTCNN模型采用多任务卷积神经网络学习情绪之间的相关性信息,同时优化情感分布预测和情绪分类任务.EW-MTCNN模型由3个模块组成,3个模块分别是图像特征提取层、情感轮先验知识层和多任务损失层.在情感分布数据集(Emotion6)和单标签数据集(Artphoto)上进行对比实验的结果表明:EW-MTCNN模型在情感分布预测与情绪分类任务上比其他情感分布学习方法具有更优的性能.  相似文献   

15.
提出一种基于统计机器翻译的思想抽取评价对象与评价词的方法。该方法利用词对齐模型抽取评价对象与评价词之间的关系,并结合词共现信息等特征来估计两者关系的强度。建立一张二分图刻画评价关系,并加入领域相关性度量,利用随机游走算法迭代计算候选评价对象与评价词的置信度。在COAE2011任务3的语料上进行试验验证。结果表明,利用词对齐模型抽取评价对象与评价词可以有效提高准确度,抽取出更多的评价对象与评价词。  相似文献   

16.
以Last.fm音乐网站上的用户标签为特征进行歌曲相似性计算研究,提出了一种基于Web标签挖掘的歌曲相似计算方法。从音乐网站Last.fm上抽取了用户标签作为音乐语义特征,通过潜在语义分析(latent semantic a-nalysis,LSA)方法对歌曲语义向量进行降维,并利用改进的K-means算法,根据音乐歌曲间的相似度对歌曲分类,完成了歌曲相似性计算。实验结果表明本文提出的基于LSA音乐语义标签模型的相似计算能取得较好的效果。  相似文献   

17.
词语间语义关系是中文信息处理基础。现有算法存在语义关系抽取专业性强、依赖语料库、抽取有限等不足。通过确定符合语义关系的种子,根据种子生成谓词模板和种子模版,利用网络资源得到网页信息,将网页信息与谓词模版和种子模版进行匹配,最终得到词语间语义关系。该方法充分利用网络资源,并不受限于特定语料资源,抽取的词语关系可适用于多种语义关系的自动抽取。通过同义语义关系实验和对比实验,表明语义关系自动抽取方法具有良好的抽取结果。  相似文献   

18.
针对随机游走分析在股市价格模拟中的固定漂移率、后效性等缺点,提出了反馈式随机游走模型.基于反馈式随机游走模型,通过确定性与随机性因素对股价影响与作用分配模拟了1998~2000年的上证综指.进一步分析了模拟结果的标准差及其正相排序.统计分析表明该模拟有效.与现有股市系统分析方法相比发现,该反馈式随机游走模型具有更适于现实股价波动分析,可确定出对股价影响较大的因素等优点.  相似文献   

19.
为了更好地挖掘投资者情绪,解决在股市文本情绪分析过程中,现有情感词典构建方法自动化程度低、行业特异性不足和精确度不足等问题。在构建基本情感词典的基础上,Word2vec对自动添加的高频情感词语进行极性判断与赋值,并将情感词典构建改为优化问题,采用改进模拟退火算法对情感词典的词语分值进行优化,提高股市情感词典性能。实验结果表明:该方法所构建的股市情感词典可以有效识别股市文本情绪,提升文本覆盖率,具有更强的行业特异性,提升情绪分析准确性,可更好用于投资者情绪相关研究。  相似文献   

20.
针对传统文本分类方法忽略词语间的语义特征的问题,并为了改善输入文本的表示质量,提出一种基于短语结构和词语词性相结合的情感分类方法.该方法首先通过短语结构优化分词,可以更好地提取文本特征;其次利用Word2vec工具训练词语和词性相结合的文本语料库得到词向量模型,解决了Word2vec无法识别一词多义的问题;最后通过SVM算法对文本进行情感分类.实验结果表明,该算法能够提高文本情感分类的正确性.该方法对舆情监控、股票市场行情预测和了解消费者对产品的偏好等具有较高的实用性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号