首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
用于文本情感分析的深度学习模型如递归神经网络等参数较多,因此需要大量高质量标记训练数据对模型进行训练和优化。在实际应用中,特定领域难以获取高质量带情感标签评论数据。在跨领域文本情感分类任务中,针对不同领域数据分布差异性,提出了基于句法结构迁移和领域融合的跨领域文本情感分类方法,可以解决特定领域对带标签数据依赖问题。句法结构迁移方面,将依存语法特征加入到递归神经网络中,设计了一种可迁移的依存句法递归神经网络模型,通过句法结构迁移有效地迁移跨领域结构信息,为情感迁移提供支撑。领域融合方面,在传统的最大均值差异领域度量方法上细化了跨领域同类别距离度量信息。通过约束源领域和目标领域的分布,可以保证2个领域距离在学习过程中尽可能减小,有效地提取领域通用特征。实验结果表明,该方法比已有方法有效提高了跨领域情感分类准确率。  相似文献   

2.
为了有效获取交通运输信息标准中的一致性条款,简化标准测试方法,针对现有文本分类方法中卷积神经网络存在的缺少上下文含义和循环神经网络存在的梯度消失及梯度弥散等问题,提出一种基于BLSTM的文本增强表示方法和基于CNN网络的语句分类相结合的方法进行一致性条款分类.其核心思想是将BLSTM前向和后向过程产生的向量相加,然后与原文本向量拼接作为文本的向量表示,将文本向量作为CNN网络的输入进行文本分类.为验证所提模型的有效性,设置了与传统机器模型TF-IDF+SVM、单CNN、BLSTM神经网络模型及经典混合模型的对比试验.通过构造的交通运输信息标准条款数据集测试表明,基于改进的BLSTM和CNN的链式混合神经网络模型准确率达到93.77%.  相似文献   

3.
多标签分类问题已广泛应用于文本分类、图像分类、生物基因功能分类、视频语义注释等.相比较于单标签分类,多标签分类更符合真实世界的客观规律.然而,已有的卷积神经网络多标签分类算法没有探究标签之间相关性,为此提出了一种基于标签相关性卷积神经网络多标签分类,即计算标签之间共现相似度方法,同时为了解决卷积神经网络预测精度高,训练时间长的缺点,引入了迁移学习的方法加快了模型的训练时间.实验表明,提出的算法优于传统的多标签分类算法.  相似文献   

4.
为了有效利用句法信息指导翻译过程,提出了基于贪心搜索的树-串句法统计翻译模型的正向解码算法.该算法以对数线性模型为整体框架,采用翻译模型概率、语言模型概率和空译文罚分作为特征函数.在解码过程中首先生成初始译文,然后通过遍历句法分析树反复迭代来改进译文.重点研究了解码过程中译文片断的打分方法.实验在IWSLT2004数据集上进行并采用BLEU方法评价翻译结果.实验结果表明正向贪心解码算法在翻译质量和速度上均好于现有的反向解码算法,这说明正向贪心解码算法能够更为有效地利用句法结构信息,更适合于树-串统计翻译模型.  相似文献   

5.
合并症预测是典型的多标签分类问题,有效利用标签之间的相关性是提高多标签分类模型精度的关键.针对该问题提出了高血压患者常见合并症的预测模型AR-MLKNN(multi-label k-nearest neighbor based on association rules),首先从不同语义空间的临床概念中构建了患者特征表示,然后通过疾病标签关联信息量化合并症并发关系,并基于样本k邻城内标签的概率分布以后验概率的方式计算样本对每个疾病标签的隶属概率.利用合并症并发关系和疾病标签隶属概率映射形成合并症风险矩阵,基于合并症风险值,根据最小化分类损失的原则动态调整分类阈值以获取最优分类结果.实验结果表明该模型可以对高血压合并症进行较为准确的预测,F1-score达到82%,相较于常规的ML-KNN(multi-label k-nearest neighbor)模型提高了8%,在临床辅助决策领域具有一定的应用价值.  相似文献   

6.
针对超多标签分类(SMLC)带来的数据稀疏性和可扩展性等问题,根据深度卷积神经网络(CNN)提出了基于层次型标签集的文本分类方法,以完成数据标签规范化.该方法对每个文档的标签集进行扩展,并整合了标签层次结构中所有缺失的标签.通过CNN实施特征提取模块,以及由全连接神经网络组成分类模块.此外,分析了在输入训练文本的表征中使用不同类型的嵌入模型及其不同组合的影响.实验使用公开的PubMed科研文献集对所提方法进行评估,实验结果证明了所提方法能够处理高复杂性问题;在层次型度量和平均准确率方面,该方法优于一些现有的方法.  相似文献   

7.
<正>确划分句子的韵律结构对于提高合成语音的质量具有重要的意义。特征的选择是韵律结构预测的关键因素之一。在中文信息处理中,文本特征可以分为浅层文本特征与深层文本特征。浅层特征包括词、词性、词长等;深层特征包括句法信息、语义信息等。该文在挖掘剖析句法结构、依存句法结构同韵律结构之间关系的基础上,从文本中获取相关浅层和深层文本特征,并采用条件随机场模型实现韵律短语预测。首先以浅层文本特征进行韵律短语识别,然后在此基础上加入句法依存深层文本特征进行模型构建。实验结果表明:加入句法依存特征后,韵律短语预测精确率提高了13.3%,召回率提高了14.69%,F值提高了14.1%。  相似文献   

8.
综合考虑关键词、词向量及句法结构对句子相似度计算的影响,将平滑逆频率(smooth inverse frequency,SIF)与依存句法相结合以提高句子相似度计算的精准性。SIF的核心思想为利用加权和去除非信息噪音得到的句向量来计算句子相似度。借助哈尔滨工业大学的语言技术平台,将句子的结构信息添加到句子相似度计算中,通过句子中"词语依存关系"三元组的相似性来度量句子间的相似度。实验结果表明,基于SIF和依存句法的句子相似度计算方法所得的反映准确率和召回率平衡度的指标为84. 4%,与同类的句子相似度计算方法相比,能更为有效衡量句子间的相似程度。  相似文献   

9.
使用4种类型的循环神经网络模型(RNN、GRU、LSTM、BLSTM)处理手机传感器采集的异构时间序列数据,用于人体行为识别研究.针对4种模型,分别构建自动特征提取方法,并对参数设置进行优化.在公开数据集UCI HAR上进行了行为识别测试实验,实验结果表明,BLSTM模型的识别精度高达95.7%,可以有效地用于行为识别,其识别率和性能优于其他3种循环神经网络,且高于卷积神经网络深度学习方法.  相似文献   

10.
考虑到句法结构与语义结构之间的紧密联系, 尝试将句法信息融入UCCA语义分析模型中来增强语义分析的性能。基于目前性能最好的基于图的 UCCA语义分析模型, 提出并比较4种不同的融入依存句法信息的方法。采用SemEval-2019国际评测语义分析任务的英文数据集进行实验, 在本领域和跨领域两个数据集上的结果均表明, 句法增强的方法能够给显著地提高UCCA分析性能。引入BERT特征后, 句法信息仍然可以提供一定的帮助。  相似文献   

11.
树-串句法统计翻译模型的正向解码算法   总被引:1,自引:0,他引:1  
针对树-串句法统计翻译模型提出了基于对数线性模型的正向解码算法.该解码算法直接对句法树进行操作,能够简单有效地利用句法信息.在对数线性模型中定义了翻译模型概率、语言模型概率和空译文罚分3个特征函数.采用集束搜索算法搜索假设空间,采用多栈存储假设,依据启发式策略进行假设打分.研究了假设的扩展方法,特别是树节点上不同操作对位置有效性的影响.在IWSLT2004数据集上进行了对比实验.实验结果表明正向解码算法译文的BLEU评分高于传统解码算法,说明正向解码算法能够克服传统解码算法的不足,有效利用句法结构信息,比传统解码算法更适合于树-串统计翻译模型.  相似文献   

12.
在协议组合理论的基础上提出了一种可以动态扩展协议句法的基本协议实现模型,依据现有协议特征中的句法结构,将协议句法结构划分为4个不同的种类,针对这4种不同类型的协议句法结构具体提出了4种不同的可动态扩展的协议句法实现模型.基于该模型实现的协议软件在句法结构上具有灵活可扩展的特性.当该协议扩展句法结构时候,即使相应协议软件处于执行状态,也可以不中止协议软件的运行而完成句法结构的扩展.最后以SIP协议为例,使用VOCAL源码详细说明了如何在该模型的基础上实现协议句法动态扩展.  相似文献   

13.
本文提出了一种基于编码解码器与深度主题特征的模型,实现了多标签文本分类.针对传统多标签文本分类方法的特征语义缺失的问题,采用一种长短时记忆(long short-term memory,LSTM)网络提取文本的局部特征与主题模型(latent dirichlet allocation,LDA)提取文本的全局特征的深度主题特征提取模型(deep topic feature extraction model,DTFEM),得到具有文本深层语义特征的语义编码向量,并将该编码向量作为解码器网络的输入.解码器网络将多标签文本分类的任务看作序列生成的过程,解决了多标签文本分类的标签相关性的问题,并加入attention机制,计算注意力分布概率,突出关键输入对输出的作用,改进了由于输入过长导致的语义缺失问题,最终实现多标签文本分类.实验结果表明,该模型能够获得比传统的多标签文本分类系统更优的结果.另外,实验证明使用深度主题特征的方法可以提高多标签文本分类的性能.  相似文献   

14.
中文分词是中文自然语言处理中的关键基础技术之一.目前,传统分词算法依赖于特征工程,而验证特征的有效性需要大量的工作.基于神经网络的深度学习算法的兴起使得模型自动学习特征成为可能.文中基于深度学习中的双向长短时记忆(BLSTM)神经网络模型对中文分词进行了研究.首先从大规模语料中学习中文字的语义向量,再将字向量应用于BLSTM模型实现分词,并在简体中文数据集(PKU、MSRA、CTB)和繁体中文数据集(HKCity U)等数据集上进行了实验.实验表明,在不依赖特征工程的情况下,基于BLSTM的中文分词方法仍可取得很好的效果.  相似文献   

15.
面向微博短文本的情绪分析研究是当前的研究热点。提出了利用依存句法对微博短文本进行分析,抽取关系对,并设计相应的方法用于情感计算,其结果作为特征加入到情绪句判别模型之中;同时设计出情绪句判别规则,在分类模型之前或者之后利用规则进行预处理或者后处理,提高情绪句的判别正确率;最后使用NLP&2013中文微博数据,通过实验证明研究方法的有效性,在性能指标上相比评测最好成绩有了进一步提高。  相似文献   

16.
针对多标签分类问题,提出了一种面向样本不均衡及类属不确定性的多标签分类算法。首先,结合“一对一”分解策略和贝叶斯理论,将多标签数据集分解为单标签数据子集,并利用Parzen窗方法估计子集样本后验概率,对类标签进行了基于概率的不确定性表示。然后,在融合概率类标签和LS-SVM模型的基础上,利用样本差异信息来调节惩罚参数值,建立了考虑样本不均衡的概率LS-SVM子分类器模型。依据正态分布的3σ原理,设计了子分类器决策阈值确定方法。最后,结合实例对算法进行了性能分析,结果证明了新算法的合理性和有效性。  相似文献   

17.
在汽轮机轴系振动故障模拟试验的基础上,对大量故障模拟试验数据进行计算,建立了典型故障的4种信息熵样本.采用概率神经网络对故障信号的4种信息熵特征进行融合研究,并将融合结果与最小距离分类器的分类效果进行了对照分析.研究表明,概率神经网络可实现对训练样本100%的正确识别率,对"陌生"样本的正确识别率也超过80%,其识别效果远远超过最小距离分类器.可见,概率神经网络综合了贝叶斯分类器和神经网络的优势,在汽轮机故障模式分类方面具有明显的优势,利用概率神经网络融合信号的信息熵特征实现汽轮机轴系故障模式识别是一种可行有效的方法.  相似文献   

18.
针对短文本具有稀疏性强和文本长度较小等特性, 为更好地处理短文本分类问题, 提出一个基于集成神经网络的短文本分类模型. 首先, 使用扩展词向量作为模型的输入, 从而使数值词向量可有效描述短文本中形态、 句法及语义特征; 其次, 利用递归神经网络(RNN)对短文本语义进行建模, 捕获短文本内部结构的依赖关系; 最后, 在训练模型过程中, 利用正则化项选取经验风险和模型复杂度同时最小的模型. 通过对语料库进行短文本分类实验, 验证了所提出模型有较好的分类效果, 且该分类模型可处理变长的短文本输入, 具有良好的鲁棒性.  相似文献   

19.
为了将标签间的语义相关性引入多标签图像分类模型中,传统的方法例如 ML-GCN 通过设置单阈值将标 签条件概率矩阵二值化为标签共现矩阵,然而,仅设置单阈值很难归纳所有的标签语义关系情况。 针对这一问题, 提出一种融合标签间强相关性的多标签图像分类方法—MGAN(Multiple Graph Convolutional Attention Networks), 通过设置多个阈值,将传统的标签条件概率矩阵按照不同的相关性程度分割为多个子图;同时,为了提升多标签分 类性能,也引入图像区域空间相关性。 另外,针对传统的“CNN+GCN”方法将标签与特征的融合张量视为预测分数 缺乏可解释性问题,将标签与特征的融合张量视为注意力分数;在 MS-COCO 和 PASCAL VOC 数据集上与其他主 流多标签图像分类方法进行了对比实验,平均准确率分别达到了 94. 9%和 83. 7%,相较于经典 ML-GCN 模型,分 别获得了 0. 9%和 0. 8%准确率提升,且在“Binary”和“Re-weighted”邻接矩阵模式下,MGAN 都有较好的表现,验证 了新的融合方法可以缓解图卷积神经网络过平滑问题对多标签图像分类的影响。  相似文献   

20.
为保留脑电(Electroencephalogram,EEG)空间信息的同时充分挖掘EEG时序相关信息,提出了一种三维卷积神经网络(3-Dimensional Convolutional Neural Networks,3D-CNN)结合双向长短期记忆神经网络(Bidirectional Long Short-term Memory Neural Networks,BLSTM)的混合神经网络(3DCNN-BLSTM);为验证该模型的分类性能,在DEAP数据集和SEED数据集上进行情感识别实验. 实验结果表明3DCNN-BLSTM模型能有效学习EEG多通道间的相关性与时间维度信息且提高了情感分类性能:在DEAP数据集的二分类实验中,唤醒度和效价的情感识别平均准确率分别为93.56%和93.21%;在DEAP数据集的四分类实验中,情感识别平均准确率为90.97%;在SEED数据集的三分类实验中,情感识别平均准确率为98.90%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号