首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 515 毫秒
1.
针对目前各种基于长短期记忆网络LSTM的句子情感分类方法没有考虑词的词性信息这一问题,将词性与自注意力机制相结合,提出一种面向句子情感分类的神经网络模型PALSTM(Pos and Attention-based LSTM).首先,结合预训练词向量和词性标注工具分别给出句子中词的语义词向量和词性词向量表示,并作为LSTM的输入用于学习词在内容和词性方面的长期依赖关系,有效地弥补了一般LSTM单纯依赖预训练词向量中词的共现信息的不足;接着,利用自注意力机制学习句子中词的位置信息和权重向量,并构造句子的最终语义表示;最后由多层感知器进行分类和输出.实验结果表明,PALSTM在公开语料库Movie Reviews、Internet Movie Database和Stanford Sentiment Treebank二元分类及五元情感上的准确率均比一般的LSTM和注意力LSTM模型有一定的提升.  相似文献   

2.
提出了一种基于深度学习的CNN-LSTM-Concat快速DGA域名分类算法,使用多层一维卷积网络对域名字符进行序列化处理,LSTM网络层用于强化获取字符间长距离依赖关系。通过将LSTM的多序列输入转化为单向量输入,在保证检测性能的前提下,能够大幅提高训练和检测速度。实验证明,我们的方法对DGA域名分类的准率在公开数据集上达到98.32%。同时,在准确率相比主流的LSTM方法更高的情况下,检测时间比LSTM方法快6.41倍。  相似文献   

3.
基于主题注意力层次记忆网络的文档情感建模   总被引:2,自引:0,他引:2  
针对文档水平情感分析传统模型存在先验知识依赖以及语义理解不足问题,提出一种基于注意力机制与层次网络特征表示的情感分析模型TWE-ANN.采用基于CBOW方式的word2vec模型针对语料训练词向量,减小词向量间的稀疏度,使用基于Gibbs采样的LDA算法计算出文档主题分布矩阵,继而通过层次LSTM神经网络获取更为完整的文本上下文信息从而提取出深度情感特征,将文档主题分布矩阵作为模型注意力机制提取文档特征,从而实现情感分类.实验结果表明:提出的TWE-ANN模型较TSA、HAN模型分类效果较好,在Yelp2015、IMDB、Amazon数据集上的F值分别提升了1.1%、0.3%、1.8%,在Yelp2015和Amazon数据集上的RMSE值分别提升了1.3%、2.1%.  相似文献   

4.
针对自然语言处理中传统因果关系抽取主要用基于模式匹配的方法或机器学习算法进行抽取,结果准确率较低,且只能抽取带有因果提示词的显性因果关系问题,提出一种使用大规模的预训练模型结合图卷积神经网络的算法BERT-GCN.首先,使用BERT(bidirectional encoder representation from transformers)对语料进行编码,生成词向量;然后,将生成的词向量放入图卷积神经网络中进行训练;最后,放入Softmax层中完成对因果关系的抽取.实验结果表明,该模型在数据集SEDR-CE上获得了较好的结果,且针对隐式的因果关系效果也较好.  相似文献   

5.
针对传统邮件分类模型中较少对邮件主题进行描述和分析的问题,提出一种代价敏感多主题学习的邮件分类算法,用以实现垃圾邮件过滤.首先,基于LDA(潜在狄利克雷分布)对邮件的多个主题进行提取,对邮件语义进行描述;其次,利用CS-SVM(代价敏感支持向量机)对邮件进行代价敏感学习,实现对不同类别邮件的惩罚;最后,结合MI-SVM(多示例支持向量机)进行代价敏感的多主题学习,实现邮件分类.实验采用四组ling-spam处理数据集.实验结果证明:该分类算法较比传统邮件分类算法,可以取得更高的准确性、特异性与敏感性.  相似文献   

6.
基于文本特征分析的钓鱼邮件检测   总被引:1,自引:0,他引:1  
提出了一种基于邮件文本特征的钓鱼邮件检测方法。首先利用邮件解析器将邮件中非文本部分内容剔除,然后提取邮件剩余部分中存在的网站链接及其他内容,并在此基础上提取10种特征。针对这些特征,利用机器学习方法对其进行训练和预测,将邮件分类为普通邮件和钓鱼邮件。我们改进了以往一些针对网站链接分析的检测方法,并结合钓鱼邮件发展的新趋势,提出了6种新的特征。实验证明,本方法结合了新的钓鱼邮件特征,有效地提高了钓鱼邮件检测的召回率以及精准率,同时误判率有所降低。并且,本方法稍加改进以后就能用于钓鱼网站的检测。  相似文献   

7.
通过提出一种多路融合卷积神经网络(multi-mixed convolutional neural network,MMCNN)对网购商品评论数据进行文本情感分类。采用skip-gram模型进行词向量的训练,并用训练好的向量表示评论数据。针对评论数据长短不一的情况,提出了循环词向量填充和随机词向量填充算法,有助于提升模型分类的准确率。针对传统卷积神经网络特征提取方式单一的问题,将多路卷积特征和池化特征在全连接层进行了特征融合,以此提升网络的文本分类效果。选择京东网站上45 000条婴儿奶粉的评论数据进行试验,并与支持向量机、最大熵模型、朴素贝叶斯等传统机器学习方法以及经典卷积神经网络方法进行对比。试验结果表明,提出的多路融合卷积神经网络具有较高的分类正确率。  相似文献   

8.
针对影评数据的情感分析,提出基于Word2vec和多分类器的情感分类方法.首先在对评论数据进行预处理的基础上,训练Word2vec模型,将词表示为词向量;其次结合随机森林和朴素贝叶斯多项式模型完成影评数据的情感分类;最后在Kaggle竞赛公开的影评数据集上进行实验.结果表明,Word2vec可有效捕捉词的语义,显著提高情感分类算法的性能.  相似文献   

9.
JavaScript是一种动态脚本语言,被用于提高网页的交互能力.然而攻击者利用它的动态性在网页中执行恶意代码,构成了巨大威胁.传统的基于静态特征的检测方式难以检测经过混淆后的恶意代码,而基于动态分析检测的方式存在效率低等问题.本文提出了一种基于语义分析的静态检测模型,通过提取抽象语法树的词法单元序列特征,使用word2vec训练词向量模型,将生成的序列向量特征输入到LSTM网络中检测恶意JavaScript脚本.实验结果表明,该模型能够高效检测混淆的恶意JavaScript代码,模型的精确率达99.94%,召回率为98.33%.  相似文献   

10.
针对使用域名生成算法(DGA)僵尸网络隐蔽性强,传统检测算法特征提取复杂的问题,提出一种无需提取具体特征的深度学习模型DGA域名检测方法.首先基于word-hashing将所有域名转用二元语法字符串表示,利用词袋模型把域名映射到高维向量空间.然后利用5层深度神经网络对转换为高维向量的域名进行训练分类检测.通过深度模型,能够从训练数据中发现不同层次抽象的隐藏模式和特征,而这些模式和特征使用传统的统计方法大多是无法发现的.实验中使用了10万条DGA域名和10万条合法域名作为样本,与基于自然语言特征分类算法进行对比实验.实验结果表明该深度模型对DGA域名检测准确率达到97.23%,比基于自然语言特征分类算法得到的检测准确率高3.7%.  相似文献   

11.
针对情感分析问题中长句和短句进行情感分类时不同的建模特点,提出了一种基于联合深度学习模型的情感分类方法。该方法融合长短期记忆模型(LSTM)与卷积神经网络(CNN)对影视评论数据进行情感极性判别,该方法采用LSTM模型对上下文进行建模,通过逐词迭代得到上下文的特征向量,采用CNN模型从词向量序列中自动发现特征,并从局部抽取特征后将局部特征整合成全局特征来提高分类效果。所提出的方法在COAE2016评测的任务2的情感极性分类任务中,其系统准确率获得最好结果。  相似文献   

12.
针对下肢助力外骨骼的连续运动控制问题,提出了一种基于表面肌电信号(sEMG)与长短时记忆(LSTM)网络的连续运动估计方法.通过LSTM对肌电-运动的映射关系进行训练分析,基于奇异值分解特征值矩阵的误差算法获取主元分析(PCA)算法的主成分数量(降维维度),实现了对下肢三个关节在矢状面内的连续运动估计,且提高了连续运动估计的实时性.通过与传统网络支持向量机(SVM)、反向传播(BP)神经网络训练结果的对比分析,证明了LSTM网络在下肢连续运动预测中的优越性.  相似文献   

13.
针对智能电能表在运行过程中出现烧损的现象,在对各类因素进行关联分析后, 提出了一种基于XGBoost算法的智能电能表烧损预测方法,以某省份2019—2020年的数据为例进行了测试验证. 采用该方法结合电能表基本信息数据、运行数据和环境数据进行烧损识别,并与K最邻近法(K-NearestNeighbor,KNN)、朴素贝叶斯和支持向量机等传统机器学习算法进行对比. 结果表明,基于极限梯度提升算法(eXtreme Gradient Boosting, XGBoost)的算法精度达到91%,召回率达到66%,综合指标F1达到76.51%,远高于传统算法. 算法模型在进行系统部署的过程中,运用长短期记忆算法(Long Short Term Memory, LSTM)对部分缺失值进行了填充,经试点验证,该模型可较为准确地预测低压台区电能表烧损现象.  相似文献   

14.
针对金融服务领域面临的严峻信息安全挑战,以及现有钓鱼网页检测方法的不足,提出一种基于支持向量机(support vector machine,SVM)的金融类钓鱼网页检测方法.采用网页渲染去除常见的页面特征伪装,提取统一资源定位符(uniform resource locator,URL)信息特征、页面文本特征、页面表单特征以及页面logo图像特征,构建特征向量训练SVM分类器模型,实现对金融类钓鱼网页的识别.在特征提取过程中,利用适合中文的多模式匹配算法AC_SC(AC suitable for chinese)提高文本匹配效率,并采用加速鲁棒特征(speeded-up robust feature,SURF)算法实现logo图像的特征提取与匹配.多方法实验结果对比表明,该方法针对性更强,能达到99.1%的检测准确率、低于0.86%的误报率.  相似文献   

15.
为了解决语音分离中非负矩阵分解(non-negative matrix factorization,NMF)、深度神经网络(deep neural network,DNN)等算法没有考虑语音时序相关性的问题。结合NMF和长短时记忆网络(long short-term memory,LSTM)算法提出NMFLSTM单通道语音分离算法:将语音信号的幅度谱作为模型的输入特征,通过训练NMF和LSTM模型获得目标语音的基矩阵和系数矩阵,并对其结果进行语音重构最终实现语音分离。实验结果表明:相比于未考虑语音时间连续性的算法,使用NMFLSTM算法分离语音的客观语音质量评估值(perceptual evaluation of speech quality,PESQ)有明显提升,其最大值超过3. 1,获得良好的分离效果。  相似文献   

16.
提出了一种基于聚类的支持向量机增量学习算法.先用最近邻聚类算法将训练集分成具有若干个聚类子集,每一子集用支持向量机进行训练得出支持向量集;对于新增数据首先聚类到相应的子集,然后计算其与聚类集内的支持向量之间的距离,给每个训练样本赋以适当的权重;而后再建立预估模型.此算法通过钢材力学性能预报建模的工业实例研究,结果表明:与标准的支持向量回归算法相比,此算法在建模过程中不仅支持向量个数明显减少,而且模型的精度也有所提高.  相似文献   

17.
生成过程中利用词汇特征(包含n-gram和词性信息)识别更多重点词汇内容,进一步提高摘要生成质量,提出了一种基于sequence-to-sequence(Seq2Seq)结构和attention机制的、融合了词汇特征的生成式摘要算法。算法的输入层将词性向量与词向量合并后作为编码器层的输入,编码器层由双向LSTM组成,上下文向量由编码器的输出和卷积神经网络提取的词汇特征向量构成。模型中的卷积神经网络层控制词汇信息,双向LSTM控制句子信息,解码器层使用单向LSTM为上下文向量解码并生成摘要。实验结果显示,在公开数据集和自采数据集上,融合词汇特征的摘要生成模型性能优于对比模型,在公开数据集上的ROUGE-1,ROUGE-2,ROUGE-L分数分别提升了0.024,0.033,0.030。因此,摘要的生成不仅与文章的语义、主题等特征相关,也与词汇特征相关,所提出的模型在融合关键信息的生成式摘要研究中具有一定的参考价值。  相似文献   

18.
为提高基于超球的支持向量机算法中样本数据较多时的训练速度,提出一种构造最小超球的并行融合算法.该算法将全部训练数据集依据特定策略分割成若干个子数据集,分别对各个子数据集进行训练,对所得到的各子数据集的支持向量与融合数据进行训练,构造最小超球.仿真结果表明,并行融合算法在保证分类精度的情况下,能够显著减少训练时间,提高效率,且支持向量的数目较少.同时也验证了该文对Gauss核函数分析的正确性.  相似文献   

19.
准确预测变电站及配网工程的物资需求,对于节约工程成本,提高资金利用率,具有重要意义.尽管研究者在电力物资需求预测方面已经开展了一系列的研究,提出了很多预测模型和算法,例如基于神经网络的算法,然而,这些算法普遍存在输入数据过于简单和理想、仅对少数几种物资的需求量进行了预测实验、预测的准确率偏低等不足.因此,目前生产系统普遍采用人工方式进行电力物资需求预测,由有经验的领域专家根据工程初步设计方案预测各类物资的需求量.为了解决现有电力物资需求预测方法存在的不足,本文提出基于矩阵分解的预测方法,以电网建设项目物资需求历史数据和项目计划的部分物资作为输入,通过矩阵分解算法对项目其他物资需求用量进行预测.矩阵分解算法不需要大量的历史用量数据,只用部分项目的物资数据就能进行预测,且算法不需要提前进行训练.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号