首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对影评数据的情感分析,提出基于Word2vec和多分类器的情感分类方法.首先在对评论数据进行预处理的基础上,训练Word2vec模型,将词表示为词向量;其次结合随机森林和朴素贝叶斯多项式模型完成影评数据的情感分类;最后在Kaggle竞赛公开的影评数据集上进行实验.结果表明,Word2vec可有效捕捉词的语义,显著提高情感分类算法的性能.  相似文献   

2.
针对新冠疫情新闻繁杂及信息类别不明等问题,采取新冠疫情新闻语料作为数据集,分别利用TF-IDF与Word2vec提取特征值,与支持向量机、朴素贝叶斯等基于机器学习的模型结合对文本进行分类,并与TextCNN及BiLSTM 2种深度学习模型的分类实验结果进行对比分析。实验结果表明:同等条件下,基于新冠疫情主题新闻数据集,SVM+TF-IDF模型在几种分类器中效果最好,精确度达到84%,F1值达到83%。  相似文献   

3.
Word2vec的工作原理及应用探究   总被引:1,自引:0,他引:1  
研究了Word2vec的工作原理及应用,明确了统计语言模型的关键问题,分析了词向量的特点,并对神经网络语言模型、Log_Linear模型和Log_Bilinear模型的基本原理进行了探讨,对Word2vec词向量训练框架的工作原理进行了详细分析,推导出了训练模型的目标函数,介绍了Word2vec工程的主要文件和训练参数,并将Word2vec应用于中文词向量的训练。  相似文献   

4.
提出了一种基于TF-IDF的均值Word2vec模型和有监督的机器学习方法的燃气客服热线的中文文本情感分析方法。首先,采用Word2vec模型训练出文本中每个词语的词向量及TF-IDF算法计算文本中每个词语的权重,并对词语的词向量进行加权处理。其次,将加权后的词向量对应维度的值进行累加并求均值作为该文本的向量,即文本的特征。最后,对文本的特征使用有监督的机器学习方法进行训练和预测,以实现文本的情感分析。实验结果表明,该方法获得了较高的分类准确率并能有效地进行情感分析。  相似文献   

5.
为了克服传统基于机器学习的情感分析算法依赖手工建立情感词典、需要进行人工干预的缺点,该文提出1种加权word2vec注意力长短记忆网络(WWAL)情感分析模型。突出评论文本中关键词的作用,在word2vec的基础上引入了术语频率-逆文档频率(TFIDF)算法形成词向量,同时在长期短期记忆(LSTM)网络模型中加入了注意力机制。在标准数据集上的实验证明,该文WWAL模型的查准率、召回率和F_1指标等实验衡量指标均优于传统机器学习方法。  相似文献   

6.
基于朴素贝叶斯的垃圾邮件分类系统的设计   总被引:1,自引:0,他引:1  
结合垃圾邮件分类系统的具体要求,在传统规则分类方法的基础上引入机器学习的知识,给出了系统体系结构和特征提取算法,试验了一种对新邮件计算所属类别后验概率的方法,并详细讨论了一个基于朴素贝叶斯方法的个性化垃圾邮件分类系统的设计。提出的分TFIDF特征子集提取算法和朴素贝叶斯方法对邮件进行分类具有较好的分类精度,应用朴素贝叶斯方法在新邮件到达的同时对其进行分类,具有较好的分类速度。  相似文献   

7.
为了研究超大直径盾构掘进过程地面沉降规律,以武汉市和平大道南延线盾构工程为研究对象,首先收集了超大直径盾构下穿过程掘进参数和地层地质参数,并使用盾构掘进过程深跨比描述超大直径盾构影响特征;其次,通过收集现场沉降测点数据分析盾构隧道施工阶段地表沉降的影响范围,计算了90%、95%、99%三种置信区间下地表沉降影响范围;最后,选取不同范围内的多元时序数据作为输入参数,分别建立了基于贝叶斯优化算法(BO)的长短期记忆(LSTM)、BP神经网络和随机森林(RF)大直径盾构地面沉降预测模型.模型运行过程中,通过贝叶斯优化算法分别寻找三种不同模型下的最优超参数,并通过四种评价指标对比模型精度.结果如下:(1)在90%置信水平下三种算法均表现出最高精度,通过区间计算筛选有效输入参数能有效提高模型预测精度;(2)LSTM对隧道沉降的预测结果优于传统机器学习算法模型,MAPE最低达到8.91%,R2达到90%.  相似文献   

8.
混合式朴素贝叶斯分类模型   总被引:3,自引:0,他引:3  
为了降低朴素贝叶斯分类模型的独立性假设约束,提出一种混合式朴素贝叶斯分类模型(MBN:Mixed Naive Bayes)。通过分析贝叶斯定理,把条件属性集合划分成若干个独立的属性子集,用树增广朴素贝叶斯分类对属性子集分别进行分类学习,通过公式进行整合。将该模型算法与朴素贝叶斯及树增广朴素贝叶斯进行实验比较,实验结果表明MBN分类器在多数数据集上具有较高的分类正确率。  相似文献   

9.
提出了一种基于卷积循环神经网络的文本特征提取方法,同时对比使用统计学中的TF-IDF以及Word2vec方法的文本特征表示,将提取的特征分别放入SVM与随机森林分类器中对来源于中国知网的中文学术论文数据集进行分类。实验结果表明,使用卷积神经网络和卷积循环神经网络特征提取模型提取的特征所取得的分类效果比TF-IDF、Word2vec特征提取方法得到的分类效果更好,同时使用SVM和随机森林分类器取得的分类效果略好于原生的神经网络。  相似文献   

10.
软件漏洞检测是维系软件安全性的关键,漏洞的高效检验是当前的研究热点。文中提出了一种基于DistilBert-LSTM与多项朴素贝叶斯的漏洞检测模型。为实现漏洞函数的源代码文本深度表征,文中通过DistilBert-LSTM挖掘漏洞的局部关键特征和全局时间特征,并得出漏洞的存在性概率;针对漏洞检测过程中的难样本,通过多项朴素贝叶斯进行优化检测,该模型使用TF-IDF矢量化器进行数据预处理,并通过执行卡方检验进行特征选择,将所得输出至多项朴素贝叶斯分类器中进行检测,以获得最终的漏洞检测结果。实验结果表明,文中提出的方法在公共漏洞和暴露数据库的数据上有效提高了漏洞检测的准确率和精确率,同时降低了漏洞检测的误报率和漏报率,相较于其他机器学习模型,具有更优的性能指标。  相似文献   

11.
针对传统文本分类方法忽略词语间的语义特征的问题,并为了改善输入文本的表示质量,提出一种基于短语结构和词语词性相结合的情感分类方法.该方法首先通过短语结构优化分词,可以更好地提取文本特征;其次利用Word2vec工具训练词语和词性相结合的文本语料库得到词向量模型,解决了Word2vec无法识别一词多义的问题;最后通过SVM算法对文本进行情感分类.实验结果表明,该算法能够提高文本情感分类的正确性.该方法对舆情监控、股票市场行情预测和了解消费者对产品的偏好等具有较高的实用性.  相似文献   

12.
为解决现有中文字向量表征方法中字形特征利用不充分的问题,利用矢量图形的尺度不变性,提出了一种面向汉字矢量图形特征的字向量 (scalable vector graphics to vector,SVG2vec)表征方法。预处理阶段将汉字像素图像转化矢量图形,生成字形矢量坐标对序列;特征学习阶段采用双向循环神经网络 (Recurrent Neural Network, RNN)和自回归混合密度循环神经网络构建矢量图形变分自编码器模型,利用模型学习汉字字形结构特征;向量生成阶段输入字形矢量坐标对序列到编码器,编码器将字形特征映射到概率连续分布空间,得到SVG2vec字向量。与已有字向量在不同层级任务上进行对比实验。结果表明:SVG2vec向量在命名实体识别、中文分词和短文本相似度计算实验中,F1均值比Word2vec、GloVe等未利用字形特征的向量分别提高了1.27、0.4,1.67、0.12,3.28、2.03,比glyph and meaning to vector (GnM2Vec)、Character-enhanced Word Embedding (CWE)等利用字形特征的向量分别提高了1.02、1.07,1.69、1.34,0.04、0.31,SVG2vec能更有效利用汉字字形特征。  相似文献   

13.
本研究在睁眼(eyes-open,EO)和闭眼(eyes-closed,EC)两种静息态下提取了45位健康被试的脑功能参数比率低频振幅(fractional amplitude of low frequency fluctuation,fALFF)和局部一致性(regional homogeneity,ReHo)数据,比较并分析了基于线性核的支持向量机(SVM)、基于RBF核的支持向量机、朴素贝叶斯、决策树、随机森林和自适应增强(Adaboost)6种机器学习方法在数据上的分类效果.实验表明,对单一特征数据分类时,朴素贝叶斯算法对fALFF数据的分类效果最好,线性核的SVM算法对ReHo数据的分类效果最好;对fALFF和ReHo数据相融合的多层次特征数据分类时,朴素贝叶斯算法的分类效果最好.此外,本研究对单一特征数据与多层次特征数据在6种机器学习方法上进行分类比较,结果表明利用多层次特征数据时,基于RBF核的SVM,朴素贝叶斯和随机森林算法的分类效果有所提升.本研究基于不同机器学习方法和不同层次特征数据的分类比较,为EO和EC静息态脑功能活动和其他脑病理的研究提供了相关的参考依据.  相似文献   

14.
针对传统的基于字级表示的实体槽位识别模型无法很好利用词语信息,以及信息技术(IT)运维领域缺少足够数量公开数据集的问题,提出一种基于BERT_Word2vec_BiLSTM_CRF模型的实体槽位识别方法,并通过数据增强对模型的训练数据集进行扩展.该模型将基于转换器的双向编码表征(BERT)模型得到的字向量表示和Word2vec得到的词向量表示进行融合,通过双向长短时记忆(BiLSTM)网络进行上下文编码,通过条件随机场(CRF)进行解码,得到最终的序列标注结果.通过在某企业提供的数据集上进行实验,结果表明:融合词级特征可以在BERT预训练模型的基础上进一步提升识别性能,F1值达到了92.33%.  相似文献   

15.
针对传统朴素贝叶斯算法属于浅层学习,其特征独立性假设易引起分类效果欠佳的问题,提出一种深度集成朴素贝叶斯模型;该模型受深度森林中集成思想的启发,将高斯朴素贝叶斯、多项式朴素贝叶斯、伯努利朴素贝叶斯3种浅层基分类器集成为具有深层学习结构的朴素贝叶斯模型。结果表明:提出的深度集成朴素贝叶斯模型不仅克服了浅层学习特征表达能力不足的问题,而且缓解了特征独立性假设的缺点;通过在经典文本分类数据集上的实验,证明了提出的深度集成朴素贝叶斯模型的精确率、召回率以及精确率与召回率的调和平均数F_1值显著增大,模型性能良好。  相似文献   

16.
针对文本、语义、关键词等方法计算主观题相似度的不足,提出一种基于相似度组合的方式构建主观题评分模型。该模型可根据评分逻辑,灵活地调整阀值,综合Word2vec算法、Doc2vec算法和TF_IDF算法的优势,提高主观题的相似度。实验表明,与人工评分对比,提出的评分模型得到的评分方差及偏差率都较小,稳定性较好,更贴近人工评分结果。  相似文献   

17.
铁路信号设备在运营维护过程中积累了大量以文本方式记录的维护数据,为了实现高效准确分类,提出将Word2vec、SMOTE算法与卷积神经网络(Convolutional?Neural?Networks,?CNN)相结合的铁路信号设备故障文本自动分类方法.?首先,对故障文本使用自然语言方法完成预处理,并采用Word2vec...  相似文献   

18.
为了提高朴素贝叶斯算法的复合语言文本分类准确度和效率,将加权朴素贝叶斯算法用于复合语言文本分类,采用量子遗传算法对权重参数进行优化;根据贝叶斯定理建立语言文本分类模型,考查样本属性之间的差异对分类结果的影响;然后引入属性权重,形成加权朴素贝叶斯文本分类模型;利用遗传算法对权重参数进行优化,借助量子比特运算提高遗传优化效...  相似文献   

19.
针对智能电能表在运行过程中出现烧损的现象,在对各类因素进行关联分析后, 提出了一种基于XGBoost算法的智能电能表烧损预测方法,以某省份2019—2020年的数据为例进行了测试验证. 采用该方法结合电能表基本信息数据、运行数据和环境数据进行烧损识别,并与K最邻近法(K-NearestNeighbor,KNN)、朴素贝叶斯和支持向量机等传统机器学习算法进行对比. 结果表明,基于极限梯度提升算法(eXtreme Gradient Boosting, XGBoost)的算法精度达到91%,召回率达到66%,综合指标F1达到76.51%,远高于传统算法. 算法模型在进行系统部署的过程中,运用长短期记忆算法(Long Short Term Memory, LSTM)对部分缺失值进行了填充,经试点验证,该模型可较为准确地预测低压台区电能表烧损现象.  相似文献   

20.
通过主题模型与语义网络对旅游电商中的评论文本进行挖掘,从而引导消费者与商家对评论信息作出重要决策;提出一种基于LDA(Latent Dirichlet Allocation,LDA)主题聚类与语义网络模型(LDA topic clustering and semantic network model,LTC-SNM)的方法对酒店在线评论文本进行研究;获取在线评论文本进行数据预处理,使用Word2vec生成词向量,利用机器学习算法对评论文本进行情感分类;通过LDA主题模型对分类后的文本进行聚类,生成酒店的特征主题词;通过ROSTCM将特征主题词与所修饰的情感词生成语义网络,缓解了挖掘文本信息的复杂性;实验结果表明:提出的LTC-SNM文本挖掘方法使得在线用户评价的主题更具表达性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号