首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对传统文本分类方法忽略词语间的语义特征的问题,并为了改善输入文本的表示质量,提出一种基于短语结构和词语词性相结合的情感分类方法.该方法首先通过短语结构优化分词,可以更好地提取文本特征;其次利用Word2vec工具训练词语和词性相结合的文本语料库得到词向量模型,解决了Word2vec无法识别一词多义的问题;最后通过SVM算法对文本进行情感分类.实验结果表明,该算法能够提高文本情感分类的正确性.该方法对舆情监控、股票市场行情预测和了解消费者对产品的偏好等具有较高的实用性.  相似文献   

2.
提出了一种基于卷积循环神经网络的文本特征提取方法,同时对比使用统计学中的TF-IDF以及Word2vec方法的文本特征表示,将提取的特征分别放入SVM与随机森林分类器中对来源于中国知网的中文学术论文数据集进行分类。实验结果表明,使用卷积神经网络和卷积循环神经网络特征提取模型提取的特征所取得的分类效果比TF-IDF、Word2vec特征提取方法得到的分类效果更好,同时使用SVM和随机森林分类器取得的分类效果略好于原生的神经网络。  相似文献   

3.
提出了一种基于TF-IDF的均值Word2vec模型和有监督的机器学习方法的燃气客服热线的中文文本情感分析方法。首先,采用Word2vec模型训练出文本中每个词语的词向量及TF-IDF算法计算文本中每个词语的权重,并对词语的词向量进行加权处理。其次,将加权后的词向量对应维度的值进行累加并求均值作为该文本的向量,即文本的特征。最后,对文本的特征使用有监督的机器学习方法进行训练和预测,以实现文本的情感分析。实验结果表明,该方法获得了较高的分类准确率并能有效地进行情感分析。  相似文献   

4.
针对影评数据的情感分析,提出基于Word2vec和多分类器的情感分类方法.首先在对评论数据进行预处理的基础上,训练Word2vec模型,将词表示为词向量;其次结合随机森林和朴素贝叶斯多项式模型完成影评数据的情感分类;最后在Kaggle竞赛公开的影评数据集上进行实验.结果表明,Word2vec可有效捕捉词的语义,显著提高情感分类算法的性能.  相似文献   

5.
铁路信号设备是保证行车安全的必要条件,而信号室内设备是行车控制的中心,信号设备的维护质量及处理问题的效率直接影响铁路运输的效率。该文对铁路信号室内设备维护及故障处理进行论述,探索出快速准确处理故障的方法。  相似文献   

6.
为了探索高校学生实习时提交的实践报告文本存在着重复的问题,从高校教学管理部门收集到相关文本的分类数据,结合Jieba分词工具处理文本信息,利用Word2vec词向量转换技术,表现了自然语言精准的语义分析能力.考虑到主题词抽取、概率分布情况及时间复杂度三个方面,使用Python的OS库完成批处理去重、去停用词和去非中文词...  相似文献   

7.
Word2vec的工作原理及应用探究   总被引:1,自引:0,他引:1  
研究了Word2vec的工作原理及应用,明确了统计语言模型的关键问题,分析了词向量的特点,并对神经网络语言模型、Log_Linear模型和Log_Bilinear模型的基本原理进行了探讨,对Word2vec词向量训练框架的工作原理进行了详细分析,推导出了训练模型的目标函数,介绍了Word2vec工程的主要文件和训练参数,并将Word2vec应用于中文词向量的训练。  相似文献   

8.
针对高校图书馆中文图书的分类推荐个性化服务问题,结合本科专业课程体系,提出一种基于word2vec的中文文本分类的WV-TF-IDF模型.首先建立文本分类语料库FJCCT,接着利用基于神经网络的word2vec模型和TF-IDF进行文本特征计算,然后使用KNN和GBDT文本分类算法对比WV-TF-IDF和TF-IDF模型的效果.实验结果表明基于WV-TF-IDF模型GBDT文本分类算法的正确率更高.  相似文献   

9.
基于word2vec和BERT词向量技术的方法在文本分类分词过程中存在着错误传播问题,提出了融合ERNIE词向量技术的卷积神经网络模型.针对中文文本,运用ERNIE实体掩码的方式捕获词汇和语义信息,使用卷积神经网络进行特征提取.在THUCNews开源数据集上,准确率达到93.95%,比Word2Vec-CNN高出3.4%,BERT-CNN高出3.07%.实验结果证明了本文模型在缓解错误传播问题的有效性.  相似文献   

10.
为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法 .该方法通过引入信息熵及修正因子,缓解了数据不平衡对分类准确率及召回率造成的不良影响.实验结果表明:所提出的分类方法在准确率及召回率上与word2vec均值模型相比,分别提高7.3%及10.5%.  相似文献   

11.
针对传统文本特征选择算法没有考虑特征的语义及特征与类别之间关系的问题,提出了一种结合语义和分类贡献的特征选择算法.利用LDA主题模型获取文本和词的表示,通过计算词与文本之间的语义相似度,获取词对文本的重要性.再利用Word2vec词向量模型获取文本类别特征,通过计算文本中的词与文本类别特征之间的语义相似度,获取词对类别的重要性,最后结合词对文本的重要性和词对类别的重要性选择分类贡献度高的词作为最终的分类特征.实验表明,该算法能够有效地降低文本特征数量,减少分类计算开销,降低噪声对分类的影响,提升分类效果.  相似文献   

12.
文本分类一直是自然语言处理中一个备受关注的问题,在邮件分类、文件检索、用户情感识别等领域有着广阔的应用。同时人工智能飞速发展,卷积神经网络在图像识别领域取得了巨大的成功,本文则在传统方法基础上,将卷积神经网络应用在中文短文本分类任务中。与英文文本不同,中文文本文字连贯、搭配丰富,从而存在着文本的特征维度高,特征稀疏等问题。本文将卷积神经网络和Word2vec的Skip-gram方法结合,应用在短文本分类中。首先利用Skip-gram得到文本的词向量表示,然后用卷积神经网络从向量化的文本中提取特征,在用这些提取出来的特征进行文本分类。实验结果与传统机器学习方法相比较,获得了更高的准确性,验证了卷积神经网络在短文本分类中的有效性。  相似文献   

13.
根据渤海油田七年行动计划部署,现阶段勘探开发研究成果数量激增.目前,渤海油田勘探开发研究成果入库前分类工作主要依靠传统手动方式,效率低下且无法满足成果文档及时共享的需求.针对以上问题,提出一种基于Word2vec和卷积神经网络(convolutional neural networks, CNN)的文本特征提取方法并结合K-Means聚类算法对勘探开发阶段的成果文档进行自动分类.该方法在预训练word2vec向量的基础上基于自有开发成果文档标题语料库进行再训练,将低维向量的形式表征及文本的深层语义特征相结合,最后采用聚类算法对成果文档进行聚类.实验结果表明,在搜集的近7万份勘探开发成果文档数据集中,采用该方法使文档分类效率比手工方法提升了91.8%,标签获取准确率达93.6%,效率上和准确率都实现了较大提升.  相似文献   

14.
针对文本、语义、关键词等方法计算主观题相似度的不足,提出一种基于相似度组合的方式构建主观题评分模型。该模型可根据评分逻辑,灵活地调整阀值,综合Word2vec算法、Doc2vec算法和TF_IDF算法的优势,提高主观题的相似度。实验表明,与人工评分对比,提出的评分模型得到的评分方差及偏差率都较小,稳定性较好,更贴近人工评分结果。  相似文献   

15.
通过主题模型与语义网络对旅游电商中的评论文本进行挖掘,从而引导消费者与商家对评论信息作出重要决策;提出一种基于LDA(Latent Dirichlet Allocation,LDA)主题聚类与语义网络模型(LDA topic clustering and semantic network model,LTC-SNM)的方法对酒店在线评论文本进行研究;获取在线评论文本进行数据预处理,使用Word2vec生成词向量,利用机器学习算法对评论文本进行情感分类;通过LDA主题模型对分类后的文本进行聚类,生成酒店的特征主题词;通过ROSTCM将特征主题词与所修饰的情感词生成语义网络,缓解了挖掘文本信息的复杂性;实验结果表明:提出的LTC-SNM文本挖掘方法使得在线用户评价的主题更具表达性。  相似文献   

16.
韩文舵 《科技资讯》2013,(15):117-117
本文基本阐述了铁路信号设备故障的定义和铁路信号设备故障判断和发掘的方法并且对这些方法进行了分析,最后阐述了这些方法在铁路信号故障诊断中的具体操作和存在的不足之处。  相似文献   

17.
对微博文本的多元情感分类问题进行了研究.针对现有的多元情感词典不能很好地覆盖微博文本中情感词的不足,结合特定的情感符号和基于卡方统计量的度量方法,实现对现有的多元情感词典的扩充;针对情感词典无法有效考察文本的上下文语境信息的问题,引入word2vec模型实现情感词和其所在微博语句的向量化表达.在此基础上,利用KNN分类器实现微博句子级的多元情感分类.实验结果表明,扩充情感词典及引入word2vec模型均有助于提升微博文本多元情感分类的效果.  相似文献   

18.
施工组织设计是指导工程建设全过程活动的技术、经济和组织的综合性文件,随着自然语言处理(NLP)等人工智能技术的发展,本文针对施工组织设计文档智慧辅助审查中基础性工作之一-文本分类问题开展研究。为实现施工组织设计文本的自动分类,本文运用Word2vec词嵌入技术对文本进行向量化表示,基于Bi-LSTM捕捉文本上下文序列信息,融入Attention机制,提取文本有效信息,采用softmax激活函数分类。Attention Bi-LSTM在房建数据集上达到了0.97的准确率、召回率以及F1值,整体分类效果在正确率、宏平均、加权平均上均优于其他模型。融入Attention机制的Bi-LSTM文本分类模型通过双向捕获文本的特征并利用Attention机制提取有效信息,达到了联合优化的作用,提高了模型的分类性能。  相似文献   

19.
铁路作为当今世界主要的交通运输设备,其安全稳定的性能是确保人民群众生命财产安全和国家根本利益的重要内容。该文针对铁路信号设备常见故障,对其进行合理分析,提出相关解决策略。设备故障是制约我国铁路信号设备有效运行的关键问题,严重影响铁路总体运输效率和质量。在对铁路信号设备进行具体维护的过程中,相关人员需要针对设备各个环节进行有效监测,进而全面提升铁路信号设备安全等级。  相似文献   

20.
针对新冠疫情新闻繁杂及信息类别不明等问题,采取新冠疫情新闻语料作为数据集,分别利用TF-IDF与Word2vec提取特征值,与支持向量机、朴素贝叶斯等基于机器学习的模型结合对文本进行分类,并与TextCNN及BiLSTM 2种深度学习模型的分类实验结果进行对比分析。实验结果表明:同等条件下,基于新冠疫情主题新闻数据集,SVM+TF-IDF模型在几种分类器中效果最好,精确度达到84%,F1值达到83%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号