首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
针对中文网页文本分类中特征降维方法和传统信息增益方法的缺陷和不足做出优化改进,旨在有效提高文本分类效率和精度.首先,采取词性过滤和同义词归并处理对特征项进行初次特征降维,然后提出改进的信息增益方法对特征项进行特征加权运算,最后采用支持向量机(SVM)分类算法对中文网页进行文本分类.理论分析和实验结果都表明本方法比传统方法具有更好的性能和分类效果.  相似文献   

2.
大数据时代下,微博作为一个开放性的信息传播平台吸引了众多的网民参与其中,与之相关的研究也得到了广泛的开展。本文将微博情感分析任务分为3步:微博语料的获取与预处理、情感特征的标注与选择、主观文本的情感分类。在主观文本分类中,将情感分类分为基于规则的方法和基于机器学习的方法。最后对当前中文微博的情感分析现状做了总结,并阐述了当前微博情感分类还需亟待解决的一些问题。  相似文献   

3.
以评教文本为研究对象,针对在评教文本中解释说明类反语的特点,该文构建包括主观矛盾、客观矛盾、情感程度的3种特征,提出了一种基于矛盾关系的评教文本解释说明类反语的检测算法.首先,将评教文本分为主观叙述文本与客观描述文本;然后,使用语义分析的方法分析在主观叙述文本中的主观矛盾及在客观描述文本中的客观矛盾;最后,对包含并列实...  相似文献   

4.
观点挖掘能自动对网络上大量的非结构化文本进行分析,得到有价值的观点态度,因为中文在机器语言处理中存在一些自身的特点和难点,相关研究进展较缓慢。本文提出了中文依赖语法的观点挖掘模型,介绍了文本爬取和文本预处理技术;采用了向量空间模型表示文本向量,介绍了基于中文依赖语法的特征抽取方法,在此基础上加入了评价对象提取的思想;采用知网情感词典作为判别主观字极性的基础,并对主观字极性评估方法做了相关改进。以建立一个全面、准确的中文观点分析模型为目标。  相似文献   

5.
针对现有的中文文本情感分析方法不能从句法结构、上下文信息和局部语义特征等方面综合考量文本语义信息的问题,提出一种基于特征融合的中文文本情感分析方法.首先,采用Jieba分词工具对评论文本进行分词和词性标注,并采用词向量训练工具GloVe获取融入词性的预训练词向量;然后,将词向量分别作为引入Self-Attention的BiGRU和TextCNN的输入,使用引入Self-Attention的BiGRU从文本的句法结构和文本的上下文信息两个方面综合提取全局特征,使用TextCNN提取文本的局部语义特征;最后,将全局特征和局部语义特征进行融合,并使用Softmax进行文本情感分类.实验结果表明,本文方法可以有效提高文本情感分析的准确率.  相似文献   

6.
文本信息中存在的模糊性和不确定性在很大程度上影响文本情感观点的准确判定.为了提高文本情感分类准确率,提出基于混合特征云模型和支持向量机的多级文本情感分类算法.首先,将文本的TF-IDF权重特征和词性特征相结合,采用信息增益法选取特征的同时对特征降维;然后,在文档混合特征向量集上生成云向量模型,依据模型间的相似度筛选出相似度较大的R个文档,作为支持向量机的输入.实验结果表明,该算法具有良好的分类准确率,且系统的训练速度有显著的提高.  相似文献   

7.
自然语言处理中,文本情绪分类目前以情感极性分类居多,更加细粒度的情绪分类却很少,并且基本上都为英文文本情绪分类。本文针对中文文本情绪分类,设计并实现了一种双通道多核卷积神经网络中文文本情绪分类方法。在特征提取部分,设计了双通道特征提取方法,采用word2vec预先训练词向量的词袋方式并引入注意力机制,提取的特征向量在关注局部特征信息的基础上加入了文本上下文之间的关系信息,能够涵盖文本全局特征;在卷积部分,设计了多种不同卷积核分别卷积池化后再组合的方式,从而得到更加全面的文本特征。理论分析和实验结果表明,双通道多核卷积神经网络中文文本情绪分类方法分类准确率达86%,比单层卷积神经网络的分类准确率提高了4%,同时解决了单层卷积神经网络特征提取不够全面和多层卷积神经网络特征提取过于抽象的问题。  相似文献   

8.
为解决弱情感倾向语料影响文本情感分类的问题,提出基于全局语义学习的文本情感增强方法。首先设计语料划分方法,将语料划分为强情感倾向语料与弱情感倾向语料,然后,从文本处理全过程及整体语义学习的角度出发,构造均值抽取与最大值抽取的语义提取方式及文档信息向量,改进基于循环神经网络的变分自编码器的语义学习过程,并用于学习强情感倾向语料中文本的词语序列特征与语义特征。基于此,对弱情感倾向语料进行重构,实现情感增强目标,最后,将经过情感增强的语料替换掉原来的弱情感倾向语料,再进行情感分类模型的训练与测试。结果表明:提出的文本情感增强方法能够提升情感分类效果,并使得Bert分类器对IMDb影评数据集的情感分类精确率达到了93.03%。  相似文献   

9.
为了解决短文本的语义稀疏和特征信息难以提取问题,本文提出了一种基于深度学习的短文本分类方法.首先通过增加自注意机制的双向BiLSTM通道获取短文本特征词向量,引入外部CN-DBpedia知识库KBs来深度挖掘短文本语义,解决语义稀疏问题.其次通过BTM主题模型在短文本数据集上提取主体信息,为了得到准确的词向量拼接引入了超参数δ.最终将所得的特征词向量以及知识向量运用语义余弦相似度计算并拼接向量,将得到的拼接结果与主题信息通过Softmax分类器中进行分类.在中国微博情感分析数据集、产品评价数据集、中文新闻标题数据集、Sogou新闻数据集上进行实验.与TextCNN、TextRNN、TextRNN_Att、BiLSTM-MP、KPCNN算法相比,分类准确性有一定提高.  相似文献   

10.
针对基本话题模型只能抽取粗粒度上下文信息的问题,通过对潜在狄里克雷分配(LDA)模型进行扩展,建立了一种利用词序信息的多粒度话题情感联合模型(MTSU-Col)。MTSU-Col模型客观表达了词汇、全局/局部话题、情感标签和词序信息之间的关联关系,使模型中话题和情感的建模更加符合文本的语义表达,有效解决了现有话题、情感分析方法存在的领域依赖问题,从而实现了文本多粒度话题信息和情感倾向信息的同步非监督获取。实验表明:利用MTSU-Col模型对文本进行情感倾向性分类,可使综合评价指标F1值达到84%,整体性能与监督分类方法支持向量机(SVM)类似,均优于未采用词序信息的分析方法。由于挖掘话题集合具有层次化、语义相关的特点,因此MTSU-Col模型对观点挖掘是可行、有效的。  相似文献   

11.
针对多标签文本分类任务中如何有效地提取文本特征和获取标签之间潜在的相关性问题,提出一种CNN(convolutional neural networks)结合Bi-LSTM (bi-directional long short-term memory)的模型.首先,通过CNN网络和最大池化提取文本的特征;然后,利用训练的Labeled-LDA(labeled latent dirichlet allocation)模型获取所有词与标签之间的词-标签概率信息;接着,使用Bi-LSTM网络和CNN网络提取当前预测文本中每个词的词-标签信息特征;最后,结合提取的文本特征,预测与当前文本相关联的标签集.实验结果表明,使用词-标签概率获取文本中词与标签之间的相关性信息,能够有效提升模型的F1值.  相似文献   

12.
基于权值调整的文本分类改进方法   总被引:14,自引:0,他引:14  
文本分类是文本挖掘的基础与核心 ,可广泛应用于传统的情报检索和 Web信息的检索与挖掘等。提出了一种利用权值调整思想对向量空间法 (VSM)和朴素 Bayes分类器 (NBC)进行改进的文本分类方法 ,并探讨了利用 EM算法进行无导师 Bayes分类的方法 ,设计和实现了一个中英文文本分类系统 CZW。 3组实验数据表明 ,用某些评估函数调节单词权值可有效提高 VSM和 NBC等文本分类模型的精度 ,并且训练文本规模越大 ,改进的效果越明显。 NBC的分类精度最高可达 86 %。  相似文献   

13.
为了从海量的信息资源库中快速、准确地进行分类并提取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对该混合算法进行比较,验证该算法的可行性。  相似文献   

14.
现有的电商垃圾评价检测方法大多基于对评价文本信息进行分析,难以有效检测带有图片的多模态垃圾评价,为充分利用评价的图片和文本内容,提出了基于Transformer双向编码表示(bidirectional encoder representa-tions from transformer,BERT)和宽残差网络(wide residual networks,WRN)的图文融合决策检测方法.该方法利用评价文本对经过预训练的BERT模型进行微调训练,经过表示学习分类得到文本评价类别向量,使用宽残差网络对评价图片进行特征提取和分类并输出图片类别向量,将得到的对应评价图文类别向量共同输入启发式决策融合分类器,对多模态评价整体进行预测分类.使用真实电商评价数据集进行实验表明,相比面向评价文本的分类方法,图文融合决策检测方法对多模态评价分类的精准率提高4.44%,召回率提高2.12%,Micro-F1提高3.67%,结果证实该方法能够对多模态垃圾评价进行有效检测.  相似文献   

15.
为了有效地组织和分析大量WEB信息,本文设计了WEB分类发掘系统。BP网络应用广泛,但也有许多不足之处。因此,提出了用RBFNN(径向基函数神经网络)分类WEB页面信息的方法。分类系统框架主要包括RBF(径向基函数)分类器、评估模型及数据预处理。用Macro-Fi作为分类效果的评估标准,实验结果证实,RBFNN分类器比BPNN分类器更有效、更准确。并且用相同的分类器对不同类进行分类,分析了不同分类精度。  相似文献   

16.
商品评论是消费者针对某一个商品的主观议论。针对微博中商品的评论文本短小、结构多样等特征,在仅使用现有的微博级情感标注的条件下,提出了一种基于层叠条件随机场模型。以中文小句中枢说为理论基础,将商品评论的句子划分为若干小句,使用微博内小句序列的各种特征训练粗粒度的随机条件场情感分类模型,同时使用小句内汉字序列的各种特征来训练细粒度的随机条件场情感分类模型。实验结果表明,本文提出的方法优于传统的情感分类方法。  相似文献   

17.
文本分类是机器学习重要任务之一,如何对文本信息进行有效分类组织,对用户查找并获取有用信息具有重要作用.针对新闻文本分析,提出了一种基于集合运算特征提取及Stacking策略的新闻多分类方法,该方法基于集合运算的方法来提取文本特征,采用Stacking策略,使用SVM以及贝叶斯方法来对文本进行分类.与典型同类方法对比,在...  相似文献   

18.
李忠  杨百一  李莹  李晓丽 《科学技术与工程》2021,21(35):15284-15289
针对灾害求助信息辨识不准确、响应能力不足的问题,本文提出了基于ALBERT和双向GRU的文本多标签分类模型。首先利用ALBERT预处理语言模型对文本信息进行编码,获取文本的动态词特征向量,并送入双向GRU神经网络进行训练,根据不同的单词赋予不同的权重,应用Attention机制进行解码。利用模拟退火算法求解最优阈值,以微平均值作为评价函数,确定样本的标签类别归属。与逻辑回归、朴素贝叶斯和LSTM长短期记忆神经网络等模型进行比较,结果显示,多标签分类模型具有更高的准确率,达到95%,汉明损失仅到0.05,能够更好地辨别灾情求助信息,提高救援效率。  相似文献   

19.
提出了基于XLNet的双通道特征融合文本分类(XLNet-CNN-BiGRU, XLCBG)模型。相对于单模型通道,XLCBG模型通过融合XLNet+CNN和XLNet+BiGRU这2个通道的特征信息,能提取更加丰富的语义特征。XLCBG模型对融合后的特征信息分别采用了Maxpooling、Avgpooling和注意力机制等处理方式,分别提取全局中特征值最大的向量、全局中的均值特征向量、注意力机制的关键特征来代替整个向量,从而使融合特征处理的方式多样化,使最优分类模型的可选择性增多。最后,将当前流行的文本分类模型与XLCBG模型进行了比较实验。实验结果表明:XLCBG-S模型在中文THUCNews数据集上分类性能优于其他模型;XLCBG-Ap模型在英文AG News数据集上分类性能优于其他模型;在英文20NewsGroups数据集上,XLCBG-Att模型在准确率、召回率指标上均优于其他模型,XLCBG-Mp模型在精准率、F1指标上均优于其他模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号