首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
一种改进的特征选择方法在文本分类系统中的应用   总被引:1,自引:0,他引:1  
在介绍文本分类的背景及传统基于向量空间模型特征选择不足之处的同时,提出了不同特征选择方法相结合的文本分类模型.该模型首先对文本进行分析,把文本表示成向量空间的形式.文本在经过预处理后,按一定规则提取关键词的提取中增加了对名词短语的识别.特征选择的方法上,结合了文档频数和互信息量,并对他们进行了改进.实验结果表明,使用新方法进行分类所得到的分类精度得到了一定的提高.关键词,  相似文献   

2.
基于核向量空间模型的专利分类   总被引:2,自引:0,他引:2  
提出了一种利用核函数改进向量空间的新模型:核向量空间模型,该模型利用Mercer核,把输入空间的样本映射到高维特征空间,在高维特征空间中按向量空间模型操作。然后用核向量空间模型实现专利分类.理论分析及在专利分类中的实验表明,所提出的模型比经典向量空间模型有更高的正确分类率。  相似文献   

3.
基于命名实体的Web新闻文本分类方法   总被引:1,自引:0,他引:1  
文章对Web新闻领域的文本自动分类问题进行了研究,提出一种基于新闻实体要素的分类方法;在应用空间向量模型的基础上,充分考虑命名实体对Web新闻文本分类的特殊作用,并进行了实验.实验结果表明,以新闻实体要素为特征的文本分类系统可得到较高的分类精度,该方法具有一定的实用价值.  相似文献   

4.
用文本分类的方法找出中文评教信息的情感倾向,使学生主观评价里蕴含的信息得到有效利用,是对现有评教系统的必要补充.采用基于潜在语义分析的方法对文本向量降维,并用支持向量机的分类方法对目标文本进行分类,得到每一条主观评价的情感倾向.分析了特征选择、特征抽取方法、降维维数、词性、训练集合与测试集合样本的比例等几方面对分类的影响,找到了较好的中文评教文本分类模型.  相似文献   

5.
在少数民族语言信息处理领域,由于文本分类标注数据的稀缺,相关研究工作进展缓慢.为了充分利用有限的标注数据,更有效地挖掘出文本之间的关系,本文对藏文提出一种基于预训练模型和图卷积神经网络的长文本分类方法CINO-GCN.首先利用在实验数据集上经过微调的少数民族多语言预训练模型(Chinese Minority Pretrained Language Model, CINO)得到藏文长文本的初始文档向量和藏文音节向量.然后根据整个数据集范围的音节共现关系与音节和文档间的TF-IDF值来对藏文文本图进行建模.最后将文本图和结点特征一同输入至图卷积神经网络(graph convolutional networks, GCN)层,得到的文档表示经过Softmax得到分类结果.将该方法在公开的TNCC藏文新闻文本分类数据集上与当前几种主流的深度学习模型进行了多组对比实验,分类准确率达到73.51%,远优于其他基线模型;同时设计了消融实验验证模型各部分对分类结果的增益.实验结果表明,该文提出的模型能够结合预训练词向量和图神经网络的优势,显著提高藏文文本分类的准确率.  相似文献   

6.
基于正交投影的BiLSTM-CNN的情感特征抽取方法旨在从文本中获取带权重的中性词向量,得到具有更高区分度的情感特征,为文本情感分类提供有力的技术支持.传统的深度学习模型会忽略关键局部上下文信息中的特殊意义词,导致获取的情感特征不够丰富.针对这一问题,本文提出一种基于正交投影的BiLSTM-CNN情感特征抽取方法.首先,将中性词向量投影到情感极性词的正交空间中,得到加权中性词向量,同时通过CNN深度学习模型抽取文本关键语义;然后,利用BiLSTM-Attention模型和带权重的中性词向量,从提取出的关键语义中学习可增强句子情感的语义特征,使文本在情感分类时更具判别性.实验结果表明本文所提出的情感特征抽取方法可以获取更完整的情感特征,从而显著提高文本情感分类的准确率.  相似文献   

7.
基于词向量空间模型的中文文本分类方法   总被引:4,自引:0,他引:4  
大多文本分类方法是基于向量空间模型的,基于这一模型的文本向量维数较高,导致分类器效率难以提高。针对这一不足,该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表示成空间向量,通过训练得到词-类别支持度矩阵,根据待分文本的词和词-类别支持度矩阵计算文本与类别的相似度。实验证明,这一分类方法取得了较高的分类精度和分类效率。  相似文献   

8.
胡婧  刘伟  马凯 《科学技术与工程》2019,19(33):296-301
为了探讨中文病历文本预处理后高维稀疏性的特点,导致文本分类精度低、算法模型收敛速度慢等性能问题,提出一种基于粗糙集的词袋(BOW)模型结合支持向量机(SVM)的文本分类算法(BOW+SVM)。该算法首先采用BOW模型对特征词提取构建高维度文本空间向量,然后利用粗糙集的属性约简算法对文本特征处理,把模糊的、冗余的属性从决策规则中清除,降低空间向量维数,最后利用所提纯的特征与SVM分类器交叉结合进行文本分类。在Python+TensorFlow环境中设计六种交叉结合的算法仿真对比实验,结果表明:基于BOW+SVM高血压病历文本分类模型精准度可达97%。可见改进后的模型,能够解决样本分部不均,克服高维度稀疏特征空间的问题,有效改善病案管理工作流程。  相似文献   

9.
魏海平 《科学技术与工程》2012,12(12):3002-3004
随着Internet技术的飞速发展,网页上存在着各种各样、类目繁多的信息,因此网页分类技术就显得越来越有意义。本文使用向量空间模型(VSM)来表示网页文本,提出了一种改进X2的文本特征选择方法,最后通过支持向量机方法进行分类。实验结果表明,相对于传统的X2文本分类统计方法,改进后的特征选择方法的分类效果要好于传统的X2统计方法。  相似文献   

10.
为提高计算机对古典诗歌自动分类的准确性,提出一种基于特征项聚合的分类方法.首先从文本中提取特征项并用向量表示,向量的每一分量表示该特征项在不同类别中的比重;然后通过聚类算法把相似的特征项聚合为一组,从而形成特征项聚合的诗歌模型;最后利用分类器对诗歌进行分类.《全唐诗》语料库的实验结果表明,利用该模型及算法可明显提高诗歌分类的准确率.  相似文献   

11.
研究了统计语言模型中b igram模型在自动文本分类中的应用,针对传统的向量空间模型在计算文本相似度时假设特征项相互独立的缺点,提出了一种新的利用词对及词序信息来改善文本分类结果的方法.实验结果表明:该方法是可行且有效的.  相似文献   

12.
针对中文文本中不同维度特征所携带的语义信息具有差异性的问题,本文提出一种基于多维度特征融合的中文文本分类模型:CCM-MF (Chinese-text Classification Model Based on Fused Multi-dimensional Features)。该模型融合层次维度和空间维度特征,以提高中文文本分类的准确率。首先,在层次维度上,使用预训练模型ERNIE (Enhanced Representation through Knowledge Integration)获取包含字、词及实体级别特征的词向量;然后,在空间维度上,将包含层次维度特征的词向量分别输入到改进后的深度金字塔卷积神经网络(Deep Pyramid Convolutional Neural Networks,DPCNN)模型及附加注意力机制的双向长短期记忆网络(Attention-Based Bidirectional Long Short-Term Memory Networks,Att-BLSTM)模型中,得到局部语义特征和全局语义特征;最后,将得到的空间维度特征分别作用于Softmax分类器,再对计算结果进行融合并输出分类结果。通过在多个公开数据集上进行实验,较现有主流的文本分类方法,本模型在准确率上有更好的表现,证明了该模型的有效性。  相似文献   

13.
在向量空间模型的中文文本分类系统中,多数传统的特征选择算法忽视低频单词对分类的正面贡献,互信息特征选择过分放大低频单词对分类的贡献。针对这一问题,通过引入对数似然比统计量,提出对数似然比特征选择算法。与互信息算法相比,低频单词对分类的贡献没有过分放大;与卡方算法相比,低频单词对分类的贡献计算更为准确。算法在考虑低频单词对分类结果产生正面影响的同时,能较好地控制其对分类产生的负面影响。采用KNN(K Nearest Neighbor)分类方法,特征选择选取对数似然比和传统特征选择算法,实验结果表明,对数似然比特征选择算法能够提高分类器的总体性能。  相似文献   

14.
针对图像分类中的特征选择问题,提出一种多特征筛选与支持向量机相融合的图像分类模型.首先提取图像的多种特征,并对特征进行归一化处理;然后根据平均影响值对特征进行筛选,选择一组最优的特征子集;最后采用支持向量机构建图像的多分类器.采用图像数据集SIMPLIcity进行仿真实验验证该模型的有效性.实验结果表明,该模型降低了图像分类的开销,提高了图像分类性能.  相似文献   

15.
传统的文本表示是在向量空间模型的基础上,采用特征选择方法降低文本的维数,这种方法认为文本中词语是相互独立的,没有考虑彼此之间的语义信息.文章提出一种新的基于语义特征选择的文本分类方法,在已有特征选择的基础上,利用词语之间的语义关联性,将那些与已选择的词语具有密切联系的词语加入词语特征空间.实验表明,该方法与已有的特征选...  相似文献   

16.
文档分类之特征选择方法的实验比较   总被引:2,自引:1,他引:1  
在自动化信息处理中,由于大量信息是基于文字表达的,使得文本分类成为其核心任务之一.其中,相比较其他分类算法,基于类中心的文档分类方法凭借其极高的效率和较好的性能得到了更广泛的应用.然而,该分类方法的性能很大程度上取决于文本的特征空间表示.在此将4种较大差异的特征选择方法作为预处理方法,构造适合类中心点分类的特征空间,对它们的性能进行分析.实验表明,基于支持向量机的特征选择方法不仅有较好的最低错误率,并且对选择的特征数目不敏感,因此我们推荐在实际应用中使用基于支持向量机的特征选择方法作为基于类中心的文档分类算法的预处理.  相似文献   

17.
为了解决短文本的语义稀疏和特征信息难以提取问题,本文提出了一种基于深度学习的短文本分类方法.首先通过增加自注意机制的双向BiLSTM通道获取短文本特征词向量,引入外部CN-DBpedia知识库KBs来深度挖掘短文本语义,解决语义稀疏问题.其次通过BTM主题模型在短文本数据集上提取主体信息,为了得到准确的词向量拼接引入了超参数δ.最终将所得的特征词向量以及知识向量运用语义余弦相似度计算并拼接向量,将得到的拼接结果与主题信息通过Softmax分类器中进行分类.在中国微博情感分析数据集、产品评价数据集、中文新闻标题数据集、Sogou新闻数据集上进行实验.与TextCNN、TextRNN、TextRNN_Att、BiLSTM-MP、KPCNN算法相比,分类准确性有一定提高.  相似文献   

18.
指出基于TfIdf的常用文本特征提取方法在文本分类问题中的缺陷,进而提出使用特征词的分布状态、词频和文本频三者相结合的方式提取文本特征的观点,给出了计算特征词权重的新方法,提出了新的文本分类方法. 试验表明,该方法能够最大限度保留文本的特征,并且可有效避免向量空间模型中的维数灾难问题,能应用于大规模文本分类.  相似文献   

19.
张楠  丁华福 《科技资讯》2006,(35):131-132
在文本分类中,分别选用了共现词语和单一词语作为文本的特征,并在向量空间模型和最邻近法中分别进行了测试,证明了用共现词语作为特征对文本分类是非常有效的.  相似文献   

20.
针对长文本在文本分类时提取语义关键特征难度大,分类效果差等问题,建立基于循环神经网络变体和卷积神经网络(BGRU-CNN)的混合模型,实现中文长文本的准确分类。首先,通过PV-DM模型将文本表示为句向量,并将其作为神经网络的输入;然后,建立BGRU-CNN模型,经双向门控循环单元(B-GRU)实现文本的序列信息表示,利用卷积神经网络(CNN)提取文本的关键特征,通过Softmax分类器实现文本的准确分类;最后,经SogouC和THUCNews中文语料集测试,文本分类准确率分别达到89. 87%和94. 65%。测试结果表明,循环层提取的文本序列特征通过卷积层得到了进一步优化,文本的分类性能得到了提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号