首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 265 毫秒
1.
为了处理张量数据,传统的学习算法常常把张量展成向量,但会造成破坏原始数据固有的高阶结构和内在相关性,导致信息丢失,或产生高维向量,使得后期学习过程中容易出现过拟合、维度灾难和小样本问题.近年提出了许多基于张量模式的分类算法,而支持高阶张量机算法是张量分类算法中最有效的方法之一.考虑到张量的高维性和高冗余性,本文提出基于多线性主成分分析的支持高阶张量机分类算法(Multilinear Principle Component Analysis Based Support High-Order Tensor Machine,MPCA+SHTM).该算法首先利用多线性主成分分析对张量进行降维,然后利用支持高阶张量机对降维后的张量进行学习.在12个张量数据集上的实验表明:MPCA+SHTM在保持测试精度的情况下有效地降低了SHTM的计算时间.  相似文献   

2.
基于词向量空间模型的中文文本分类方法   总被引:4,自引:0,他引:4  
大多文本分类方法是基于向量空间模型的,基于这一模型的文本向量维数较高,导致分类器效率难以提高。针对这一不足,该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表示成空间向量,通过训练得到词-类别支持度矩阵,根据待分文本的词和词-类别支持度矩阵计算文本与类别的相似度。实验证明,这一分类方法取得了较高的分类精度和分类效率。  相似文献   

3.
传统的基于向量的降维算法需要将图像数据进行向量化处理。然而,向量表示难以考虑数据各维度上的变化,容易丢失有效的结构信息和判别信息。为此,从数据的张量表示出发,将新近提出的稀疏保持投影方法(sparsity preserving projections,SPP)推广到张量空间中,提出了基于张量的稀疏保持投影降维方法。该方法可直接将图像数据作为张量目标进行运算,保留了数据的完整性以及数据的原始结构和判别信息。降维的同时保持了原始张量空间中数据样本的稀疏重构信息。人脸数据库的识别实验结果表明,基于张量的稀疏保持投影降维方法能有效地提高识别率。  相似文献   

4.
使用k近邻、支持向量机和最大熵模型进行中文文本分类的研究,对目前应用较多的k近邻、支持向量机和最大熵模型,分别进行了基于特征词布尔值和基于特征词词频的中文文本分类实验。实验结果显示,在相同的条件下最大熵方法的分类性能最好,支持向量机次之,k近邻稍差。同时发现,在分类过程中引入了词语频率信息时,分类器的性能略有变化,对于最大熵分类准确率下降1%~2%,对于k近邻有所上升,对于支持向量机则相当。除去文本的特殊性影响,这表明不同程度的词语的信息对不同的机器学习算法有不同的影响。  相似文献   

5.
由于word2vec、Glove等静态词向量表示方法存在无法完整表示文本语义等问题,且当前主流神经网络模型在做文本分类问题时,其预测效果往往依赖于具体问题,场景适应性差,泛化能力弱。针对上述问题,提出一种多基模型框架(Stacking-Bert)的中文短文本分类方法。模型采用BERT预训练语言模型进行文本字向量表示,输出文本的深度特征信息向量,并利用TextCNN、DPCNN、TextRNN、TextRCNN等神经网络模型构建异质多基分类器,通过Stacking集成学习获取文本向量的不同特征信息表达,以提高模型的泛化能力,最后利用SVM作为元分类器模型进行训练和预测。与word2vec-CNN、word2vec-BiLSTM、BERT-texCNN、BERT-DPCNN、BERT-RNN、BERT-RCNN等文本分类算法在网络公开的三个中文数据集上进行对比实验,结果表明,Stacking-Bert集成学习模型的准确率、精确率、召回率和F1值均为最高,能有效提升中文短文本的分类性能。  相似文献   

6.
基于汉字字频向量的中文文本自动分类系统   总被引:1,自引:0,他引:1  
提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计(LinearLeastSquareFil,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类  相似文献   

7.
张鸿彦 《科学技术与工程》2013,13(10):2704-2709
特征具有高维、稀疏性。为提高了文本自动分类准确率,针对PCA提取特征需要对大规模文本进行批处理,影响文本的准确率等,提出一种基于增量主元分析方法(CCIPCA)和最二小乘向量机(LSSVM)相结合的文本自动分类算法(CCIPCA-LSSVM)。首先通过互信法选择文本特征,然后采用CCIPCA高维文本特征进行提取,降低特征维数,消除冗余特征,最后采用LSSVM对提取特征进行学习,并通过粒子群算法对分类器优化,建立最优文本自动分类模型。仿真结果表明,相对于其它文本分类算法,CCIPCA-LSSVM提高了文本分类准确率和召回率,解决了文本特征提取过程存在的难题。  相似文献   

8.
为方便中文文本分类过程算法研究,阐述中文文本分类的基础技术,提出基于构件的中文文本分类技术研究辅助平台.该平台对大多数分类中使用的算法在中文文本分类中的应用效果进行了研究.实验结果表明: 该平台可以通过计算分类器分类准确率的宏平均值比较分类算法与特征选择算法的性能,可以评估语料库的可用性,能够用于研究中文分词、特征选择、分类算法等中文文本分类技术问题.  相似文献   

9.
基于VSM的中文文本分类系统的设计与实现   总被引:25,自引:0,他引:25  
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。该文阐述了一个基于向量空间模型的中文文本分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提取、训练算法、分类算法等进行了详细介绍。引入标题权重系数改进词语权重,并提出了一种新的分类算法。实验测试结果表明查全率和准确率均达到90%左右,而且标题权重的引入和新分类算法的实施有效地改善了分类性能。  相似文献   

10.
主流句子分类算法采用单一词向量表示模型获得文本表示,导致了对文本的映射能力不足.对此,通过融合多种词向量的文本表示以提高分类的准确率.针对多核学习在融合不同核函数时,常规的核函数系数寻优方法存在的训练时间长、难以求得局部最优解等问题,提出了一种新的核函数系数寻优方法,该方法基于参数空间分割与广度优先搜索不断逼近核系数的最优值.以支持向量机(support vector machine,SVM)为分类器,在7个文本数据集上进行了分类实验.实验结果表明,多核学习分类效果明显优于单核学习,并且所提出的寻优方法在训练次数少于常规方法时也能获得了好的分类效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号