首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
通过构建向量空间模型可以获得表征网页数据的词-文本权重矩阵,然而直接基于此高维矩阵进行分类学习效率较低,为此提出一种结合改进非负矩阵分解的模糊网页文本分类算法.首先,通过迭代的归一化压缩非负矩阵分解将高维的原数据映射到低维语义空间,以降低问题的复杂性.然后,将模糊逻辑引入分类模型,通过特征词与类别的模糊隶属度来生成文本的类别模糊集,以解决确定性矩阵难以判定语义模糊词所属类别的问题.实验结果表明,与其他方法相比,所提出的分类算法具有较高的分类准确度和较好的时间性能.  相似文献   

2.
将文本分类技术引入文化旅游文本研究,根据文化旅游文本的特点,提出一种基于朴素贝叶斯的文化旅游文本分类模型. 首先构建文化专题词库,采用向量空间模型将景点描述文本转换为向量,通过信息增益进行词汇特征选择,利用词频-逆文档频率进行权重的赋值,构建分类器模型,实现旅游文本的自动分类. 实验选取了1447个景点描述文本,按照闽南文化、客家文化、红色文化和生态文化进行分类,取得较好的分类效果.  相似文献   

3.
基于词向量空间模型的中文文本分类方法   总被引:4,自引:0,他引:4  
大多文本分类方法是基于向量空间模型的,基于这一模型的文本向量维数较高,导致分类器效率难以提高。针对这一不足,该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表示成空间向量,通过训练得到词-类别支持度矩阵,根据待分文本的词和词-类别支持度矩阵计算文本与类别的相似度。实验证明,这一分类方法取得了较高的分类精度和分类效率。  相似文献   

4.
胡婧  刘伟  马凯 《科学技术与工程》2019,19(33):296-301
为了探讨中文病历文本预处理后高维稀疏性的特点,导致文本分类精度低、算法模型收敛速度慢等性能问题,提出一种基于粗糙集的词袋(BOW)模型结合支持向量机(SVM)的文本分类算法(BOW+SVM)。该算法首先采用BOW模型对特征词提取构建高维度文本空间向量,然后利用粗糙集的属性约简算法对文本特征处理,把模糊的、冗余的属性从决策规则中清除,降低空间向量维数,最后利用所提纯的特征与SVM分类器交叉结合进行文本分类。在Python+TensorFlow环境中设计六种交叉结合的算法仿真对比实验,结果表明:基于BOW+SVM高血压病历文本分类模型精准度可达97%。可见改进后的模型,能够解决样本分部不均,克服高维度稀疏特征空间的问题,有效改善病案管理工作流程。  相似文献   

5.
文本自动分类系统是信息处理的重要研究方向,在文献检索、信息过滤和文本管理等领域中有着广泛的应用。介绍了一种基于模糊模式识别以及向量空间模型提取特征向量的中文文本分类器的设计与实现。  相似文献   

6.
Web文本分类是数据挖掘研究的一个热点问题.针对文本向量维度过高的特点,提出一种改进的模糊聚类RBF网络集成的文本分类方法,该方法利用模糊C均值聚类算法对文本特征向量进行简化、抽取,引入自适应遗传算法优化RBF神经网络的权值,构建RBF网络集成模型对文本进行分类.实验结果表明,该方法具有更高的分类效率和正确率.  相似文献   

7.
一种改进的特征选择方法在文本分类系统中的应用   总被引:1,自引:0,他引:1  
在介绍文本分类的背景及传统基于向量空间模型特征选择不足之处的同时,提出了不同特征选择方法相结合的文本分类模型.该模型首先对文本进行分析,把文本表示成向量空间的形式.文本在经过预处理后,按一定规则提取关键词的提取中增加了对名词短语的识别.特征选择的方法上,结合了文档频数和互信息量,并对他们进行了改进.实验结果表明,使用新方法进行分类所得到的分类精度得到了一定的提高.关键词,  相似文献   

8.
基于混合向量空间模型的主题网站识别   总被引:1,自引:0,他引:1  
为了实现面向特定领域网站的网络资源搜索,提出了一种描述网站主题特征的混合向量空间模型.利用链接文本信息来描述同类主题网站的内容和组织结构所具有的相似特点,而不是由网站链接的树或图结构反映.在向量空间模型的基础上,抽取反映网站结构和内容的文本特征信息,建立网站主题的特征向量模型.在此基础上进行制造企业网站的主题搜索,采用类中心向量法进行了网站主题分析.结果表明该模型适合于网站主题的特征描述,有助于提高网站主题识别与分类的准确性和效率,在主题搜索和网站分类等应用中具有较好的适用性.  相似文献   

9.
基于加权近似支持向量机的文本分类   总被引:9,自引:0,他引:9  
随着因特网的迅速增长,能够分类大规模文档的高效文本分类算法变得非常重要.该文提出一种基于加权近似支持向量机模型的文本分类算法,加权近似支持向量机对近似支持向量机作了改进,通过为每个训练误差增加一个权值和使用在原空间直接求解的算法,克服了近似支持向量机模型不适合不平衡数据分类和高维数据分类的缺点.试验结果表明,与标准支持向量机算法相比,该算法的分类质量与训练速度都有提高,是一种适合文本分类的高效算法.  相似文献   

10.
唐诗题材自动分类研究   总被引:2,自引:0,他引:2  
将文本分类技术引入唐诗研究。首先将唐诗按照题材分为爱情婚姻、边塞战争、交游送别、羁旅思乡、山水田园、咏史怀古和其他7类, 并据此提出唐诗题材自动分类模型。所选500首诗歌样本以《唐诗三百首》为基础, 并有所补充。采用向量空间模型(VSM)将唐诗文本转换为向量, 通过卡方检验进行词语特征选择, 最后基于朴素贝叶斯和支持向量机算法构造文本分类器, 取得较好的题材分类效果。此外, 还验证了作者关于题目、体制、作者等变量对题材分类产生影响的假设, 为相关诗歌本体研究提供了科学依据。  相似文献   

11.
魏海平 《科学技术与工程》2012,12(12):3002-3004
随着Internet技术的飞速发展,网页上存在着各种各样、类目繁多的信息,因此网页分类技术就显得越来越有意义。本文使用向量空间模型(VSM)来表示网页文本,提出了一种改进X2的文本特征选择方法,最后通过支持向量机方法进行分类。实验结果表明,相对于传统的X2文本分类统计方法,改进后的特征选择方法的分类效果要好于传统的X2统计方法。  相似文献   

12.
相似词分析是自然语言处理领域的研究热点之一,在文本分类、机器翻译和信息推荐等领域中具有重要的研究价值和应用意义。针对新浪微博短文本的特点,给出一种带词性的连续词袋模型(POS-CBOW)。该模型在连续词袋模型的基础上加入过滤层和词性标注层,对空间词向量进行优化和词性标注,通过空间词向量的余弦相似度和词性相似度来判别词向量的相似性,并利用统计分析模型筛选出最优相似词集合。实验表明,基于POS-CBOW语言模型的相似词分析算法优于传统CBOW语言模型。  相似文献   

13.
基于命名实体的Web新闻文本分类方法   总被引:1,自引:0,他引:1  
文章对Web新闻领域的文本自动分类问题进行了研究,提出一种基于新闻实体要素的分类方法;在应用空间向量模型的基础上,充分考虑命名实体对Web新闻文本分类的特殊作用,并进行了实验.实验结果表明,以新闻实体要素为特征的文本分类系统可得到较高的分类精度,该方法具有一定的实用价值.  相似文献   

14.
在少数民族语言信息处理领域,由于文本分类标注数据的稀缺,相关研究工作进展缓慢.为了充分利用有限的标注数据,更有效地挖掘出文本之间的关系,本文对藏文提出一种基于预训练模型和图卷积神经网络的长文本分类方法CINO-GCN.首先利用在实验数据集上经过微调的少数民族多语言预训练模型(Chinese Minority Pretrained Language Model, CINO)得到藏文长文本的初始文档向量和藏文音节向量.然后根据整个数据集范围的音节共现关系与音节和文档间的TF-IDF值来对藏文文本图进行建模.最后将文本图和结点特征一同输入至图卷积神经网络(graph convolutional networks, GCN)层,得到的文档表示经过Softmax得到分类结果.将该方法在公开的TNCC藏文新闻文本分类数据集上与当前几种主流的深度学习模型进行了多组对比实验,分类准确率达到73.51%,远优于其他基线模型;同时设计了消融实验验证模型各部分对分类结果的增益.实验结果表明,该文提出的模型能够结合预训练词向量和图神经网络的优势,显著提高藏文文本分类的准确率.  相似文献   

15.
为了提高模型在文本分类任务中的分类性能,针对图神经网络中存在的过度平滑问题,同时增强模型在处理文本特征与文本表示方面的能力,提出了一种基于多状态图神经网络的文本分类算法(multi-state graph neural network, MSGNN)。多状态图神经网络是利用网络层的多个历史状态信息对图神经网络进行强化,构建合理的文本图结构数据作为模型输入。在缓解网络层过度平滑问题的同时,结合2种改进后的不同类型的图神经网络来增强模型的特征提取与特征聚合能力。利用多头自注意力机制对文本关键词的挖掘与利用能力,从多个文本子空间来生成高质量的文本表示,进而完成文本分类。通过在几个公开的文本分类数据集上进行实验分析,相较于其他神经网络的文本分类算法,该方法取得了较好的分类准确率。  相似文献   

16.
张楠  丁华福 《科技资讯》2006,(35):131-132
在文本分类中,分别选用了共现词语和单一词语作为文本的特征,并在向量空间模型和最邻近法中分别进行了测试,证明了用共现词语作为特征对文本分类是非常有效的.  相似文献   

17.
根据模式聚合理论提出了一种文本特征降维的新方法.结合动态Kohonen网络理论检验了文本分类效果.在网络训练阶段引入了监督机制,提高了网络的分类速度和精度.应用模式聚合(PA)理论建立文本集的向量空间模型,从分类贡献的角度强化了词条的作用,消减了原词条矩阵中包含的冗余模式,有效地降低了向量空间的维数,提高了文本分类的精度和速度,并通过实验证明了该方法的泛化能力.  相似文献   

18.
为了改善向量空间模型的稀疏性,提高文本分类的效果,在不引入外部知识的情况下,通过挖掘语料库内部的词间关系和文本间关系,将其以不同的方式融入原始矩阵,形成了4种新的文本表示模型,并通过文本分类实验来验证其表达能力。实验证明,融入词和文本关系能明显改善KNN和SVM的分类效果。  相似文献   

19.
研究了统计语言模型中b igram模型在自动文本分类中的应用,针对传统的向量空间模型在计算文本相似度时假设特征项相互独立的缺点,提出了一种新的利用词对及词序信息来改善文本分类结果的方法.实验结果表明:该方法是可行且有效的.  相似文献   

20.
在对文本分类领域发展现状进行研究的基础上,提出了一种面向文本分类的深度置信网络特征提取方法,通过引入词向量模型和深度置信网络解决传统文本分类方法在文本表示及特征提取方面存在的语义缺失问题,实验结果表明,该方法在文本分类中有更高的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号