首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 515 毫秒
1.
一种基于VSM文本分类系统的设计与实现   总被引:10,自引:0,他引:10  
阐述了一个基于改进向量空间模型的中文文本分类系统的设计与实现 ,包括对该系统的结构、预处理、特征提取、训练算法 ,分类算法等关键技术的介绍 .通过引入结构层次权重系数来改进文本特征项权重 ,同时提出一种新的训练算法和文本相似度域值计算方法 .实验结果证明 :该分类系统能有效地提高文本分类效果 ,开放性测试的平均准确率在 80 %以上 ,且平均查全率达到了 86 % .  相似文献   

2.
基于VSM的中文文本分类系统的设计与实现   总被引:25,自引:0,他引:25  
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。该文阐述了一个基于向量空间模型的中文文本分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提取、训练算法、分类算法等进行了详细介绍。引入标题权重系数改进词语权重,并提出了一种新的分类算法。实验测试结果表明查全率和准确率均达到90%左右,而且标题权重的引入和新分类算法的实施有效地改善了分类性能。  相似文献   

3.
基于加权近似支持向量机的文本分类   总被引:9,自引:0,他引:9  
随着因特网的迅速增长,能够分类大规模文档的高效文本分类算法变得非常重要.该文提出一种基于加权近似支持向量机模型的文本分类算法,加权近似支持向量机对近似支持向量机作了改进,通过为每个训练误差增加一个权值和使用在原空间直接求解的算法,克服了近似支持向量机模型不适合不平衡数据分类和高维数据分类的缺点.试验结果表明,与标准支持向量机算法相比,该算法的分类质量与训练速度都有提高,是一种适合文本分类的高效算法.  相似文献   

4.
基于改进分类模型的文本分类系统实现   总被引:1,自引:0,他引:1  
提出一种基于改进的分类模型的文本分类系统来实现文本的自动分类.针对传统的特征提取算法不能很好区分特征词在类内和类间分布情况的缺陷,该系统利用方差对该算法作了改进,用改进的特征提取算法量化各个特征词的权重,为了降低特征向量的维数,采用为每个类建分类器的分类模型,利用遗传算法来修正各个类特征词的权重,直到为每个类训练出能够代表本类的特征向量,最后用这些类的特征向量进行分类.通过在同一数据集上进行对比实验,说明本文提出的改进分类模型的文本分类系统是正确可行的.  相似文献   

5.
通过引入BERT(Bidirectional Encoder Representation from Transformers)词向量和胶囊神经网络架构,建立期刊文本自动分类模型.选取三个不同规模的Web of Science数据集,以期刊领域的文本分类作为研究任务.在分析文本的基础上,对论文摘要进行多种深度学习算法训练.利用向量化的胶囊神经元和动态路由机制获取文本的局部-整体关系,最终实现更加精准的文本分类模型.实验结果表明,在该数据集上,基于胶囊神经网络的文本分类器的准确率、精准率、召回率和F1值等多项指标均领先于其他基线算法,同时动态路由的迭代次数需要综合考虑模型的损失与训练速度.  相似文献   

6.
文本信息中存在的模糊性和不确定性在很大程度上影响文本情感观点的准确判定.为了提高文本情感分类准确率,提出基于混合特征云模型和支持向量机的多级文本情感分类算法.首先,将文本的TF-IDF权重特征和词性特征相结合,采用信息增益法选取特征的同时对特征降维;然后,在文档混合特征向量集上生成云向量模型,依据模型间的相似度筛选出相似度较大的R个文档,作为支持向量机的输入.实验结果表明,该算法具有良好的分类准确率,且系统的训练速度有显著的提高.  相似文献   

7.
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程.阐述了一个文本分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提取、词义扩展、学习和识别过程、分类算法等进行了详细介绍。引入smooth技术改进词语权重,介绍向量空间模型.结果表明查全率和准确率均达到80%左右,而且smooth的引入有效地改善了分类性能.  相似文献   

8.
采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低.  相似文献   

9.
采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低.  相似文献   

10.
传统的文本分类算法都是采用期望交叉熵、信息增益和互信息等统计方法,通过设置阈值获取特征集,如果训练集的数据量较大,则容易出现特征项不明确,特征信息丢失等缺陷,为解决上述问题,提出运用“深度学习”中的稀疏自动编码器算法自动提取文本特征,然后结合深度置信网络形成SD算法进行文本分类。实验表明,在训练集较少的情况下,SD算法的分类性能低于传统的支持向量机,但是在处理高维数据时,SD算法则比支持向量机具有较高的准确率和召回率。  相似文献   

11.
文本分类属于有指导的机器学习,而构造一个按兴趣分类的分类器,需要进行大量的预处理工作收集正负训练样例,但负样例的收集难度很大.为此,提出了一个只有正例并基于SVM的分类学习模型.实验表明,该学习模型满足了文本分类对于分类精度和速度的要求.  相似文献   

12.
人名、机构名在基于概念的文本分类中的应用研究   总被引:1,自引:0,他引:1  
基于概念的文本分类方法,能对同义词、多义词进行比较好的处理,是一种比较优秀的文本分类算法.但是此方法往往对人名、机构名等具有分类特征的词不能很好地处理,依然停留在关键词的层次.提出了一种将语义词典与一部人名、机构名构成的专有名词词典相结合的新的概念分类方法,并经过实验验证了其有效性.  相似文献   

13.
统计与规则相结合的藏文句子自动断句方法   总被引:1,自引:0,他引:1  
 藏文句子断句是藏文信息处理领域的难点之一,也是藏汉机器翻译、藏文文本分类等工作的一项重要基础性研究.提出了一种统计与规则相结合的藏文句子自动断句方法以解决藏文标点符号功能的歧义问题,实验结果表明该方法具有比较好的效果,F1值达到98%以上.在规则中首先使用经验的方法,识别出不确定的藏文句子作为候选句子,然后采用基于关联词的复句分析方法进行分句合并形成二次候选句子;最后使用最大熵的方法对二次候选句子进行断句.经验方法和复句分析有效解决了最大熵算法无法触及的语料稀疏和分句问题.  相似文献   

14.
一种改进的朴素贝叶斯分类器在文本分类中的应用研究   总被引:1,自引:0,他引:1  
文本分类是数据挖掘领域中重要的研究分支.通过对自适应遗传算法和朴素贝叶斯分类器的研究,提出一种基于自适应遗传算法的朴素贝叶斯分类算法.将该算法应用于中文文本分类中,可以生成最优贝叶斯分类器及最优属性集合,提高分类精度.  相似文献   

15.
针对汉语自动分词后词条的特征信息缺失的问题,本文提出把整个分词过程分解为三个子过程,以词串为分词单位对文本进行分词:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的特征信息更丰富,改善了文本特征选择的效果,提高了文本分类性能。  相似文献   

16.
吴凤仙 《科技信息》2008,(13):291-293
选取《中国期刊全文数据库》与《维普中文科技期刊库》2000—2007年所发表的关于“用户信息需求”与“图书馆服务”研究的725篇研究论文作为分析数据。采用文献定量分析方法进行统计,从文献的时间分布、期刊分布、著者分布、主题分布等角度分析“用户信息需求”与“图书馆服务”的研究状况,对近8年来相关文献的分布情况、信息需求的主要特征以及国内关于信息需求研究的热点问题进行概述。  相似文献   

17.
提出了一款基于Hadoop的并行数据分析系统——PDM.该系统拥有大量以MapReduce为计算框架的并行数据分析算法,不仅包括传统的ETL、数据挖掘、数据统计和文本分析算法,还引入了基于图理论的SNA(社会网络分析)算法.详细阐述了并行多元线性回归算法和"多源最短路径"算法的原理和实现,其中,提出的"消息传递模型"能有效解决MapReduce难以处理邻接矩阵的问题;介绍了基于电信数据的典型应用,如采用并行k均值和决策树算法实现的"套餐推荐",利用并行PageRank算法实现的"营销关键点发现"等;最后通过性能测试,说明该系统适合高效地处理大规模数据.  相似文献   

18.
图像中的文本区域为判别图像垃圾邮件提供了重要依据.为了获得图像中的文本区域信息,提出了基于Hough变换提取图像中倾斜文本区域的算法和降低图像背景干扰的八邻域细小边缘去除算法,实现了一种不受图像中文本颜色、字体、大小、位置、方向限制的文本区域的自动提取方法.在包含100幅垃圾图像的数据集上进行提取图像文本区域的实验.实验结果显示,新方法具有良好的文本区域提取性能.  相似文献   

19.
智能组卷是自适应测验中的一个重要环节.根据试卷生成的目标要求。提出一种基于项目反应理论(IRT)组卷的自适应遗传算法,较好地解决了智能组卷过程中的约束优化问题.  相似文献   

20.
本文主要阐述了office2003的语音功能。首先介绍了怎样使用Excel2003的“文本到语音”的功能,在此基础上再详细介绍了如何在Word中开发“从文本到语音”的功能,文中给出了详细的处理步骤,并提供了VBA的源程序代码。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号