共查询到20条相似文献,搜索用时 78 毫秒
1.
基于VSM的中文文本分类系统的设计与实现 总被引:25,自引:0,他引:25
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。该文阐述了一个基于向量空间模型的中文文本分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提取、训练算法、分类算法等进行了详细介绍。引入标题权重系数改进词语权重,并提出了一种新的分类算法。实验测试结果表明查全率和准确率均达到90%左右,而且标题权重的引入和新分类算法的实施有效地改善了分类性能。 相似文献
2.
朴素贝叶斯算法和SVM算法在Web文本分类中的效率分析 总被引:3,自引:0,他引:3
詹毅 《成都大学学报(自然科学版)》2013,32(1):50-53
为分析对比朴素贝叶斯算法和SVM算法在Web文本分类中的效率及其适用的范围,构建了一个Web分类系统,此分类系统将已分类的Web网页作为训练集,利用分类算法构建Web分类器,通过Web测试集评价两类算法在Web文本分类中的性能体现,为Web文本分类算法选择提供一定的参考依据. 相似文献
3.
刘辉 《中国新技术新产品精选》2011,(14):28-28
Web文本分类是Web文本挖掘的主要内容,而特征项权重的计算是web文本分类中一个非常重要的步骤。Web文本一般由标题、描述和正文三部分组成。根据Web文本的这一特点,本文提出了一种基于位置的特征项权重算法,并使用此算法对Web文本进行了分类实验。实验结果表明该算法有效提高了Web文本分类系统的分类性能。 相似文献
4.
一种基于VSM文本分类系统的设计与实现 总被引:10,自引:0,他引:10
阐述了一个基于改进向量空间模型的中文文本分类系统的设计与实现 ,包括对该系统的结构、预处理、特征提取、训练算法 ,分类算法等关键技术的介绍 .通过引入结构层次权重系数来改进文本特征项权重 ,同时提出一种新的训练算法和文本相似度域值计算方法 .实验结果证明 :该分类系统能有效地提高文本分类效果 ,开放性测试的平均准确率在 80 %以上 ,且平均查全率达到了 86 % . 相似文献
5.
陈子昕 《东莞理工学院学报》2008,15(3):38-43
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程.阐述了一个文本分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提取、词义扩展、学习和识别过程、分类算法等进行了详细介绍。引入smooth技术改进词语权重,介绍向量空间模型.结果表明查全率和准确率均达到80%左右,而且smooth的引入有效地改善了分类性能. 相似文献
6.
为了提高文本标记和分类的效率,提出了基于概念语义相关性和LDA的文本自动标记算法(Text Mark Label,TML),用以代替人工标记的文本分类标记. 该算法在概念语义相关性计算的基础上,使用LDA(Latent Dirichlet Allocation)提取文本的主题表示,通过计算文本主题从属于各分类目录的期望从而实现文本自动标记. 为验证TML算法的效果,在标准文本分类数据集上使用文本分类器进行有监督文本分类实验. 为对比数据集和分类器对分类效果的影响,在3个数据集(WebKB、Reuters-21578、20-NewsGroup)上分别使用3种不同的分类器(Rocchio、KNN、SVM)进行实验. 实验结果表明:TML算法有效地提高了文本分类效率及文本标记效率. 相似文献
7.
基于改进互信息的特征提取的文本分类系统 总被引:2,自引:0,他引:2
文章提出并实现了一种改进互信息的特征提取和支持朴素贝叶斯的文本分类系统,改进的互信息算法加强了负值单词的互信息值,弥补了原来互信息预处理算法的不足,从而提高了分类精度.实验结果表明本算法和系统具有较高的分类准确率。 相似文献
8.
杨丽玲 《吉林师范大学学报(自然科学版)》2014,(4):133-135
文中介绍了使用核覆盖算法进行中文文本分类.研究了采取不同的特征选取方法、利用核覆盖算法进行文本分类的区别.通过实验,除互信息外的其它几种特征选取方法在核覆盖算法分类过程中均取得了较优的实验结果,可看出核覆盖算法在文本分类中是一个不错的方法. 相似文献
9.
在文本分类中,数据规模过大或文本分布不均匀对传统KNN算法的准确率和效率具有重要影响。为了解决该问题,文章提出一种基于粗糙KNN(k-nearest neighbor)算法的文本分类新方法。首先引入粗糙集中的上下近似概念定义各类文本的上下近似空间,将文本向量空间分为核心和混合2大区域;然后改进传统KNN算法的隶属度函数;再针对不同的文本区域,采取差异化的分类策略以提高分类的效率和准确率。实验表明,基于粗糙KNN算法的文本分类方法在提高分类准确率的同时,分类的效率也有很大提高。 相似文献
10.
11.
刘韬 《西南民族学院学报(自然科学版)》2009,35(3)
本文首先介绍了文本分类算法,并针对基本粒子群算法在收敛性能上的缺陷, 提出了具有量子行为的粒子群优化算法, 把它应用于文本主题挖掘和文本分类. 实验结果显示,这种文本分类方法和基本粒子群算法比较, 提高了文本分类的准确率、召回率, 具有很好的性能. 相似文献
12.
13.
基于改进分类模型的文本分类系统实现 总被引:1,自引:0,他引:1
吕佳 《重庆师范大学学报(自然科学版)》2009,26(2):79-83
提出一种基于改进的分类模型的文本分类系统来实现文本的自动分类.针对传统的特征提取算法不能很好区分特征词在类内和类间分布情况的缺陷,该系统利用方差对该算法作了改进,用改进的特征提取算法量化各个特征词的权重,为了降低特征向量的维数,采用为每个类建分类器的分类模型,利用遗传算法来修正各个类特征词的权重,直到为每个类训练出能够代表本类的特征向量,最后用这些类的特征向量进行分类.通过在同一数据集上进行对比实验,说明本文提出的改进分类模型的文本分类系统是正确可行的. 相似文献
14.
分析了文本自动分类的关键理论及技术,给出一个已实现的基于向量空间模型(VSM)的文本自动分类系统的框架模型,重点描述此系统的实现算法.此算法在训练阶段通过部分训练集确定向量的特征提取维数,并提出一种"平均值"匹配阈值调整方法,从而在精度和效率方面优于传统的分类算法.实验表明此系统查准率为91.8%,查全率为85%. 相似文献
15.
为了解决分类算法在文本分类时出现特征维度过高和数据稀疏的间题,提出了一种基于卷积神经网络(convolutional neural network,CNN)的文本分类算法,该算法结合卷积神经网络论中的邻接矩阵对文本分类进行动态建模。对文本的词向量进行训练,并且通过分类邻接矩阵得到群的结构和个数分类。在提取出文本抽象特征的基础上用CNN分类器来进行分类。仿真分析表明:该算法在在进行文本分类效果显著。 相似文献
16.
介绍了基于模糊神经网络算法的塑料饮料瓶自动分类系统,包括算法设计和系统实现.系统根据各种塑料饮料瓶的颜色特性信息,迅速、准确地将饮料瓶按不同颜色进行自动分类,从而实现生产过程的自动化. 相似文献
17.
18.
基于基尼的模糊kNN分类器 总被引:2,自引:0,他引:2
随着网络的发展,大量的文档涌现在网上,自动文本分类成为处理海量数据的关键技术。在众多的文本分类算法中,kNN算法被证明是最好的文本分类算法之一。对于大多数文本分类来说,文本预处理是文本分类的瓶颈,文本预处理的好坏直接影响着分类的性能。在此介绍了一种新的文本预处理算法——基于基尼的文本预处理算法。同时采用模糊集理论改进kNN的决策规则。这两者的结合使得模糊kNN比传统的kNN表现出更好的分类性能。实验结果证明这种改进是有效的,可行的。 相似文献
19.
针对当前图书借阅平台推送信息量大、分类管理困难等问题,提出了一种基于参数优化二叉树支持向量机(BTSVM)的推送信息分类算法。采用统计分词法对文本信息进行预处理,形成高维特征集,再利用参数优化后的BTSVM算法,实现平台内各种推送信息的精确分类,从而对不同客户群体进行针对性的信息推送。实验结果表明, BTSVM算法较SVM和ELM方法具有更高的分类准确率。 相似文献
20.
为了方便海洋领域知识的应用和管理,提出海洋领域知识多维多层次分类体系;将文本分类技术应用于海洋领域知识,阐述了多维多层次文本分类系统的设计与实现.对文本分类系统的系统结构、预处理、特征提取、训练算法、多维多层次分类等进行了详细介绍.实验测试结果表明: 分类系统的查全率和准确率约为90%左右.系统的建立对于推进中国"数字海洋"信息基础建设提供了必要的支持. 相似文献