共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
文本自动分类技术是随着网络信息化而发展起来的。它的作用是将各地海量的电子资源通过网络联系在一起,实现资源共享。本文通过对自动分类技术的类型及基本概念的概述,提出了自动分类中两种重要的算法技术。 相似文献
3.
为了解决文本自动分类问题,从解决支持向量机模式支持限制问题入手,以级连概念为指导思想,构造了多层级连式支持向量机模型,提出一种文本自动分类算法,以便处理多个模式的分类问题。由于支持向量机本质上是一种非线性数据处理工具,对于复杂的两类模式分类问题已表现出良好的适应性,而且支持向量机用于模式识别不存在局部极小值问题,且不需进行网络迭代训练,求解速度明显高于神经网络。通过以CNKI文档数据为例进行算法实践,试验结果表明支持向量机用于模式分类的实现步骤比较简单,不需要长时间的训练过程,只需根据初始样本在空间的分布特性求解最优超平面(即找出支持向量),进而确定决策函数,然后即可泛化推广识别其他待识别的同类样本。 相似文献
4.
本文对决策树数据挖掘方法进行分析和比较,并应用该分类方法对网页文本进行分类,仿真实验结果证明决策树算法在文本分类研究领域有着广阔的应用前景. 相似文献
5.
6.
7.
8.
网络智能文本分类系统的研究与实现 总被引:2,自引:0,他引:2
谢宜辰 《湘潭大学自然科学学报》2000,22(1):12-15
介绍了文本自动分类的基本原理及相关的算法 ,提出了一种基于网络的智能文本分类系统的基本框架 ,并详细地阐述了实现它的关键技术 相似文献
9.
一种文本分类数据挖掘的技术 总被引:7,自引:0,他引:7
挖掘的理论和应用研究是数据挖掘领域一个新的重要分支,介绍了一种文本数据挖掘方法. 首先,论述了文本挖掘的意义和重要性,探讨了文本挖掘的定义和文本分类的一些形式,然后讨论了一个以数据预处理、特征提取、特征表示和特征匹配等文本分类的一些关键理论问题,并给出了一个基于该方法的文本分类系统的实验结果,实验结果表明了该方法的可行性. 相似文献
10.
Web文本分类是Web数据挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,本文提出一种综合粗糙集与支持向量机的Web文本分类模型,利用粗糙集的属性约简方法,减少支持向量机训练数据的维数,提高Web文本分类的性能与效率. 相似文献
11.
12.
文本分类规则的提取和优化是衡量文本分类系统适应性能和分类能力的主要指标.在基于粗糙集和模糊聚类理论的文本分类系统中,结合粗集理论及不完备信息系统理论,提出了分类规则的提取和优化方法,通过实验和分析,产生用户满意的约简规则,从而能够快捷迅速地指导新文本的分类,提高系统的适应性能和分类能力. 相似文献
13.
针对当前基于深度学习的金融文本分类模型严重依赖于标记数据的问题,提出了一种基于跨领域迁移的AM-AdpGRU金融文本分类模型,通过学习相关领域数据的分类准则将其迁移到目标领域数据。AM-AdpGRU模型首先利用深度网络自适应来克服源领域和目标域之间数据分布差异导致的迁移损失,使得即使数据分布发生变化时模型也无需重构;然后利用注意力机制建立了目标域对源领域的特征选择机制,使得模型对源领域的注意力可以集中在与目标域相似性更高的部分。在公开的跨域情感评论Amazon数据集和SemEval-2017的Microblog金融数据集上进行了实验,将AM-AdpGRU模型与其他方法进行比较,结果表明AM-AdpGRU模型的分类平均准确性相对于其他模型有了显着提升。 相似文献
14.
针对现有Web新闻文本分类方法准确率低且不能适应文本类型变化的问题,提出一种基于进化模糊规则的Web新闻文本挖掘和分类方法.首先,对每篇Web文本进行术语提取,并利用词频-逆向文档频率(TF-IDF)算法过滤掉一些具有较低描述能力的术语.然后,基于计算收集到的新的新闻文本内容与类别之间的余弦距离,利用eClass0分类器创建和更新模糊规则的数量和属性.最后,根据模糊规则推理和余弦距离进行文本分类.实验结果表明,该方法具有较高的正确分类率,且能够自适应Web新闻文本类别的变化. 相似文献
15.
16.
决策树分类ID3算法研究 总被引:1,自引:0,他引:1
分类是数据挖掘的重要内容之一,在许多领域得到广泛应用,现已有多种分类方法,其中决策树分类法在海量数据环境中应用最为广泛,本文分析了决策树分类ID3算法的原理,给出构造决策树的基本算法,指出ID3算法构造决策树的优缺点,针对ID3算法倾向于取值较多的测试属性的缺点,引入一个参数来约束属性选择,给出一种优化算法. 相似文献
17.
为了得到核Bayes函数作为分类器的核主元分析(KPCA)与核Fisher判据分析(KFDA)的算法模式稳定性,利用Rademacher复杂度的概念及相关定理,推导出了核Bayes函数Rademacher复杂度的界以及其作为分类器的算法发生错误分类的概率的界,说明了模式稳定性与样本长度、降维矩阵的维数等关系,提出了两种衡量模式稳定性的直观指标,误分差和百分比和误分均值偏离度.仿真结果不仅验证了几个定理,也表明所提出的衡量指标是有效的、可行的. 相似文献
18.
设计了一种基于VSM模型的动态文本分类器,它能针对文本的不同类别建立不同的特征子空间,各特征子空间之间相互独立,同时能将文本分类中常用的2个评估指标召回率和精确率转化为正确分类率和错分率;考察了特征子空间的维数和判定界值对这2个指标的影响.该动态文本分类器能对用户输入的文本流进行动态分类. 相似文献
19.
针对统计方法不能从语义理解的角度进行文本分类的问题,提出了利用概念层次网络概念知识进行文本分类的方法,包括两部分:依据概念进行特征选取以及根据类别关联度分类. 在特征选取时,通过计算概念与类别的区分度挖掘出类别核心概念,并采用类别核心概念对特征项进行精选. 依据类别核心概念相关的类别语义信息,提出了文档与类别关联度的计算方法,并根据类别关联度来判断文本类别. 实验表明,该方法可有效降低特征空间维数,在提高分类效率的同时保证了分类效果,F1值略有提高. 与SVM、KNN和Bayes分类器对比,当特征项数目较少时,该方法的F1值明显高于其他3种方法,综合分类效果与SVM相当,优于KNN和Bayes. 相似文献
20.
网络化与信息化社会具有信息海量化和用户需求个性化的特点,如何通过有效手段过滤掉与目标用户不相关的信息,筛选出对用户有用、能满足用户需求的信息成为信息研究领域的重要课题。本文针对协同过滤中存在的评分数据稀疏性与推荐准确度问题,提出了一种基于项目特征值分类与空缺元素填充的协同过滤算法。实验结果表明,改进的协同过滤算法能有效的缓解评分数据稀疏性对推荐结果的负面影响,在一定程度上提高了推荐的准确度。 相似文献