共查询到17条相似文献,搜索用时 51 毫秒
1.
2.
传统的k近邻(k-nearest neighbors,kNN)文本分类中,由于文本被表示成向量空间模型后维数非常高,且训练文本的数目巨大,kNN分类算法通常被视为是一种虽然有效,但并非高效的文本分类算法。针对传统kNN分类算法效率低下的问题,提出了一种基于投影寻踪思想的kNN分类算法加速策略。基本思想是:通过投影的方法缩减训练集的规模,同时在寻找k近邻过程中对文本进行降维处理,从两方面着手降低算法的计算开销。实验数据表明,优化后的kNN算法比传统kNN算法在时间性能上有较大的提升,同时保证了分类的精度。 相似文献
3.
kNN算法在文本分类中的改进 总被引:4,自引:0,他引:4
kNN算法用已归类的数据训练分类器,它是一种基于实例研究(instance_based learning)文本分类算法,本文在研究kNN算法的基础上,结合k邻近法和最近特征线法的思想,提出了新的分类方法,k最近特征线法(k nearest feature line,kNFL),将其运用于文本分类中,汲取了kNN算法和NFL算法的优点,降低了偶然误差,提高了算法适应性和分类精度。 相似文献
4.
一种基于模糊C均值的新分类算法 总被引:1,自引:0,他引:1
以两种初始化类中心的选择算法为基础, 对传统聚类算法模糊C均值算法进行改进, 提出一种基于模糊C均值的新分类算法NFCM, 解决了数据分类问题, 并采用UCI上的标准数据集中多个常用数据集进行实验测试, 实验结果表明, 对于UCI上标准数据集的常用数据具有较好的分类结果. 相似文献
5.
针对一类基于模糊感知器的神经模糊分类器,分析了隶属函数限制条件对分类结果的影响。并根据模糊密度的概念,提出一种为输入特征选择合适的模糊划分的方法。仿真结果表明了该方法的有效性。 相似文献
6.
一种基于模糊C均值的新分类算法 总被引:1,自引:0,他引:1
以两种初始化类中心的选择算法为基础, 对传统聚类算法模糊C均值算法进行改进, 提出一种基于模糊C均值的新分类算法NFCM, 解决了数据分类问
题, 并采用UCI上的标准数据集中多个常用数据集进行实验测试, 实验结果表明, 对于UCI上标准数据集的常用数据具有较好的分类结果. 相似文献
题, 并采用UCI上的标准数据集中多个常用数据集进行实验测试, 实验结果表明, 对于UCI上标准数据集的常用数据具有较好的分类结果. 相似文献
7.
武子英 《科技情报开发与经济》2005,15(16):228-230
文本自动分类系统是信息处理的重要研究方向,在文献检索、信息过滤和文本管理等领域中有着广泛的应用。介绍了一种基于模糊模式识别以及向量空间模型提取特征向量的中文文本分类器的设计与实现。 相似文献
8.
介绍一种新的粗集编码模糊神经分类器。基于粗集理论的概念,讨论了知识编码、属性简化、分类系统简化的方法;并利用模糊隶属度函数将输入精确信息映射为模糊变量信息,解决分类中病态定义的数据问题和提高系统非线性映射的分类能力;提出了结合系统参数的重要性因子的网络的模糊推理方法和粗模糊神经分类器的网络结构以及有导师的最小平方误差学习训练算法。实现的粗集编码模糊神经分类器具有网络结构空间维数低、学习算法简单、网络训练时间短、非线性特性丰富等优点。 相似文献
9.
通过引入模糊认知图进行文本分类模型研究,即在向量空间模型、粗糙集等方法基础上使用模糊认知图进行文本分类,指出这一研究不仅大大约简文本空间向量的冗余属性,降低研究的规模与复杂性,提高工作效率,而且该研究将使文本分类通过迭代计算考虑到各向量间的影响。 相似文献
10.
一种模糊认知图分类器构造方法 总被引:1,自引:0,他引:1
提出了一种新的模糊认知图分类器模型构造方法,它包括构建流程、激活函数、推理规则和学习方法等核心构件.模型利用提出的动态交叉变异算子自适应遗传进化过程,实现种群间自动调节和自动适应.仿真实验表明:本文提出的模型增强了局部随机搜索能力,加强了算法的全局收敛能力,与其他经典分类方法相比,不但性能较好,而且具有较强的抗噪能力,从而具有更强的鲁棒性. 相似文献
11.
12.
采用经验风险最小化归纳原则和梯度下降方法调整传统中心分类法的类别中心向量, 解决了传统中心分类法因忽略训练集文本权值因素而导致的类别中心向量表达能力较差问题, 得到了与支持向量机分类性能基本一致的一种改进的中心分类法. 实验结果表明, 该方法是提高中心分类法分类性能的一种有效方法. 相似文献
13.
文本自动分类是文本挖掘的基础,可广泛地应用于信息检索,web挖掘等领域.在分类前首先要将文本表示成计算机能处理的形式,提出了一种将隐含语义索引(LSI)与文本聚类相结合的中文文本自动分类的方法.在挖掘文本的语义信息,提高分类速度上均取得了较好的效果.通过实验验证了方法的有效性. 相似文献
14.
基于汉字字频向量的中文文本自动分类系统 总被引:1,自引:0,他引:1
提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计(LinearLeastSquareFil,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类 相似文献
15.
基于多类特征池化的文本分类算法 总被引:2,自引:0,他引:2
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤、网页分类等领域有着广泛的应用价值。目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法。在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息。通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明本文所给出的多种特征池化方法能够提高文本分类的准确率,说明了本文算法的有效性。 相似文献
16.
根据词条聚合和决策树原理,提出了一种文本分类的新方法.决策树分类方法具有出色的数据分析效率和容易抽取易于理解的分类规则等优势,但只能应用于维数较低的特征空间.本方法将与各个类别相关程度相似的词条聚合为一个特征,有效地降低了向量空间的维数,然后再使用决策树进行分类,从而既保证了分类精度又获得了决策树易于抽取分类规则的优势. 相似文献
17.
针对文本自动分类时可能存在一个文本属于多类的问题,提出了一种基于模糊向量空间模型和神经网络的文本自动分类方法。该方法采用模糊集理论,把特征项在文档中出现的位置作为反映文档主题的重要程度(隶属度),并在特征提取时充分考虑该位置信息,从而构造出模糊特征向量,使文本分类更接近手工分类方法。建立的网络由输入层、隐含层和输出层组成,其中输入层完成分类样本的输入,隐含层提取输入样本所隐含的模式特征,输出层用于输出分类结果。实验部分以万方数据库中部分文档数据为例验证了该方法的有效性。 相似文献