排序方式: 共有15条查询结果,搜索用时 15 毫秒
1.
针对KNN算法在分类时的样本相似度计算开销大,在处理不均衡数据集时少数类分类误差大的问题,提出一种在不均衡数据集下基于密度的训练样本裁剪算法。对训练样本的各个样本类进行聚类,删除噪声数据并计算每个样本类的平均相似度和样本平均密度,以此获得样本类裁剪的相似度阈值,然后将样本类内相似度小于类相似度阈值的样本进行合并,减少训练样本总数。实验表明,此样本裁剪算法能够在保持KNN算法分类性能基本稳定的前提下,有效地减少分类计算开销,并能在一定程度上提高少数类的分类性能。 相似文献
3.
K最近邻算法(KNN)在分类时,需要计算待分类样本与训练样本集中每个样本之间的相似度.当训练样本过多时,计算代价大,分类效率降低.因此,提出一种基于DBSCAN聚类的改进算法.利用DBSCAN聚类消除训练样本的噪声数据.同时,对于核心样本集中的样本,根据其样本相似度阈值和密度进行样本裁剪,以缩减与待分类样本计算相似度的训练样本个数.实验表明此算法能够在保持基本分类能力不变的情况下,有效地降低分类计算量. 相似文献
4.
5.
K最近邻算法(KNN)被认为是向量空间模型下最好的分类算法之一,在准确率和召回率方面比较出众,但随着样本数量的增加其相似度计算开销很大。本文提出一种改进算法RS-KNN,主要是利用粗糙集的相关理论,计算训练样本集中各样本子类的上近似空间和下近似空间,根据待分类文本出现在不同的近似空间,以缩减与待分类样本计算相似度的训练样本个数。实验表明此算法能够有效地降低分类计算开销。 相似文献
6.
随着分布式系统的发展,许多信息资源分布在网络中不同的信息系统中,给信息的共享和知识的发现造成了很大的困难.提出了一种基于Web Services的数据挖掘系统框架,开发数据挖掘中间DMS件(Data Mining Service)实现对异构信息系统的透明访问,把局部和全局的挖掘结果都包装成XML格式.实验表明该系统能够有效地解决了由于系统和信息的异构所带来的数据挖掘困难问题. 相似文献
7.
针对KNN文本分类算法在高维数据集上分类计算开销大、效率低的缺点,采用一种基于矩阵奇异值分解的文本特征向量降维方法实现向量降维的同时保留更多的分类信息.同时,采用信息增益的方式对原始文本特征词进行了初步筛选,过滤掉对分类系统几乎没有贡献的特征词,以克服文本特征维数增长所带来的奇异值分解计算开销过大的缺点.实验表明此方法能在保持分类精度的同时极大地降低分类计算开销. 相似文献
8.
遗留信息共享的一种实现方案 总被引:1,自引:0,他引:1
在分析遗留系统特点的基础上,提出实现遗留信息共享的一种方案,建立遗留信息的一种封装协议——REML.REML利用网格服务实现各类遗留信息的重新利用,使得TILS这类系统中的遗留信息不必经过重新开发新系统就能被网格用户所访问,实现遗留信息资源的共享.通过该方案,企业可以根据自身的目标,动态地集成这些分布在不同遗留系统中的信息资源.设计实现基于该方案的原型软件,验证此方案的有效性和实用性. 相似文献
9.
10.