首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
文本分类是文本数据挖掘中的一个重要的内容,现阶段文本分类用到的主要算法有KNN,贝叶斯,神经网络等。KNN算法因为原理简单,分类效果较好,在文本分类中得到应用,但在数据量大时其运行效率上存在一定的局限性,本文提出一种基于中心抽样的KNN算法,并用20newsgroup数据集对其进行验证,在不影响准确率的情况下,提高了运行效率,取得了不错的效果。  相似文献   

2.
苟和平 《科学技术与工程》2012,12(20):4926-4929
K最近邻算法(KNN)被认为是向量空间模型下最好的分类算法之一,在准确率和召回率方面比较出众,但随着样本数量的增加其相似度计算开销很大。本文提出一种改进算法RS-KNN,主要是利用粗糙集的相关理论,计算训练样本集中各样本子类的上近似空间和下近似空间,根据待分类文本出现在不同的近似空间,以缩减与待分类样本计算相似度的训练样本个数。实验表明此算法能够有效地降低分类计算开销。  相似文献   

3.
基于LSA降维的KNN文本分类算法   总被引:1,自引:0,他引:1  
针对文本自动分类问题,提出了一种基于LSA降维的KNN改进算法.通过对文本特征向量运用LSA理论进行降维处理,可以有效提高KNN算法的运行效率,提高分类精度.实验证明,改进的KNN算法具有很好的性能.  相似文献   

4.
应用特征聚合进行中文文本分类的改进KNN算法   总被引:14,自引:0,他引:14  
针对以KNN为代表的VSM模型存在的向量各特征项孤立处理问题 ,提出了一种应用特征聚合方式的改进算法·该算法通过CHI概率统计计算文本特征词对分类的贡献 ,将对分类有相同贡献的文本特征词聚合 ,使用它们共同的分类贡献模式代替传统算法中单个词对应向量一维的方式·该算法提高了稀有词对分类的贡献、强化了关联词的分类效果、并降低了文本向量的维数·与传统KNN算法进行的对比实验证明 ,该算法明显提高了分类的准确率和召回率  相似文献   

5.
针对文本分类存在的高维文本问题,提出文档频率(DF)-卡方统计量特征提取方式,对特征项进行有效约减,降低文本维度,提高分类精度.在K最近邻(KNN)算法的基础上,针对待分类文本需要和大量训练集样本进行相似度计算的问题,提出一种基于分组中心向量的KNN算法,对类别内的样本集分组求出各组中心向量,使其重新代表训练库计算相似度,降低计算复杂度,提升算法的分类性能.通过实验表明:相较传统KNN算法,改进的算法在准确率、召回率及F值方面都有提升,与其他分类算法相比,具有一定的优势.  相似文献   

6.
在使用KNN算法进行大规模文本分类,需要处理频繁的迭代运算,针对现有Hadoop平台迭代运算效率较低的问题,本文提出一种基于Spark平台的并行优化KNN算法.主要从3个方面对算法进行优化,首先,对于训练数据集通过剪枝算法控制有效数据的规模,从而减少迭代运算的次数;其次,针对高维数据集采用ID3算法利用信息熵进行属性降维,减少文本相似度的运算量;最后,使用Spark并行计算平台,引入内存计算最大限度地减少了迭代运算的I/O次数,提高处理速度.通过实验,与常用的KNN算法相比,基于Spark的KNN文本并行分类算法在加速比、扩展性等主要性能指标上表现较优,能够较好地满足大规模文本分类的需求.  相似文献   

7.
KNN算法是一种思想简单且容易实现的分类算法,但在训练集较大以及特征属性较多时候,其效率低、时间开销大.针对这一问题,论文提出了基于模糊C-means的改进型KNN分类算法,该算法在传统的KNN分类算法基础上引入了模糊C-means理论,通过对样本数据进行聚类处理,用形成的子簇代替该子簇所有的样本集,以减少训练集的数量,从而减少KNN分类过程的工作量、提高分类效率,使KNN算法更好地应用于数据挖掘.通过理论分析和实验结果表明,论文所提算法在面对较大数据时能有效提高算法的效率和精确性,满足处理数据的需求.  相似文献   

8.
针对KNN算法样本相似度计算量大,计算冗余度高而效率低下的问题,提出了基于超球区域划分的改进KNN算法。该算法是在经典KNN算法上的改进。通过构造等半径超球集合,将所有训练样本分配到相应的超球中,因此一个待测样本的类别可以通过其最近邻的k个超球内的训练样本集来确定。为保证运算效率,设计算法去寻找最优的超球半径r。实验结果表明,基于超球区域划分的改进KNN算法与经典的传统KNN算法在效率和性能方面有较大的提高。  相似文献   

9.
为了提高文本标记和分类的效率,提出了基于概念语义相关性和LDA的文本自动标记算法(Text Mark Label,TML),用以代替人工标记的文本分类标记. 该算法在概念语义相关性计算的基础上,使用LDA(Latent Dirichlet Allocation)提取文本的主题表示,通过计算文本主题从属于各分类目录的期望从而实现文本自动标记. 为验证TML算法的效果,在标准文本分类数据集上使用文本分类器进行有监督文本分类实验. 为对比数据集和分类器对分类效果的影响,在3个数据集(WebKB、Reuters-21578、20-NewsGroup)上分别使用3种不同的分类器(Rocchio、KNN、SVM)进行实验. 实验结果表明:TML算法有效地提高了文本分类效率及文本标记效率.  相似文献   

10.
K近邻算法是基于向量空间模型的最好的文本分类算法之一。使用KNN算法时通常要用贪婪算法进行参数选择,最终的参数不仅取决于每个参数的初始值及候选值,而且和参数选择的顺序密切相关。不同的参数选择策略间存在较大差异,通过实验,指出了KNN算法进行文本分类时一个较好的参数选择策略。  相似文献   

11.
甘肃小陇山麻沿林区大蛾类区系考查   总被引:1,自引:0,他引:1  
报道甘肃小陇山麻沿林区大蛾类考察结果,共鉴定16科81种,包括中国-新纪录属-秋黄尺娥属。乌苏里青尺蛾为国内新获得的标本,甘肃省新纪录2种:黑玉臂尺蛾及白尖尺娥。该林区蛾类古北区种类与东洋区种类呈现交迭分布的特点。  相似文献   

12.
13.
数字图像区域标定的方法   总被引:22,自引:2,他引:20  
给出了二值图像区域的标定方法。对于八近邻和四近邻的图像,分别建立了一组最小的完备图。利用图像标定的基本图,为二值图像边界的识别构造了一个自动机,自动机的输出就是顶点链编码,为二值图像区域的标定提供了一个有效算法。  相似文献   

14.
提出一种基于目标区域综合特征的图像检索方法,通过把图像分割为若干区域,然后提取区域的颜色、纹理、形状特征,在提取区域特征的基础上再进行区域匹配,然后进行检索和性能分析.实验结果表明,在基于目标区域的图像检索中,在查全率一查准率性能上,综合特征检索要比单一特征检索性能更好.  相似文献   

15.
简述了理想运算放大器的模型和特点,根据集成运算放大器的工作区域,提出了运放工作状态的判断方法。  相似文献   

16.
基于交集矩阵表示方法, 提出一种凹形区域和简单宽边界区域间的拓扑关系表示模型, 并给出了3个约束条件, 在此基础上得到了二维平面中实际存在的67种拓扑关系.  相似文献   

17.
介绍了中部地区的含义,论述了中部地区经济发展中存在的五大软肋,提出了中部崛起的战略构想。  相似文献   

18.
开发区区域大气和水环境容量的计算及管理   总被引:2,自引:0,他引:2  
介绍了开发区大气、水环境容量计算及管理方法,并以湖南城陵矶经济技术开发区为例,初步了方法的具体应用和有关细节处理,所介绍的方法将对其他类似开发区大气、水环境容量的计算及管理起到一定的借鉴和指导作用。  相似文献   

19.
在图像特征提取、识别以及基于特征的图像压缩等领域内,作为关键技术的图像分割方法具有重要的地位。文中针对静态彩色图像,利用形态学分水岭算法对图像进行初始分割,并以结合了边缘和区域信息的合并法则进行图像融合,达到与人视觉系统比较符合的分割结果。  相似文献   

20.
杉木是南方集体林区的主要树种,是我国重要的森林资源,但受区域气候、土壤条件影响,不同地域杉木林的生长状况存在较大差异.利用第8次全国森林资源一类清查福建省杉木林样地数据,随机选择有代表性的179个杉木林样地,采用数理统计方法和Richards生长方程模型,比较中心产区、一般产区和边缘产区杉木人工林的生长差异.结果表明:中心产区杉木林与其他产区杉木林胸径、树高生长差异大,体现在中心产区杉木的胸径和树高结构优于一般产区和边缘产区.采用Richards生长方程拟合的不同产区模型符合实际情况,中心产区Richards生长方程参数A=28.539 6,k=0.019 7,即中心产区杉木林的理论最大树高和生长速率大于其他产区.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号