期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

高东伟《科学技术与工程》2017,17(7)

当前用户伪装攻击检测方法无法适应动态环境,实时性不高;且需要准确的先验知识,检测精度较低。提出一种新的在线社交网络中用户伪装攻击检测方法,介绍了k最邻近节点(KNN)算法的基本思想,给出KNN算法的实现过程。分析了用户伪装攻击检测与分类的关系,确定在线社交网络中用户伪装攻击检测就是对被检测的未知行为进行分类的过程。针对用户行为,将训练集中正常用户行为的邻居进行排列,通过和k相似的邻居的分类标签对新用户行为类别进行判断,从而实现用户伪装攻击检测。实验结果表明,所提方法不仅检测精度高,而且开销小。相似文献

2.

一种新颖的基于马氏距离的文本分类方法的研究 总被引：1，自引：0，他引：1

张素莉潘欣《长春工程学院学报(自然科学版)》2011,12(2):102-105

KNN(k最近邻算法)是文本挖掘领域最成熟最简单的分类方法之一.该方法对文本分类中的距离参数的选取敏感,错误的选择将导致分类精度降低,影响最终分类效果,该缺陷限制了KNN分类器在文本数据挖掘中的应用.因此,本文将马氏距离引入到文本分类领域,并将其与KNN算法相结合,提出了一种基于马氏距离的新的文本分类方法(Mahala... 相似文献

3.

一种基于改进KNN的哈萨克语文本分类

古丽娜孜孙铁利胡西旦伊力亚尔库瓦特拜克《东北师大学报(自然科学版)》2014,(2)

将文本分类理论应用于哈萨克语中,给出了哈萨克语文本预处理过程.介绍一种改进的KNN算法,并结合自己构建的哈萨克语料集实现基于改进KNN算法的哈萨克语的文本分类.仿真实验数据表明,该方法在哈萨克语的文本分类上获得了较好的效果. 相似文献

4.

SVM-KNN 分类器在异常行为检测中的应用

林春丽齐欣王克成《辽宁科技大学学报》2010,33(5):449-452

提出了一种新的异常行为检测方法,将SVM算法和KNN算法结合,在对识别样本判别时,当其与最优分类面的距离大于给定阈值时,采用SVM分类算法,否则采用KNN算法,从而减少了SVM算法的错误率.实验结果表明,SVM-KNN算法对异常行为检测的准确率达到95.86%. 相似文献

5.

KNN文本分类算法中的特征选取方法研究 总被引：1，自引：0，他引：1

曹勇吴顺祥《科技信息》2006,(12):26-28

对基于中文的文本分类过程进行了介绍,重点介绍了文本分类中几种特征选取的方法,详细介绍了KNN分类算法,最后介绍了文本分类的评估方法并通过实验测试对比了几种特征选择的方法在基于KNN技术的文本分类中的使用效果. 相似文献

6.

基于样本重要性原理的KNN文本分类算法 总被引：1，自引：0，他引：1

万韩永左家莉万剑怡王明文《江西师范大学学报(自然科学版)》2015,(3):297-303,314

KNN是重要数据挖掘算法之一,具有良好的文本分类性能.传统的KNN方法对所有样本权重看作相同,而忽略了不同样本对于分类贡献的不同.为了解决该个问题,提出了一种样本重要性原理,并在此基础上构造KNN分类器.应用随机游走算法识别类边界点,并计算出每个样本点的边界值,生成每个样本点的重要性得分,将样本重要性与KNN方法融合形成一种新的分类模型——SI-KNN.在中英文文本语料上的实验表明:改进的SI-KNN分类模型相比于传统的KNN方法有一定的提高. 相似文献

7.

逃避攻击下恶意PDF文件检测技术

李坤明顾益军王安《中国人民公安大学学报(自然科学版)》2019,25(3)

KNN(K近邻)算法以其操作简单、分类效果明显的优点被广泛应用于网络入侵检测、垃圾邮件识别和图像识别等领域。KNN算法通过计算测试集与训练集之间的相似度进行分类。传统的机器学习分类模型通常只考虑分类的精度,没有考虑到攻击者的攻击问题,导致当存在非法攻击时,分类模型的鲁棒性降低。对此首先通过使用逃避攻击方法实现对KNN算法在恶意PDF文件分类上的攻击,然后将攻击产生的对抗样本添加到训练集中训练出新的分类器,最后模拟两种不同攻击方式在不同攻击强度下对改进前后KNN分类器分类效果的影响。实验结果表明,通过将对抗样本添加到训练集中能够有效提高KNN分类器的鲁棒性。相似文献

8.

SVM-KNN分类器在异常行为检测中的应用

林春丽齐欣王克成《鞍山科技大学学报》2010,(5)

提出了一种新的异常行为检测方法,将SVM算法和KNN算法结合,在对识别样本判别时,当其与最优分类面的距离大于给定阈值时,采用SVM分类算法,否则采用KNN算法,从而减少了SVM算法的错误率。实验结果表明,SVM-KNN算法对异常行为检测的准确率达到95.86%。相似文献

9.

一种基于SVM-修正KNN算法的哈萨克语文本分类

古丽娜孜.艾力木江孙铁利乎西旦特列克别克《西北师范大学学报(自然科学版)》2014,(3):48-52

为了实现哈萨克语文本分类,根据哈萨克语语法规则,给出了哈萨克语文本词干的提取方法;结合DFR特征选择方法和VSM文本表示模型实现哈萨克语文本的预处理,提出了一种SVM和修正KNN协同的文本分类算法,分别在自行构建的语料集和整理的《新疆日报》哈萨克语数据集上进行大量文本分类仿真实验.结果表明,该方法在哈萨克语文本分类上具有良好的分类性能,并比SVM,KNN的测试性能优越. 相似文献

10.

基于LSA降维的KNN文本分类算法 总被引：1，自引：0，他引：1

李良俊张斌杨明《东北师大学报(自然科学版)》2007,39(2):33-36

针对文本自动分类问题,提出了一种基于LSA降维的KNN改进算法.通过对文本特征向量运用LSA理论进行降维处理,可以有效提高KNN算法的运行效率,提高分类精度.实验证明,改进的KNN算法具有很好的性能. 相似文献

11.

基于改进K最近邻算法的中文文本分类

下载免费PDF全文

黄超陈军华《上海师范大学学报(自然科学版)》2019,48(1):96-101

针对文本分类存在的高维文本问题,提出文档频率(DF)-卡方统计量特征提取方式,对特征项进行有效约减,降低文本维度,提高分类精度.在K最近邻(KNN)算法的基础上,针对待分类文本需要和大量训练集样本进行相似度计算的问题,提出一种基于分组中心向量的KNN算法,对类别内的样本集分组求出各组中心向量,使其重新代表训练库计算相似度,降低计算复杂度,提升算法的分类性能.通过实验表明:相较传统KNN算法,改进的算法在准确率、召回率及F值方面都有提升,与其他分类算法相比,具有一定的优势. 相似文献

12.

网络信息审计系统中的文本片断模糊分类算法

李金库张德运高鹏孙钦东《西安交通大学学报》2005,39(8):800-803

分析了分段对文本分类的影响,提出了与文本语义密切相关的最大语义标志原则(MSMR)和段落间的语义激励原则(SIR),在模糊K-最近邻分类算法的基础上,应用这2个原则设计并实现了一种基于上下文的文本片断模糊分类算法.该算法依据SIR判断文本片段分类的相互影响,降低了片段分类的错误率,当某一片断类隶属度大于某一阈值时,依据MSMR判定可知,同一文档的后续片断均属于同一类别,这样就不用计算所有片断的类隶属度.实验表明:与模糊K-最近邻分类算法相比,所提算法能有效提高系统的查准率、查全率和正确率,其中查全率可提高16%以上;在同一会话中,由于被明确分类后的后续片段不需要计算类隶属度,所以算法总计算时间明显少于模糊K-最近邻分类算法,具有较高的分类效率. 相似文献

13.

基于粗糙集与KNN的Web文本分类的研究

桂海霞孟祥瑞《安徽理工大学学报(自然科学版)》2008,28(4)

为了从海量的信息资源库中快速、准确地进行分类并提取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对该混合算法进行比较,验证该算法的可行性。相似文献

14.

一种基于改进信息增益特征选择的最大熵模型文本分类方法

何明《西南师范大学学报(自然科学版)》2019,44(3):113-118

针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分类精度,并将该改进IG特征选择算法用于最大熵模型(ME)对文本进行分类.实验结果表明:该文所提方法在进行文本分类时F1值高于传统IG算法.该文方法的ME分类精度高于K最近邻KNN(K-Nearest Neighbor)算法,说明本文方法是可行的、有效的. 相似文献

15.

一种基于粗糙集的改进KNN文本分类算法

苟和平《科学技术与工程》2012,12(20):4926-4929

K最近邻算法（KNN）被认为是向量空间模型下最好的分类算法之一,在准确率和召回率方面比较出众,但随着样本数量的增加其相似度计算开销很大。本文提出一种改进算法RS-KNN,主要是利用粗糙集的相关理论,计算训练样本集中各样本子类的上近似空间和下近似空间,根据待分类文本出现在不同的近似空间,以缩减与待分类样本计算相似度的训练样本个数。实验表明此算法能够有效地降低分类计算开销。相似文献

16.

基于粒子群优化的快速KNN分类算法

张国英沙芸江慧娜《山东大学学报(理学版)》2006,41(3):34-36

提出了一种有效的快速ｋ近邻分类文本分类算法,即PSOKNN算法，该算法利用粒子群优化方法的随机搜索能力在训练文档集中进行有指导的全局随机搜索. 在搜索ｋ近邻的过程中，粒子群跳跃式移动，掠过大量不可能成为ｋ近邻的文档向量，从而可以快速找到测试样本的ｋ个近邻. 以Reuters 21578文档集分类为例验证算法的有效性，结果表明，保持ｋ近邻法分类精度，新算法比KNN算法降低分类时间70％. 相似文献

17.

基于并行遗传算法的KNN分类方法

王小青《西南师范大学学报(自然科学版)》2010,35(2)

针对KNN的K值难以确定的问题,提出一种基于并行遗传算法的KNN分类方法.该方法采用粗粒度模型的并行遗传算法进行设计,通过种群内的遗传、变异和种群间的并行进化、联姻得到优化的K值和分类结果.实验结果表明,该方法有效的提高了KNN算法的分类效果,是一种精确高效的分类方法. 相似文献

18.

基于概念语义相关性和LDA的文本标记算法

周春蒋运承《华南师范大学学报(自然科学版)》2018,50(4):121-128

为了提高文本标记和分类的效率,提出了基于概念语义相关性和LDA的文本自动标记算法(Text Mark Label,TML),用以代替人工标记的文本分类标记. 该算法在概念语义相关性计算的基础上,使用LDA(Latent Dirichlet Allocation)提取文本的主题表示,通过计算文本主题从属于各分类目录的期望从而实现文本自动标记. 为验证TML算法的效果,在标准文本分类数据集上使用文本分类器进行有监督文本分类实验. 为对比数据集和分类器对分类效果的影响,在3个数据集（WebKB、Reuters-21578、20-NewsGroup）上分别使用3种不同的分类器（Rocchio、KNN、SVM）进行实验. 实验结果表明:TML算法有效地提高了文本分类效率及文本标记效率. 相似文献