共查询到20条相似文献,搜索用时 15 毫秒
1.
提出了一种网络信息文本分类模型的建立方法,根据网络报文的特点,抽取其中关键词作为分类特征词条,并以报文关键词进行词频统计分析建立文本分模型,分别进行了基于最近邻决策和K-近邻决策的分类效果试验研究,结果显示,K-近邻决策的分类效果要优于最近邻决策的分类效果。 相似文献
2.
提出了一种网络信息文本分类模型的建立方法。根据网络报文的特点,抽取其中关键词作为分类特征词条,并以报文关键词进行词频统计分析建立文本分模型。分别进行了基于最近邻决策和K-邻近决策的分类效果试验研究,结果显示:K-近邻决策的分类效果要优于最近邻决策的分类效果。 相似文献
3.
由于有序与无序特征之间的复杂关系,现有分类方法不能有效处理混合数据(同时包括有序和无序特征)上的分类问题。针对此问题,提出了基于k近邻的混合数据分类方法(a classification method for mixed data based on k-nearest neighbor,MDKNN)。首先通过区分有序和无序特征计算样本之间的距离,获取特征的序信息和统计信息;然后分别从优于和劣于预测样本的训练集中选出最近邻样本,并基于模糊关系计算其类隶属度,以确定预测样本的类标签范围,从而保证预测结果的单调性;最后在该范围内计算分类结果。在来自UCI和WEKA的12个公开数据集上进行实验,分别与基于k近邻模型的MKNN、FKNN、MFKNN算法和基于非k近邻模型的PMDT、OLM、OSDL算法比较,所提方法都获得了最高的平均准确率,且分别比两类模型中的最优算法MFKNN和PMDT提高了7.13%和9.84%,表明了所提方法的有效性。 相似文献
4.
在基于视觉词包模型的图像分类方法中,Fisher向量编码是常用的图像表示方法之一.该方法利用每一个特征关于所有高斯子模型似然函数的梯度信息来构建图像表达.而在编码过程中,每一个特征都会被投影到所有的高斯子模型上并进行编码,同时子模型之间的内在差异也未被考虑,这些不足削弱了Fisher向量的表达能力.为此,提出一种基于k密集近邻算法的局部Fisher向量编码方法.在编码过程中该方法引入局部性约束原则,并利用图像特征空间中高斯子模型间的拓扑结构差异.在多个数据集上进行测试,结果表明改进方法能够有效提升分类的准确率. 相似文献
5.
文章提出一种融合互近邻和可信度的K近邻算法,根据互近邻的概念删除噪声数据;利用由近邻诱导待分类样本标签的可信度,避免待分类样本近邻中大类吃小类的概率。该算法不仅可以减小噪声数据对分类的影响,而且一定程度上增强了K近邻分类算法的稳定性。该算法在UCI标准数据集上进行了测试,性能相当或优于其他分类器。 相似文献
6.
文章针对传统K-近邻分类方法学习效率低下的问题,提出一种基于并行计算的加速K-近邻分类方法(K-nearest neighbor classification method based on parallel computing,PKNN),即并行K-近邻分类.该方法首先将所需要分类的样本划分为不同的工作子集,然后在每个子集上进行并行的K-近邻分类.由于划分后每个工作子集的规模均远小于整个数据集的规模,因此降低了分类算法的复杂度,可有效处理大规模数据的分类问题.实验结果表明,PK-NN方法能提高分类效率. 相似文献
7.
特征选择是机器学习和模式识别领域的一个关键问题.文中详细分析研究一类基于K近邻分类间隔的特征选择算法,并着重讨论当K>1时,特征选择的评价准则和搜索策略的设计,同时在多个数据集上验证其性能. 相似文献
8.
对随机近邻分类方法做了深入的研究 ,采用了随机近邻判决准则 ,对一事例数据进行了计算 ,并与多元系统聚类得出的结果进行对比 ,显示出随机近邻分类方法具有较好的非线性、非球形分类的特点 ,值得进一步推广应用 相似文献
9.
随着全球信息化的出现,手工分类索引已经不适用于大规模信息的处理,自动分类的研究得到迅速发展。K-近邻法是具有一定效率的自动分类算法。本文将其与智能优化技术结合,用于基于机器学习的文本分类过程中。实验结果表明,对于庞大的文档集合分类,该算法提高了分类的速度和精度。 相似文献
10.
基于k-近邻方法的渐进式中文文本分类技术 总被引:3,自引:0,他引:3
针对k-近邻方法分类准确率较高、但分类效率较低的特性,提出了一种基于k近邻方法的渐进式中文文本分类技术,利用文本的标题、摘要、关键词、重点段落进行渐进式的分类处理.这样,不用分析全文就能将部分待分类文本成功分类,从而提高了文本分类的效率.实验结果表明,该方法在保证分类准确率的基础上能够有效地提高分类效率. 相似文献
11.
针对传统KNN算法忽略样本分布对分类的影响,易受到孤立样本、噪音等干扰,时间代价大等问题,提出了一种改进的近邻分类算法.该算法首先采用类维样本存储,打破了样本的整体性,转换了训练样本存储模式;其次按类维度寻求未知样本的类维近邻域,计算类维相似度进而得到未知样本的类别相似度;最后以最大类别相似度标识未知样本.该算法提高了分类效率,降低了独立样本对样本分类的影响.同时可处理连续型和标识型样本分类,并可适应各类样本分布情况,扩大了算法的应用范围.实验结果表明,该算法较传统的近邻算法与邻域分类算法在分类精度与分类时间上有了较大提升. 相似文献
12.
针对多机器人系统的增强学习问题,为提高机器人的学习速度和充分利用通信范围内其他机器人的增强学习的经验和结果,给出了2类基于局部加权k近邻时间差分的多机器人系统的交互式学习策略.对于机器人之间通信无时滞情形,基于环境感测和任务信息状态描述的局部加权k近邻状态选择方法,机器人通过对自身和通信范围内其他机器人Q值表的比较和分析,对其自身的Q值表进行优化迭代更新.在此基础上,分别给出了基于全局通信条件下和局部通信条件下多机器人系统的异步的互增强学习方案.最后,通过仿真实验进一步验证了所提方案的可行性和有效性. 相似文献
13.
针对网购评论,抽取评论语组成基本语料,构建客户网购评论情感词汇本体,对热点评论应用k-近邻和SVM 2种算法来分析评论文本热点事件,实验证实SVM算法较k-近邻算法在评论文本热点发现上具有较高的性能,为网购评语热点研究提供了实例参考. 相似文献
14.
苑静中 《天津师范大学学报(自然科学版)》2008,28(3):60-63
针对动态心电图波形数据量大且具有明显个体差异性的特点,提出了一种改进的K近邻分类算法,用于动态心电图波形分类.该算法首先将实例间的度量改为曼哈顿距离(City Block Distance),然后引入高斯核函数,将K近邻算法改进为非线性分类算法,以达到分类动态心电图波形的目的.实验结果表明,该算法在对动态心电图波形进行分类时,分类精度在90%以上. 相似文献
15.
在笔者之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(H-MR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大数据时,需要从磁盘读取数据,再将中间结果写回磁盘,导致系统的I/O开销极大,这大大降低了MapReduce的效率.与MapReduce不同,Spark是一种基于内存的计算框架,它将数据第1次从磁盘读入内存,生成一种抽象的内存对象RDD(resilient distributed datasets).此后,Spark只操作内存中的RDD,计算过程只涉及内存读写,因此大幅提升了数据处理效率.基于这一事实,对算法H-MR-K-NN进行了改进,提出了一种改进的算法(简记为H-Spark-K-NN),可以进一步提高大数据K-近邻分类的运行效率. 相似文献
16.
17.
刘岩峰 《齐齐哈尔大学学报(自然科学版)》2006,22(6):53-55
连续近邻查询(CNN)是时空数据库中一种重要的查询类型。Voronoi图解决连续近邻查询问题,思想简单明晰,但Voronoi图构造代价太高,尤其是高阶的Voronoi图。本文利用分枝限界的思想去界定预创建Voronoi图生成点范围的上限。提出了一种动态地创建局部Voronoi图的办法解决连续近邻查询问题。这种方法只是在给定查询段上所有点的k个近邻范围上限内创建一个局部的k阶Voronoi图,这样会大大降低基于Voronoi图的连续k近邻查询的代价。 相似文献
18.
三种分类算法的实验比较 总被引:1,自引:0,他引:1
对文本自动分类算中的k最近邻算法、向量空间模型算法以及混合分类算法进行了比较分析,在构造分类用知识库的主题抽取方法相同的条件下,使用中国资讯行提供的2000篇网上新闻语料分别对3种分类算法作了实验研究、实验结果表明,针对网上新闻而言,混合分类算法性能指标优于另外2种算法.结合实验语料环境,对3种分类算法的适用范围作了分析. 相似文献
19.
近年来基于协同表示的分类方法在高光谱图像分类领域取得很大的成功.但在重建测试样本时,由于用全部训练样本充当字典,导致一些差别较大的样本参与表示,不仅影响分类的精确度,还浪费分类时间.在实施空-谱联合后,用K近邻对重构字典做出二次选择,并参照最近正则子空间的做法提出基于K近邻字典的协同表示分类器.通过在两个基准HSI数据集上的实验证明,所提分类器既提高了分类精度,还节省了分类时间,特别对小样本类别的分类效果改善更明显. 相似文献
20.
几种常用文本分类算法性能比较与分析 总被引:9,自引:0,他引:9
分析了几种典型的文本分类算法的特点,并基于中文文本数据集和英文文本数据集对算法性能进行了综合评价.实验结果表明:对于英文文本数据,支持向量机具有最优的性能,但时间开销最大,贝叶斯算法速度较快;对于中文文本数据,由于分词的困难,使得算法性能普遍低于同等规模下在英文数据集上的性能.几种算法性能均随训练集规模的增大而有改善. 相似文献