首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
文章提出一种融合互近邻和可信度的K近邻算法,根据互近邻的概念删除噪声数据;利用由近邻诱导待分类样本标签的可信度,避免待分类样本近邻中大类吃小类的概率。该算法不仅可以减小噪声数据对分类的影响,而且一定程度上增强了K近邻分类算法的稳定性。该算法在UCI标准数据集上进行了测试,性能相当或优于其他分类器。  相似文献   

2.
启动子的潜在语义索引差异识别算法   总被引:1,自引:0,他引:1  
启动子是基因前面的一个短序列,定位启动子即能找到基因,因此启动子的识别具有重要意义.潜在语义索引差异模型(DLSI)能够扩大类间的差异,降低噪声的干扰,从而提高识别的精度.本文提出基于DLSI的启动子识别算法,利用潜在语义索引差异模型进行特征词选择,通过将样本变换到潜在语义空间中实现降维,建立了启动子-外显子、启动子-内含子分类器,把两分类器的串联结果作为最终的分类结果.实验验证了算法的有效性.  相似文献   

3.
针对目前垃圾短信的识别算法存在的关键字及频次的规则死板,易于被不法分子探测和规避等问题,提出将局部敏感哈希的K邻近算法应用于垃圾短信分类识别;首先定义特征,然后采用局部敏感哈希算法计算向量距离,通过得到的距离衡量矩阵的相似性,量化矩阵相似程度,对本文中提出的优化模型进行实现和训练;基于短信文本内容,运用词频-逆向文本频率算法生成矩阵,利用局部敏感哈希算法求解最相似样本,记录样本类别,将训练结果导入K邻近算法分类器得到最优近邻,在测试集或验证集上对优化模型垃圾短信分类识别准确率进行评测。结果表明,经过K邻近算法分类器后,优化模型垃圾短信分类识别准确率达到98.7%。  相似文献   

4.
为了提高文本标记和分类的效率,提出了基于概念语义相关性和LDA的文本自动标记算法(Text Mark Label,TML),用以代替人工标记的文本分类标记. 该算法在概念语义相关性计算的基础上,使用LDA(Latent Dirichlet Allocation)提取文本的主题表示,通过计算文本主题从属于各分类目录的期望从而实现文本自动标记. 为验证TML算法的效果,在标准文本分类数据集上使用文本分类器进行有监督文本分类实验. 为对比数据集和分类器对分类效果的影响,在3个数据集(WebKB、Reuters-21578、20-NewsGroup)上分别使用3种不同的分类器(Rocchio、KNN、SVM)进行实验. 实验结果表明:TML算法有效地提高了文本分类效率及文本标记效率.  相似文献   

5.
提出一种基于二阶隐马尔可夫模型(HMM)的新闻分类算法,旨在提取新闻内容中的类别字,构成特征词集合.以该特征词集合作为不同二阶HMM分类器的观察序列,二阶HMM的隐藏状态反映了文档中词语之间的相关性差异,每个状态表示出现在语料库中的词语的相关性水平.实验结果表明,相比k近邻(k NN)、朴素贝叶斯(Naive Bayes)以及支持向量机(SVM)算法,二阶HMM算法的分类表现更显优势.  相似文献   

6.
为获得改进的分类算法BP_Adaboost,利用思维进化算法(MEA)和列文伯格-马夸尔特算法(LM)结合改进的BP神经网络作为弱分类器,由改进的弱分类器集成得到MEA-LM-BP_Adaboost算法.提出了基于MEA-LM-BP_Adaboost算法的首轮融资时总票房分类预测方法,该方法包括变量选取及操作化处理、网络参数优化、MEA改进弱分类器、LM算法改进弱分类器、MEA-LM-BP_Adaboost算法的流程设计、待预测电影验证6个部分.选用2013~2018年的245部国产电影作为样本验证该预测方法和模型,测试集分类准确率可达73.3%.最后在模型准确率、稳定性、K折交叉验证3方面进行模型整体性能比较,结果表明本文提出的模型整体性能最好.  相似文献   

7.
基于概率潜在语义分析的中文文本分类研究   总被引:1,自引:0,他引:1  
概率潜在语义模型使用统计的方法描述"文档—潜在语义—词"之间的概率分布关系,其实质是模拟了潜在的概率语义空间,并将文档和词映射到同一个语义空间.该文将概率潜在语义分析模型用于中文文本分类,一方面较好地处理了自然语言中的同义、多义问题;另一方面通过计算概率潜在语义空间中向量的距离来获得文档间的类别信息从而达到文本分类的目的.实验结果表明,该分类器具有良好的分类性能.  相似文献   

8.
基于RBF的网络结构和贝叶斯思想,通过改变RBF的隐层输出和权值训练算法,使得网络输出为K个描述样本属于K个类中每个类的概率的值,构造出一种不确定分类器,通过比较K个值的大小从而确定样本的分类.试验结果表明这种分类器比RBF和NBC(朴素贝叶斯分类器)的准确率要高.  相似文献   

9.
为了提高分类器的精度,对分类器的结构进行了改进,提出了一种基于贝叶斯和k-近邻组合分类器的模型,该分类方法结合了贝叶斯方法分类速度较快和k-近邻方法分类准确率较高的优点.实验结果表明,该方法在保证分类速度的前提下,有效地提高了分类准确率.  相似文献   

10.
针对传统“视觉词袋模型”在进行场景分类时只利用图像的特征域,忽略其空间域中上下文语义信息的问题,提出一种基于图像上下文语义信息的场景分类方法.在传统“视觉词袋模型”的基础上,引入马尔科夫随机场模型对图像上下文语义信息进行建模,利用潜在的狄利克雷分布学习场景的主题分布,且利用支持向量机构造场景分类器.对16类场景的分类实验证明该方法能够有效提高分类精确度  相似文献   

11.
阐述了注入式攻击及KNN算法的相关概念并探讨了注入式攻击行为检测与文本分类技术的关系.结合KNN算法的优点及注入式攻击行为检测与文本分类的相似性,提出了Web日志中基于KNN算法的注入式攻击检测方法,给出了其计算模型,并进行了检测对此.结果表明,该方法具有良好的检测准确度.  相似文献   

12.
KNN算法是一种思想简单且容易实现的分类算法,但在训练集较大以及特征属性较多时候,其效率低、时间开销大.针对这一问题,论文提出了基于模糊C-means的改进型KNN分类算法,该算法在传统的KNN分类算法基础上引入了模糊C-means理论,通过对样本数据进行聚类处理,用形成的子簇代替该子簇所有的样本集,以减少训练集的数量,从而减少KNN分类过程的工作量、提高分类效率,使KNN算法更好地应用于数据挖掘.通过理论分析和实验结果表明,论文所提算法在面对较大数据时能有效提高算法的效率和精确性,满足处理数据的需求.  相似文献   

13.
为解决算法生成纹理地图时时间耗费量大的问题,提出采用KD-tree算法对数据结构进行划分、减小KNN算法搜索复杂度、提高搜索速度的方法.针对基于纹理基元的分类算法无法准确检测室外某些纹理相似性较高的自然场景,提出加入颜色特征、设置相应权值构建混合模型的方法.实验结果表明,基于KD-tree的KNN算法可缩短分类时间、满足实时性的要求,基于纹理基元与颜色的分类算法在室外自然场景中能够获得较高的分类精确度.  相似文献   

14.
针对文本分类存在的高维文本问题,提出文档频率(DF)-卡方统计量特征提取方式,对特征项进行有效约减,降低文本维度,提高分类精度.在K最近邻(KNN)算法的基础上,针对待分类文本需要和大量训练集样本进行相似度计算的问题,提出一种基于分组中心向量的KNN算法,对类别内的样本集分组求出各组中心向量,使其重新代表训练库计算相似度,降低计算复杂度,提升算法的分类性能.通过实验表明:相较传统KNN算法,改进的算法在准确率、召回率及F值方面都有提升,与其他分类算法相比,具有一定的优势.  相似文献   

15.
经典KNN算法和以往的基于密度的改进KNN算法都缺乏对训练样本数据分布的有效性描述,因此会间接影响到分类结果。提出一种基于测试样本近邻决策域内局部密度的改进KNN算法,通过计算各不同类别在近邻决策域内的局部密度,并同时考虑到类间偏斜度的存在,得到各类密度补偿系数和倾斜度平衡因子,从而达到削弱高数量、大密度类别,增强小数量、低密度类别的目的。在UCI数据集上的实验结果表明,该改进算法在保持经典KNN算法分类准确度的基础上,能够提高分类的召回率和F1-measure指标。  相似文献   

16.
针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分类精度,并将该改进IG特征选择算法用于最大熵模型(ME)对文本进行分类.实验结果表明:该文所提方法在进行文本分类时F1值高于传统IG算法.该文方法的ME分类精度高于K最近邻KNN(K-Nearest Neighbor)算法,说明本文方法是可行的、有效的.  相似文献   

17.
心脏心律失常数据集的心电图(ECG)数据往往存在各心律失常类型下样本数量不平衡问题.针对此问题,提出了一种新的模式识别分类方法,即改进的基于核的差重建的加权k-近邻分类器(modified kernel difference-weighted k-nearest neighbor classifier, MKDF-WKNN),通过引入修正因子对含样本数较多的类别进行权值抑制,对含样本数较少的类别进行权值的加大,并使用UCI心脏心律失常数据集对ECG数据进行分类.实验结果表明,提出的算法和其他一些基于KNN的算法如KNN,DS-WKNN,DF-WKNN和KDF-WKNN相比,对于不平衡的心律失常数据集的分类有更好的效果.  相似文献   

18.
基于改进型BP神经网络的音频多分类   总被引:1,自引:0,他引:1  
音频信号作为多媒体信息的重要载体之一, 为满足人们对信息知识的获取提供了有效途径.为了提高音频分类的精度,提出一种将音频信号的梅尔频率倒谱系数(Mel frequency cepstrum coefficient,MFCC)参数作为特征向量,采用基于改进型传输函数的误差反向传播神经(back propagation, BP)网络模型对6种音频进行分类.实验证明,该方法在音频分类精度方面性能良好,改进的传输函数具有收敛速度快的优点.相对于传统BP算法,该方法不仅缩短了训练时间,而且进一步提高了分类精度,其分类准确率达到90%以上.  相似文献   

19.
提出了一种有效的快速k近邻分类文本分类算法,即PSOKNN算法,该算法利用粒子群优化方法的随机搜索能力在训练文档集中进行有指导的全局随机搜索. 在搜索k近邻的过程中,粒子群跳跃式移动,掠过大量不可能成为k近邻的文档向量,从而可以快速找到测试样本的k个近邻. 以Reuters 21578文档集分类为例验证算法的有效性,结果表明,保持k近邻法分类精度,新算法比KNN算法降低分类时间70%.  相似文献   

20.
分析了分段对文本分类的影响,提出了与文本语义密切相关的最大语义标志原则(MSMR)和段落间的语义激励原则(SIR),在模糊K-最近邻分类算法的基础上,应用这2个原则设计并实现了一种基于上下文的文本片断模糊分类算法.该算法依据SIR判断文本片段分类的相互影响,降低了片段分类的错误率,当某一片断类隶属度大于某一阈值时,依据MSMR判定可知,同一文档的后续片断均属于同一类别,这样就不用计算所有片断的类隶属度.实验表明:与模糊K-最近邻分类算法相比,所提算法能有效提高系统的查准率、查全率和正确率,其中查全率可提高16%以上;在同一会话中,由于被明确分类后的后续片段不需要计算类隶属度,所以算法总计算时间明显少于模糊K-最近邻分类算法,具有较高的分类效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号