首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
比特币作为第一个去中心化的加密货币,由于具有匿名性这一特点,被大量用在各种交易服务中,如博彩、跨境支付等,同时也被恶意交易所利用。目前比特币用户地址分类主要通过启发式聚类方法实现,受到比特币协议的变化影响,该方法对出现的新输出地址、单输入地址以及参与混币交易的地址无法分类,因此仅适用于现有比特币地址中很小一部分。针对该问题,本文提出一种基于改进随机森林的比特币地址分类方法,对区块链原始区块数据进行解析,直接提取用于机器学习的地址特征,进而学习一个随机森林分类器,能对任何一个没有标签的比特币地址进行分类,同时为了降低特征集中的冗余,对传统的随机森林进行改进以获取最终有助于地址分类的重要特征。实验结果表明,该方法可以准确地对比特币用户地址进行分类,仅仅需要14个重要特征。  相似文献   

2.
3.
应用特征聚合进行中文文本分类的改进KNN算法   总被引:14,自引:0,他引:14  
针对以KNN为代表的VSM模型存在的向量各特征项孤立处理问题 ,提出了一种应用特征聚合方式的改进算法·该算法通过CHI概率统计计算文本特征词对分类的贡献 ,将对分类有相同贡献的文本特征词聚合 ,使用它们共同的分类贡献模式代替传统算法中单个词对应向量一维的方式·该算法提高了稀有词对分类的贡献、强化了关联词的分类效果、并降低了文本向量的维数·与传统KNN算法进行的对比实验证明 ,该算法明显提高了分类的准确率和召回率  相似文献   

4.
针对KNN的K值难以确定的问题,提出一种基于并行遗传算法的KNN分类方法.该方法采用粗粒度模型的并行遗传算法进行设计,通过种群内的遗传、变异和种群间的并行进化、联姻得到优化的K值和分类结果.实验结果表明,该方法有效的提高了KNN算法的分类效果,是一种精确高效的分类方法.  相似文献   

5.
李秀娟 《科技信息》2009,(31):81-81,383
KNN算法是应用最广泛的分类技术之一。文章简要介绍了KNN算法的基本原理,重点论述了研究人员针对KNN算法的不足所做的各种改进。主要从距离计算的改进、降低计算复杂度、K值的选择、与其它方法集成几个方面进行分析研究。  相似文献   

6.
在文本分类中,数据规模过大或文本分布不均匀对传统KNN算法的准确率和效率具有重要影响。为了解决该问题,文章提出一种基于粗糙KNN(k-nearest neighbor)算法的文本分类新方法。首先引入粗糙集中的上下近似概念定义各类文本的上下近似空间,将文本向量空间分为核心和混合2大区域;然后改进传统KNN算法的隶属度函数;再针对不同的文本区域,采取差异化的分类策略以提高分类的效率和准确率。实验表明,基于粗糙KNN算法的文本分类方法在提高分类准确率的同时,分类的效率也有很大提高。  相似文献   

7.
随着电力系统信息化建设的深入,用户对于电能量数据的质量要求逐渐提高,因此保证海量电能量数据的准确性、可靠性以及完整性具有重要意义.本文采用一种基于孤立森林的异常检测算法,实现大规模电能量数据的异常检测.孤立森林算法通过划分大规模电能量数据集,生成随机二叉树和孤立森林构建模型,通过计算测试电能量数据样本到每棵树的根结点的距离检测异常数据点.该算法不仅能够快速处理海量数据,而且结果准确、可靠性高.本文在大规模电能量数据的正向有功总电量PAP和反向有功总电量RAP字段上进行检测,实验结果表明,该算法检测效率较高,并具有较高的检测正确率.  相似文献   

8.
为有效对视频数据进行降维并去除特征集合中的冗余信息, 以提高异常事件的检测效率, 从特征提取和选择的角度提出了融合特征区分度和相关性的视频异常事件检测方法。利用视频数据的时空邻域信息进行特征提取。通过分析特征的判别力和相关性进行特征选择, 从而去除特征集合中的冗余信息, 提高异常事件检测的效率和准确性。实验结果表明, 该方法的检测准确率都优于其他传统方法, 能有效地对场景中发生异常事件的区域进行准确定位。  相似文献   

9.
10.
利用基于阈值聚类算法首先对带类标记的样本数据集进行有指导性聚类,其主要目的是压缩训练数据集,解决KNN分类算法的样本选择问题以及孤立点的发现,用少量的更具代表性的聚类中心替代KNN算法中巨大的样本集,然后利用聚类密度改进KNN分类算法,从而提高KNN分类检测的准确度和速度.  相似文献   

11.
孤立点检测问题是数据挖掘领域中的一个重要研究内容.首先对目前有代表性的孤立点检测算法进行综述,详细阐述了其实现的基本原理、实现的步骤和应用范围,进而对这些典型算法的优缺点进行了分析与比较,随后介绍了几种孤立点的典型应用,最后对孤立点检测算法的发展趋势从4个方面进行了展望.  相似文献   

12.
从分类算法和特征基因选择两个方面研究基因表达数据的分类,将传统的Support Vector Machines(SVM)算法和K-nearest neighbor(KNN)算法两者结合成为一种应用于基因表达数据分类的算法,并针对基因表达数据分类数据集“样本少,维数高”的特点,提出了一种改进的基于相关性的递归特征消除算法(简称为C-RFE),消除了数据冗余.实验结果表明,新方法可有效提高分类准确率和特征选取的效率.  相似文献   

13.
基于改进距离的孤立点检测方法   总被引:1,自引:0,他引:1  
局部切空间排列(LTSA)算法是一种有效的流形学习方法,但该算法对孤立点的存在非常敏感.为了增强LTSA算法对孤立点的鲁棒性,文中提出了一种基于改进距离的孤立点检测方法.该方法通过改进距离来度量样本点之间的距离,降低了样本点分布不均匀对孤立点检测算法的影响.实验结果表明,该数据预处理方法能有效地提高LTSA算法的鲁棒性,更好地挖掘数据集的本征特性,具有更好的数据可视化效果.  相似文献   

14.
针对当前入侵检测系统(intrusion detection system,IDS)中存在的检测准确率低、建模时间长及收敛速度慢等问题,提出一种基于改进鸽群优化算法的入侵检测系统特征选择方法.该方法采用鸽群优化算法对数据中的不相关特征进行优化,通过考虑真阳性率(true positive rate,TPR)、假阳性率(...  相似文献   

15.
文本分类中特征选择方法的比较和改进   总被引:1,自引:1,他引:1  
考察了文档频率DF、互信息MI、CHI统计、CC统计四种不同的特征选择方法,并结合K近邻算法进行分类精度上的比较.为消除MI对低频词的倚重,提出一种DF与MI结合的特征评价函数,并验证了这种组合特征选择方法的有效性.  相似文献   

16.
高光谱数据具有光谱范围广,光谱分辨率高等优势,可以用于不同地物的分类识别,为近年来遥感领域的研究热点。采用随机森林算法对机载高光谱数据进行了地物分类识别研究,首先选取不同种类的地物样本,并对每类样本打上类别标签,每个像素包含的波段数即为样本的特征数,送入随机森林分类器进行训练;然后将训练好的分类器对待分类的高光谱影像数据进行分类,待分类的数据初始化为统一的类别标签;并根据袋外数据自变量的扰动对分类精度的影响,计算不同波段特征对分类效果的重要性系数。实验采用C++语言结合Intel Open CV计算机视觉库,编写了高光谱影像分类识别程序,对机载AISA高光谱传感器获取的甘肃省张掖市农村与城市影像数据进行分类,结果表明本文算法具有较高分类精度和可靠性。  相似文献   

17.
KNN文本分类算法中的特征选取方法研究   总被引:1,自引:0,他引:1  
曹勇  吴顺祥 《科技信息》2006,(12):26-28
对基于中文的文本分类过程进行了介绍,重点介绍了文本分类中几种特征选取的方法,详细介绍了KNN分类算法,最后介绍了文本分类的评估方法并通过实验测试对比了几种特征选择的方法在基于KNN技术的文本分类中的使用效果.  相似文献   

18.
根据科技文献的结构特点搭建了一个四层挖掘模式,并结合K-medoids算法提出了一个特征选择方法.该选择方法首先依据科技文献的结构将其分为4个层次,然后通过K-medoids算法聚类对前3层逐层实现特征词提取,紧接着再使用Aprori算法找出4层的最大频繁项集,并作为4层的特征词集合.同时,由于K-medoids算法的精度受初始中心点影响较大,为了改善该算法在特征选择中的效果,论文又对K-medoids算法的初始中心点选择进行优化.实验结果表明,结合优化K-medoids的四层挖掘模式在科技文献分类方面有较高的准确率.  相似文献   

19.
传统的KNN算法的时间复杂度与样本规模成正比,大规模或高维数据会降低其分类效率。为此,提出一种改进的KNN快速分类算法。该算法以固定半径长度构造超球为原则,为训练样本集构造多个包围超球。根据各个超球内包含的训练样本集的重心位置与测试样本的位置关系可以快速搜索测试样本的k个最近邻超球,然后以k个最近邻超球内的训练样本集构造新的训练样本集。在新的训练样本集中求测试样本的k个最近邻,从而获得该测试样本的类别。实验表明,改进的KNN快速分类算法的分类准确率得到一定程度的提高、运行效率明显提升。  相似文献   

20.
一种改进的离群点检测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
现有的离群点检测算法运用于规模较大的数据集时,其时间效率和检测效果通常不够理想.通过对离群点分布特征的分析,在计算每个数据点到其kth最近邻对象距离的同时,结合其k最近邻的分布情况,给出一种改进的离群点度量方法.基于上述思想构造的离群点检测算法DokOF能够处理混合属性数据.实验表明,该算法具有良好的适用性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号