首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
预训练语言模型的发展激发对网络数据的大规模需求,而网络数据往往具有较高的重复性和相似性,需要经过去重才能更好地被用于模型训练.目前的去重算法可以去除相似和相同的文本数据,但存在运算效率较低的问题,难以用于处理大规模文本数据.本研究提出一种面向大规模文本数据的去重算法,采用先局部后整体的去重策略,极大提高了去重的运算效率.实验结果表明,算法在50 h内完成371 GB数据的去重处理,较已有算法极大地提高了去重效率.  相似文献   

2.
网络图像资源增长迅速,如何实现快速有效的大规模图像检索,成为当前研究的热点之一。深度神经网络对图片特征有很强的表达能力,利用典型深度卷积神经网络VGG16在预训练完成的模型上使用网络全连接层的输出提取待检索图像数据集的特征以建立索引,并采用局部敏感哈希算法提升检索速度,以端到端的形式,完成基于内容的图片检索任务。这种图像检索模型提供了一种在计算资源有限情况下实现大规模图像检索的有效方法。  相似文献   

3.
在大规模文档中进行快速的相似搜索对绝大多数信息检索应用程序是至关重要的.基于局部敏感哈希的检索方法将高维的空间数据映射到低维的二进制海明空间,从而实现了快速搜索.本文给出了一个基于核化局部敏感哈希的快速文档检索方法,可以在保证时间效率下允许算法使用不同的相似函数进行快速检索.实验结果表明该方法在大规模文档集合检索中具有较好的效率和准确率.  相似文献   

4.
针对目前垃圾短信的识别算法存在的关键字及频次的规则死板,易于被不法分子探测和规避等问题,提出将局部敏感哈希的K邻近算法应用于垃圾短信分类识别;首先定义特征,然后采用局部敏感哈希算法计算向量距离,通过得到的距离衡量矩阵的相似性,量化矩阵相似程度,对本文中提出的优化模型进行实现和训练;基于短信文本内容,运用词频-逆向文本频率算法生成矩阵,利用局部敏感哈希算法求解最相似样本,记录样本类别,将训练结果导入K邻近算法分类器得到最优近邻,在测试集或验证集上对优化模型垃圾短信分类识别准确率进行评测。结果表明,经过K邻近算法分类器后,优化模型垃圾短信分类识别准确率达到98.7%。  相似文献   

5.
基于随机森林的基金重仓股预测   总被引:1,自引:0,他引:1       下载免费PDF全文
首先通过对基金重仓股的财务指标和市场指标的分析,建立一套科学合理的基金重仓股指标体系;其次利用随机森林建立基金重仓股的预测模型;最后通过实验验证了方法的有效性和优越性.本研究将为投资者提供一个投资决策的优良工具.  相似文献   

6.
陆晨昕 《科技促进发展》2022,18(8):1030-1038
精确预测设备的剩余使用寿命能帮助厂商衡量所生产设备的质量,也有利于使用者及时更换或修理设备。截至2021年,基于相似性预测剩余寿命的研究大多使用欧式距离进行相似性的判定,容易出现维度灾难。本研究结合长短期记忆网络和自编码器提取设备的时序特征,之后使用监督局部模型进行剩余使用寿命预测,以随机森林为基础进行相似性的判定。最后,本研究使用C-MAPSS数据集验证了所提出方法的有效性,所提出方法在预测精度上要优于其余几个对比方法,并进行相关的讨论。  相似文献   

7.
针对传统预测模型易陷入过拟合、缺失数据敏感、计算量大等不足,利用随机森林算法的双重随机性、处理数据集优异等特点,对A股股票涨跌预测进行研究。首先运用相关性分析对初始指标体系进行一次Spearman和二次Pearson筛选,去除指标体系中的冗余指标。然后对随机森林的各项重要参数进行优化,并对优化后的模型采用重要性估计方法以提升训练模型精确度。通过不同指标体系的对比,验证实验过程的正确性。最后,对比不同建模方法的实证预测结果,表明随机森林模型比传统机器学习方法二元logistic回归在性能上更优越,具备较高的预测准确度。  相似文献   

8.
随机森林在分类不平衡数据时,容易偏向多数类而忽略少数类,可以将代价敏感用于分类器的训练,但在传统代价敏感随机森林算法中,代价函数没有考虑样本集实际分布与特征权重,且在随机森林投票阶段,没有考虑基分类器的性能差异。本文提出一种改进的代价敏感随机森林算法ICSRF,该算法首先根据不平衡数据集的实际分布构造代价函数,并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。实验结果表明,ICSRF算法能有效提高少数类的分类性能,可以较好的处理不平衡数据。  相似文献   

9.
针对现有音频零水印算法缺乏安全分析性研究、构造过程复杂化、唯一性差、未考虑音频帧信息含量分布不均等问题,提出了一种命名为分析重构攻击的特殊攻击模型,并基于该攻击模型结合音频信号小波特征与局部敏感哈希,设计了一种抗分析重构攻击的音频零水印方案。该方案分为零水印构造与零水印检测这2大模块:在零水印构造模块,首先提出并设计了去静音帧模型,利用该模型对音频信号进行预处理,从根源上降低水印构造过程中的复杂度,再结合链表、局部敏感哈希以及小波变换构造零水印,最后将水印信息与水印图像结合;在零水印检测模块,通过对水印信息的相似度计算与水印图像的相似度比对共同判断版权归属。为了验证方案有效性及可行性,从方案自身验证与对比分析这2方面对方案进行验证分析,理论分析与实验结果表明:该方案所构造的音频零水印最小分析重构复杂度为特征矩阵的平方阶,具有较好的不可感知性、抗噪声攻击性、抗MP3压缩攻击性及抗多比例剪裁攻击性等优势。  相似文献   

10.
为有效防治大气污染,依据大气污染的各项指标值来预测城市空气质量级别并给出起主导作用的因素,提出基于随机森林的空气质量等级分类预测方法;随机森林模型直接给出影响空气质量指标的重要性评分以便于找出最重要的影响因素,比较不同的数据挖掘方法,结果显示:随机森林分类预测的准确率最高,因此该模型可广泛应用于空气质量预测中;测试集结果显示随机森林方法不易受噪声影响且泛化误差较低,重要性评分给出细颗粒物和可吸入颗粒影响为最重要的两个因素,并以保定市为例有针对性地给出提高空气质量的建议。  相似文献   

11.
针对锂离子电池的容量恢复现象导致的剩余寿命预测精度不高的问题,提出了一种锂离子电池的多状态模型剩余寿命预测方法.首先通过分析锂电池的衰退数据将锂离子电池的退化过程分为正常退化、容量恢复和加速退化三种状态,然后分别对三种状态的退化过程进行建模并验证了模型的有效性,将3种状态的模型组合得到锂离子电池多状态容量衰退模型.然后...  相似文献   

12.
基于随机森林的文本分类模型研究   总被引:3,自引:0,他引:3  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造.当森林中的决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明,分类效果比较好,性能比较稳定,将共同C4.5,KNN,SM0,SVM4种典型的文本分类器进行了比较,结果显示它的分类性能胜于CA.5,同KNN,SMO和SVM方法相当.  相似文献   

13.
缺陷定位是软件调试过程中的重要阶段,通过挖掘程序执行过程中的动态信息与执行结果之间的关系,可以有效定位缺陷位置。由此提出了一种基于随机森林算法的函数缺陷定位方法(Function Defect Location based on Random Forest,简称FDLRF)。其具体思想是:首先动态执行测试用例获取函数的动态调用图并生成DOT文件,解析该文件获取各个函数的轨迹信息,建立特征矩阵,同时利用合成少数类过采样技术(Synthetic Minority Over-sampling Technique,简称SMOTE)得到均衡样本,运用随机森林算法对数据进行训练,从而获得每个属性的贡献度信息,即函数缺陷概率。实验结果表明,该方法较传统算法在定位准确率有了一定程度的提升。  相似文献   

14.
软体机械臂具有灵活性和柔顺性的特点,可在实现对位姿跟踪的同时确保与环境交互的安全性,近年成为研究的热点。但由于软体机械臂材料变形是非线性的,其运动学建模的参数众多且难以获得准确值,使软体机械臂实现运动学控制较为困难。为了补偿软体机械臂的不确定性,在现在视觉伺服的基础上,提出一种基于历史数据驱动的手眼视觉伺服新方法。该方法结合基于随机森林算法的控制器来完成机械臂控制任务,通过对历史数据聚类,基于随机森林回归模型建立软体机械臂驱动状态和末端图像特征的逆映射,无须求解机械臂和摄像机的任何参数,即可快速获取系统输入变量。实验结果表明,所提出的方法可以较好地实现预期控制目标。  相似文献   

15.
基于非平衡数据的随机森林分类算法改进   总被引:1,自引:0,他引:1  
随机森林算法作为一种组合分类器有较好的分类性能,适合多样的分类环境。算法同样也存在一些缺陷,例如算法处理非平衡数据时不能很好地区分正类和负类。针对这一问题,通过对抽样结果增加约束条件来改进Bootstrap重抽样方法,减少抽样对非平衡性的影响,同时尽量保证算法的随机性。之后利用生成数据的非平衡系数给每棵决策树进行加权处理,提升对非平衡数据敏感的决策树在投票环节的话语权,从而提升整体算法对非平衡数据的分类性能。通过上述两种改进可以明显提高随机森林在决策树数量不足情况下的分类精度。  相似文献   

16.
随机森林分类用于雷达信号预分选新算法研究   总被引:1,自引:0,他引:1  
 现代战争中,雷达电子战环境越来越复杂,随着雷达种类的多样化和雷达脉间调制方式的复杂化,对信号分选的识别难度也愈加增大。本研究采用随机森林算法对脉冲描述字特征进行预分选,可自适应的对特征进行选择,并实现分类。随机森林由于可以自动进行特征选择,可对不平衡的数据进行误差平衡等优点,通过多决策树表决方式,可以迅速完成对大量数据快速训练。在脉冲丢失导致的部分特征损失的情况下,仍可以维持识别准确率。通过实验证明了本方法对雷达脉冲描述字特征进行预分选的有效性。  相似文献   

17.
准噶尔盆地石炭系火山岩岩性复杂,在某种岩性薄片、岩心等资料数量明显少于其他岩性时,常规方法划分岩性存在困难。为了解决上述问题,提高火山岩岩性识别精度,运用合成少数类过采样技术(synthetic minority oversampling technique, SMOTE)算法增加少数岩性类别样本数量,解决数据不均衡问题;通过网格搜索和K折交叉验证法确定最优参数组合,开展基于改进随机森林的火山岩岩性识别研究。通过分析火山岩岩心、薄片、测井响应特征等资料,建立了岩性交会图版,确定了研究区对岩性敏感的测井参数重要性程度。实例资料应用表明,改进的随机森林算法有效地解决了传统随机森林算法受岩性样本类型不均衡及数据量较小的影响,火山岩岩性识别准确率由87%提升到了94%,为不均衡样本情况下火山岩岩性识别提供借鉴。  相似文献   

18.
基于随机森林的人脸关键点精确定位方法   总被引:2,自引:0,他引:2  
为了解决干扰情况(光照变化、表情变化和姿态变化等)下的人脸关键点精确定位问题,提出一种新的基于随机森林分类器的人脸关键点定位算法。针对目前研究工作尚未解决的人脸表情、光照以及姿态变化等难点,该文有两点主要贡献:1)引入了随机森林分类器和点对比较特征进行关键点定位,这种基于大量样本统计学习的方法能够有效解决人脸关键点定位中光照、表情和姿态变化这些难点;2)结合关键点的位置约束关系,进一步降低定位误差。实验结果表明:该算法可以有效地克服人脸光照、表情和姿态变化等因素干扰,能够对眼角和嘴角6个关键点进行全自动精确定位。  相似文献   

19.
为了及时对城市道路拥堵情况进行预测,缓解通行压力、降低能源损耗,通过一种结合Spark与阴阳对优化随机森林的模型预测城市道路交通拥堵情况,利用阴阳对优化算法对随机森林进行参数调优,选取决策树个数和分裂属性个数最优解,以此建立阴阳对优化随机森林(Yin-Yang-pair optimization random forest, YYPORF)城市道路拥堵情况预测模型,并通过Spark实现了YYPORF模型的并行化设计方案。结果表明,基于Spark的YYPORF准确率达到95.58%,较传统随机森林提高了3.17%;加速比达到2.83。可见,所提出的模型预测性能更优,可为大数据背景下城市智能交通管理提供可靠依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号