首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
随着犯罪数量不断增加,以及新型犯罪模式不断出现,准确预测未来的犯罪活动越来越重要。所以,基于机器学习的犯罪预测方法对于识别未来犯罪以及减少犯罪数量具有重要的意义。根据犯罪类型的不同,使用的犯罪预测方法也呈现多样化。为此,对国际上不同类型的犯罪预测方法进行了总结和分析,并在此基础上对如何提高犯罪预测的精度进行了讨论,希望对使用机器学习进行犯罪预测的相关工作有一定的参考意义。  相似文献   

2.
李熙  黄力 《山西科技》2015,(3):133-135,149
在大数据背景下,执法机构使用数据分析和建模技术来应对和预防犯罪比以往任何时候都重要。在阐述预测模型概念及类别的基础上,探讨了犯罪预测分析模型的应用领域,详细介绍了常见的预测建模技术。  相似文献   

3.
盗窃类案件是公安机关较为棘手的一类犯罪,呈现高发低破态势.提前预测发案情况是预防该类型犯罪的有效途径,因此对预测盗窃犯罪提出了一种以Bagging方法为基础、基于特征选择准确度和差异性双重考量的集成学习算法,根据集成学习器好而不同的原则,构造由异质基学习器集成的特征选择器,实现对影响盗窃犯罪发生因子的有效选择,使用更少维度的特征数据集提升犯罪预测的效率和准确度.实验结果表明,提出的SEFV_Bagging算法具有较好的泛化能力和稳定性,在测试数据上表现出的预测准确度也较为理想,且算法无需根据先验知识设置所选特征子集维数,在盗窃犯罪数据分析预测领域应用中有较为明显优势.   相似文献   

4.
王夙娟 《科技信息》2011,(10):I0103-I0103,I0105
TFIDF是常用的特征提取方法,但是该方法存在着很多不足。首先这个方法忽视了如果某词条仅仅在一个类别的文档集中存在次数多,在其他类别中存在次数少,则能说明该词条可以很好地反映类别特征。再者TFIDF忽视了特征与类别的关系。本文提出了改进的TFIDF策略,并结合简单距离向量分类方法与传统的TFIDF进行分类比较,得到了很好的分类效果,试验证明了其可行性。  相似文献   

5.
本文所提出的基于模糊准则的小波特征选择方法,从本质上来说是提取最优小波包分解中的小波系数作为特征.它利用模糊理论在模式识别中的固有优势,同时结合小波包变换的时域和频域的局部化优点,从高维数据中抽取出数目较少且鉴别能力强的特征,并使用基于最小二乘误差的线性鉴别函数实现分类.  相似文献   

6.
针对机器学习聚类模型在特征选择时存在的问题,首先,对特征选择在聚类模型中的适用性进行分析并对其进行调整和改进.然后,基于R语言中的递归特征消除(RFE)特征选择方法和Boruta特征选择方法进行特征选择算法设计.最后,应用聚类内部有效性指标,对在线品牌忠诚度聚类模型优化结果进行分析,进而对特征选择方法进行比较研究.结果表明:Boruta特征选择方法更具优势.  相似文献   

7.
传统的边缘检测方法具有一定的局限性,且自适应能力差,提出一种基于机器学习的边缘检测方法来解决上述问题.实验图像从伯克利图像数据库中选取,以Harr和梯度直方图(HoG)构成特征空间,将AdaBoost算法和决策树算法相结合进行分类器训练.实验结果表明,机器学习的边缘检测算法有更高的分类准确率.  相似文献   

8.
基于机器学习的文本分类方法综述   总被引:1,自引:0,他引:1  
文本分类是信息检索与数据挖掘领域的核心技术,是机器学习领域新的研究热点。本文对现有的基于机器学习的文本分类方法进行了详细的介绍,分析了各种方法的优缺点,并阐述了文本分类方法未来的发展趋势。  相似文献   

9.
本文提出了一种基于规则匹配和机器学习的论文作者名自动化消歧方法:首先基于人工构建的人名匹配规则确定候选作者,对于存在多个候选人的情况,基于论文的属性信息(例如合作者、标题、摘要、关键词和出版物名称等)提取特征,然后选取合适的机器学习算法进行消歧.实验效果表明K近邻和Softmax分类器较适合于论文作者名消歧任务;此外,将作者信息与论文的其他信息分开提取特征能够有效提高作者名消歧的准确性.  相似文献   

10.
基于免疫克隆选择算法的特征选择   总被引:12,自引:0,他引:12  
提出了一种基于免疫克隆选择算法的特征选择方法.特征选择可以被看成是一个组合优化问题,利用免疫克隆选择算法快速收敛于全局最优的特性,加快搜索到最优特征子集的速度,为后续模式分类提供良好的判别依据.实验结果表明算法在保持甚至提高分类精度的同时,有效地降低了特征维数.与基于遗传算法特征选择的结果相比较,在有限代数内,该算法能收敛到更优的特征子集,从而验证了算法的有效性及其应用潜力.  相似文献   

11.
应用经验模态分解下的AR模型提取旋转机械故障特征   总被引:1,自引:0,他引:1  
将时间序列的AR模型引入到旋转机械故障诊断中,采用了经验模态分解与AR模型相结合的方法提取旋转机械的故障特征。通过选取含有故障信息的固有模态函数进行功率谱分析,提取故障特征,分析故障原因。仿真和试验结果表明,此法能够有效地提取故障特征参数,为旋转机械的故障诊断提供了方法保障。  相似文献   

12.
铝基复合材料具有众多优异的性能, 应用前景较好. 以简单稳定相的高熵合金可以作为增强颗粒来制备铝基复合材料, 其各方面力学性能都显著提升. 提出了一种基于结合了特征工程和机器学习的新方法来研究高熵合金相稳定性. 该方法利用特征工程筛选出影响目标属性的重要因素, 然后选择相应的回归方法预测相稳定性. 使用 50% 的数据集进行训练, 并在其余数据集上进行测试验证. 研究结果表明, 该方法在预测高熵合金的相稳定性方面具有较高的准确性($R^{2}$=0.994), 且能辅助找到影响相稳定性的关键因素.  相似文献   

13.
地震破坏预测研究对于建筑结构减灾规划、震前风险预测、震后应急评估有着重要意义。传统的方法因为受到震害资料数量的限制以及计算精度和能力的制约,一般基于经验只考虑少数因素对结构破坏的影响。通过使用随机森林算法,设计了一个综合考虑地震动、结构和场地等多维度信息的分类方法,用以预测建筑物的地震破坏程度。本文研究框架基于新西兰国家地震委员会所收集的27次地震详细破坏资料,处理得到14.2万条高质量建筑物损失数据,考虑了谱加速度、建筑形状、层数等16个影响因素,将4种不同的损伤状态作为模型的学习标签进行地震破坏预测训练。结果表明,随机森林算法在6种分类算法中性能最佳,经过学习曲线法调参、代价敏感学习之后,经过优化得到的随机森林模型对于测试集的整体预测精确率可以达到75.4%,对4种损伤标签的召回率分别达到了88.2%、55.0%、60.7%和70.8%,远好于其他方法。当只考虑对结果影响最重要的前12个因素,该模型的预测精度仍然能够达到73.7%。可见,基于此框架所训练的预测模型具有良好的精度与适用性,同时该框架对于中国震害资料大数据库的研究具有较高的参考价值。  相似文献   

14.
针对数据分布不均匀且因素多而容易造成预测不精确的问题,提出一种结合由粗到精与特征筛选的精确回归预测方法.首先,由于数据分布不均匀且预测区间大,直接预测难以精确地拟合,提出一种由粗到精的预测方法,并使用决策树进行粗分类,预测目标所在的子区间,然后在子区间内实现精确的回归预测.其次,如果数据量少且特征因素多会引起过拟合,而且部分冗余特征会影响模型的预测精度,因此,提出一种基于特征筛选的回归预测方法以提高预测精度.在大学生的英语成绩与其人格因素数据集上进行相关实验,结果证明了由粗到精和特征筛选方法与传统回归模型相比精度更高且稳定性更好.通过提出的人格因素与英语成绩回归预测模型,可以制定合理的培养方案弥补学生人格因素中的短板,提升学生的自身竞争能力,从而更好地推动中国的英语教育.  相似文献   

15.
多标记学习的嵌入式特征选择   总被引:2,自引:0,他引:2  
维数约减是数据挖掘领域的关键技术.传统的降维方法主要解决单标记学习问题.由于多标记学习问题的复杂性,多标记降维方法很少.直接应用未监督的降维方法到多标记学习中,忽略了类标信息.而通过分解多标记问题为单标记问题,应用现有的有监督降维方法到多标记学习中,忽略了类标间的关系.现有的多标记有监督的降维方法是基于依赖最大化的维数约简(multi-label dimensionalityreduction via depen dence maximization,MDDM),它是一种特征抽取的方法.目前还没有多标记的特征选择方法.因为在多标记学习中如何评估特征,是一个很有挑战性的问题.本文提出一个嵌入式的特征选择方法MEFS(multi-label embedded feature selection),其中采用预报风险准则作为特征的评价准则.在公开评测的yahoo网页分类数据集上进行了两个实验:(1)分析多标记学习的性能指标对特征评估的影响;(2)比较MEFS与MDDM,PCA(主成份分析),LPP(局部保留投影)的降维效果,实验显示MEFS的性能优于新近提出的MDDM等一些流行的多标记降维方法.  相似文献   

16.
基于特征贡献度的特征选择方法在文本分类中应用   总被引:1,自引:0,他引:1  
在目前的文本分类问题中,特征选择方法被认为是提高分类精度和效率的一种有效方法.提出了一种基于特征贡献度FCD(feature contribution degree)的特征选择方法,本方法将某个特征对于类别之间区分能力的贡献度大小作为该特征被选取的条件,特征对于某一类别的FCD值为特征在该类中出现的文档数与在所有类别中出现的文档数的比值.对该方法进行了实验,并与一些常用的特征选择方法进行了比较,实验结果表明该方法具有更好的分类效果.  相似文献   

17.
三种机器学习模型在太湖藻华面积预测中的应用   总被引:1,自引:0,他引:1  
基于2014—2018年太湖气象水文水质数据与卫星遥感数据,分别采用支持向量机(SVM)、长短记忆神经网络(LSTM)、极端梯度提升树(XGBoost)模型模拟全太湖、贡湖、南部沿岸区、中西北湖区的蓝藻水华(简称藻华)面积。结果表明:(a)XGBoost全太湖与分区藻华面积回归模型模拟效果较好,其次是SVM、LSTM回归模型;不同时间尺度下SVM、XGBoost回归模型对全太湖藻华面积模拟结果偏小,但有效模拟了藻华的发展趋势。(b)XGBoost分类模型在全太湖、中西北湖区模拟准确率较高,优于SVM、LSTM分类模型;在贡湖、南部沿岸区,3种分类模型准确率均较高。(c)以当天、提前1 d的气象水文水质因子作为全太湖与分区藻华面积模型输入,XGBoost回归与分类模型模拟精度较高、稳健性较好,预测应用情景较好。  相似文献   

18.
当前基于机器学习的材料属性预测研究中,通常采用数据库获取的所有数据样本,通过计算其高维向量表示来训练预测模型。然而材料数据库样本的高冗余性导致了训练的模型具有很强的偏向性和过拟合的现象。为此,提出一种剔除数据集中冗余性样本的算法,从数据集中选择具有代表性样本;通过使用多种机器学习算法预测材料属性并进行比较,结果表明如果没有实行基准数据集的冗余控制,即使是随机原始数据集也可以由于高冗余样本而得到很好的预测性能指标;研究还发现使用具有代表性样本进行训练实际可以帮助训练出具有更高泛化能力和更具预测性的模型。因此,提出降低冗余度是评估材料性能预测模型的必要步骤。  相似文献   

19.
高价值移动通信用户预测是电信客户关系管理中的一项重要内容。针对建立预测模型时遇到的高维、大规模、类不平衡等数据处理问题,提出了一种基于有效特征选择的预测方法。利用欠采样方式从初始不平衡数据集提取多个平衡训练集,使用结合Pearson相关性分析和随机森林特征重要性评估的特征选择策略,在集成学习方法中嵌入加权和投票机制获得最优的特征子集,最后采用随机森林算法建立预测模型。实验结果表明,该预测模型可以有效降低特征集的维度并提升对高价值移动通信用户的预测性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号