首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于敏感特征的网络钓鱼网站检测方法   总被引:1,自引:0,他引:1  
网络钓鱼(phishing)是一种在线欺诈行为,普遍存在于电子商务和电子金融中.将黑白名单方法和异常特征检测方法相结合,针对网络钓鱼网站URL异常和页面身份异常特点提出基于敏感特征的网络钓鱼网站检测方法——PhishDetector.使用黑白名单技术对URL进行拦截,对于名单中不存在的URL,提取其敏感特征,然后使用线性分类器判断该网站是否为网络钓鱼网站.实验结果表明,基于敏感特征的网络钓鱼网站检测方法,提高了网络钓鱼网站检测的正确率,显著降低了误判率.  相似文献   

2.
网络钓鱼(phishing)是一种在线欺诈行为,普遍存在于电子商务和电子金融中。将黑白名单方法和异常特征检测方法相结合,针对网络钓鱼网站URL异常和页面身份异常特点提出基于敏感特征的网络钓鱼网站检测方法——PhishDetector。使用黑白名单技术对URL进行拦截,对于名单中不存在的URL,提取其敏感特征,然后使用线性分类器判断该网站是否为网络钓鱼网站。实验结果表明,基于敏感特征的网络钓鱼网站检测方法,提高了网络钓鱼网站检测的正确率,显著降低了误判率。  相似文献   

3.
针对网络个人信用有效评分缺失的问题,分析了互联网信贷个人信用评估数据的特点,选用支持向量机、随机森林和XGBoost分别建立了信用预测模型,并对3种单一模型进行了投票加权融合. 基于互联网信贷数据的特点,在特征工程中对样本集特征进行了离散化、归一化和特征组合等处理. 为增加对比,对实验数据集进行了FICO评估核心Logistic回归分析. 实验结果表明:3种单一算法性能均优于Logistic回归,XGBoost表现优于支持向量机和随机森林模型,预测相对准确;投票融合模型的表现比单一模型更好,模型分辨能力更优秀,预测精度更高,更适用于互联网信贷个人信用评估.  相似文献   

4.
基于文本特征分析的钓鱼邮件检测   总被引:1,自引:0,他引:1  
提出了一种基于邮件文本特征的钓鱼邮件检测方法。首先利用邮件解析器将邮件中非文本部分内容剔除,然后提取邮件剩余部分中存在的网站链接及其他内容,并在此基础上提取10种特征。针对这些特征,利用机器学习方法对其进行训练和预测,将邮件分类为普通邮件和钓鱼邮件。我们改进了以往一些针对网站链接分析的检测方法,并结合钓鱼邮件发展的新趋势,提出了6种新的特征。实验证明,本方法结合了新的钓鱼邮件特征,有效地提高了钓鱼邮件检测的召回率以及精准率,同时误判率有所降低。并且,本方法稍加改进以后就能用于钓鱼网站的检测。  相似文献   

5.
支持页面特征伪造识别的钓鱼网页检测方法   总被引:1,自引:0,他引:1  
钓鱼网站是指伪装成合法网站,窃取用户提交的账号、密码等私密信息的网站。基于页面特征识别的钓鱼网站检测方法具有较好的识别准确性,但现有方法对页面特征伪造的情况识别较弱,容易漏判。首先分析了大量钓鱼网站的页面代码,总结了常见的9种页面特征伪造方式,并针对性地提出了支持页面特征伪造识别的钓鱼网站检测方法。该方法对页面渲染后再做特征提取识别,在页面渲染过程中检查URL地址跳转的伪装,通过直接操纵DOM提取iframe内嵌页面的内容,去除页面所有隐藏元素以防止钓鱼攻击者伪造页面关键词。测试结果表明该方法能够去除多种伪装,完成页面特征的准确提取,提高检测的准确率。  相似文献   

6.
针对金融服务领域面临的严峻信息安全挑战,以及现有钓鱼网页检测方法的不足,提出一种基于支持向量机(support vector machine,SVM)的金融类钓鱼网页检测方法.采用网页渲染去除常见的页面特征伪装,提取统一资源定位符(uniform resource locator,URL)信息特征、页面文本特征、页面表单特征以及页面logo图像特征,构建特征向量训练SVM分类器模型,实现对金融类钓鱼网页的识别.在特征提取过程中,利用适合中文的多模式匹配算法AC_SC(AC suitable for chinese)提高文本匹配效率,并采用加速鲁棒特征(speeded-up robust feature,SURF)算法实现logo图像的特征提取与匹配.多方法实验结果对比表明,该方法针对性更强,能达到99.1%的检测准确率、低于0.86%的误报率.  相似文献   

7.
针对目前大多数钓鱼网站检测技术准确率低、计算资源消耗大和检测不及时等问题,本文提出一种基于改进Stacking策略的钓鱼网站检测方法。该方法将多个分类表现优异的基学习器通过Stacking策略集成为一个高性能模型,并且把该Stacking算法第一级的输入特征与预测结果同时作为第二级的输入特征,充分发挥各模型精度高、速度快等优势,从而进一步提高模型性能。实验结果表明,与传统的机器学习钓鱼网站检测技术相比,在10万级数据集上,此集成学习算法在多个指标上都表现出更好的性能,精确率达到了97.82%,F1值达到97.54%,可以有效地检测钓鱼网站。  相似文献   

8.
随着对钓鱼网站分析刻画的不断完善,使得钓鱼网站检测特征呈现高维化特点。属性维度的增加以及数据量的增长,会造成检测计算复杂度呈几何倍数扩大,导致检测时间复杂度高、占用资源大和检测效率低。针对多属性的钓鱼网站检测,设计了一种基于属性降维的钓鱼网站检测方法。该方法使用信息增益方法对原始数据进行特征选择,筛除可能存在的冗余和噪声数据信息;根据不同属性间的互信息计算属性相关性矩阵,利用属性相关性矩阵作为权值参与加权主成分分析;根据得到的降维后新特征数据通过监督学习算法构建钓鱼网站检测模型。实验表明,该方法可以有效降低原始数据中冗余和噪声属性的干扰,能够有效检测出复杂网络环境中的钓鱼网站,同时具有较高的稳定性。  相似文献   

9.
融合卷积神经网络(convolutional neural network,CNN)和双向长短期记忆网络(Bi-directional long short-term memory,BiLSTM)的情感分析模型(CNN_BiLSTM)是一个流行的模型,其学习文本的局部特征和全局特征实现情感分类,但是忽略了特征对分类结果的重要程度,且没充分利用词语间的特征,导致分类准确率不高.提出一种集成基于多卷积核的卷积神经网络和注意力双向长短期记忆网络特征的文本情感分类方法(MCNN_Att-BiLSTM),其集成局部和全局的重要特征作为文本语义特征,该特征进而用于训练文本情感分类器XGBoost(eXtreme gradient Boosting).该方法基于注意力机制的BiLSTM提取对分类影响大的全局关键特征,基于多卷积核的CNN获得更全面的词语间特征,为集成分类器准备了有效分类的特征.实验结果表明,该模型具有更好的情感分类准确率,与CNN_BiLSTM模型相比,在IMDB数据集上准确率提升了1.75%,在txt-sentoken数据集上准确率提升了1.67%,在谭松波-酒店评论数据集上准确率提升了3.81%.  相似文献   

10.
随着恶意网页数量的逐年递增,传统恶意网页检测技术表现出了较大的局限性.因而基于机器学习的检测技术被引入,该技术的关键是有效网页特征的选取.在分析提取传统网页特征URL、HTML和JavaScript代码特征的基础上,融合网页文本内容特征(Text特征),基于机器学习提出一种多特征融合的恶意网页检测方法.通过互信息法、F-检验法、递归特征消除法3种特征选择算法验证得到所提Text特征更具强相关性.其中,RF算法在URL、HTML、JavaScript与Text特征的混合特征集上对恶意网页检测的效果最好,该方法与前人工作相比具有更高的准确性与可靠性.  相似文献   

11.
为提高XGBoost算法预测精度,采用布谷鸟搜索算法全局优化XGBoost的超参数包括学习率、输出结点分裂的最小损失、树模型的最大深度和弱学习器的数量,构建CS-XGBoost模型训练数据集。实验结果表明,基于CS-XGBoost的收入分类模型的准确率、精确率、F1分数和AUC等指标分别为95.67%、97.17%、95.56%和97.96%,均优于Logistic回归、支持向量机、随机森林、XGBoost算法和基于网格搜索的XGBoost算法;基于CS-XGBoost的房价预测模型的决定系数、均方根误差及平均绝对误差分别为0.905 5、2.943 5及2.165 4,预测精度较XGBoost算法得到显著提升。  相似文献   

12.
基于SVM-RFE的钓鱼网页检测方法研究   总被引:1,自引:0,他引:1  
针对现有钓鱼网页检测方法存在的不足,基于后向选择算法,在信息获取、特征提取、分类器训练及检测疑似网络钓鱼网页等过程进行了优化.根据特征之间的相互关系划分等级空间,借助支持向量机回归特征消除的思想,提出了基于支持向量机的回归特征消除(SVM-RFE)对钓鱼网页进行检测的思路,设计出一种改进的钓鱼网页检测方法.最后对比不同特征维度在漏报率、误报率、识别率方面的差异,分析检测的有效性.实验结果表明:实际应用中可通过该方法准确有效地选定最优特征.  相似文献   

13.
随着市场经济的迅猛发展,各国的债券市场也相继成长,并趋向于多元化发展.然而,在这一发展过程中,中国的债券违约事件屡见不鲜且愈演愈烈,极大地阻碍了市场活力.以发行企业债券、公司债券、短期融资债券以及中期债券的公司为研究主体,提出LR RF XGBoost债券违约预警模型,该模型基于软投票法将逻辑回归(Logistic Regression)、随机森林(Random Forest)、极端梯度提升算法(Extreme Gradient Boosting)相融合,对样本的财务指标及非财务指标数据进行研究.研究结果发现:LR RF XGBoost融合模型相比于其他单一预警模型泛化能力更强,准确率高达95.3%.该方法有利于为投资者以及债券市场监督部门提供可靠的预测信息,帮助企业及早识别风险,为债券市场的健康发展提供保障.  相似文献   

14.
针对基于序列建模的车辆异常轨迹检测方法轨迹空间特征提取不够充分而降低了检测效果这一问题,提出融合时序和空间特征的车辆异常轨迹检测方法,充分提取轨迹的时间与空间特征以提升异常轨迹检测精度。采用融合自注意力机制的堆叠序列自编码器,从网格化后的映射轨迹中提取轨迹时序特征;引入全连接神经网络,提取轨迹偏转量和行驶距离等空间特征;融合轨迹的时间和空间特征,进行异常轨迹检测以提升检测效果。实验表明,提出的方法在真实出租车数据集上的异常轨迹检测准确率优于92%,F1评分优于80%,与XGBoost、IBAT、ATDC和ATD-RNN方法相比,检测性能提升较为明显。  相似文献   

15.
为破除XGBoost模型的黑盒特性,增强模型的说服性,提出一种基于SHAP的可解释性航班到港延误时长预测模型。首先,对航班历史数据、天气数据进行融合,在融合数据的基础上进行异常值处理,并利用递归特征消除方法进行特征选择;其次,构建航班延误时长预测模型,利用遗传算法进行参数调优,并与目前常用的模型进行对比;最后,在航班延误时长预测的基础上结合SHAP模型,从总体特征和特征间的相互关系2个角度分析特征的重要程度。实验结果表明,经过遗传算法调优的XGBoost模型预测精度更高,其中MAE降低了8.94%,RMSE降低了19.85%,MAPE降低了6.15%,且其模型精度更高。因此,SHAP模型破除了XGBoost模型的黑盒特性,增强了模型的可解释性,可为降低航班延误时长提供技术支持。  相似文献   

16.
由于预训练模型输入分词数量限制,基于BERT的长文本分类任务效果与长文本分割后的文本段集合的处理及特征融合密切相关,现有的长文本分类研究在融合文本段特征时更关注文本段之间原始的顺序关系,而本文提出了一种基于BERT和集合神经网络的长文本分类模型.该方法以BERT为基础,可处理从同一文本样本分割得到的任意数量文本段,经过BERT后得到文本段特征,再将所有文本段特征输入到具有置换不变性的集合神经网络层中,提取出集合级别特征来优化长文本的特征表达.通过在三个数据上的实验分析,论文在平均分词长度较长的数据集上取得了90.82%的准确率,高出目前最优方法4.37%.  相似文献   

17.
现有的基于深度学习和神经网络的日志异常检测方法通常存在语义信息提取不完整、依赖日志序列构建和依赖日志解析器等问题.基于注意力机制多特征融合和文本情感分析技术,提出了一种日志异常检测方法 .该方法首先采用词嵌入方法将日志文本向量化以获取日志消息的词向量表示,接着将词向量输入到由双向门控循环单元网络和卷积神经网络组成的特征提取层中分别提取日志消息的上下文依赖特征和局部依赖特征,使用注意力机制分别加强两种特征中的关键信息,增强模型识别关键信息的能力.使用基于注意力机制的特征融合层为两种特征赋予不同权重并加权求和后输入由全连接层构成的输出层中,实现日志消息的情感极性分类,达到日志异常检测的目的 .在BGL公开数据集上的实验结果表明,该模型的分类准确率和F1值分别达到了96.36%和98.06%,与同类日志异常检测模型相比有不同程度的提升,从而证明了日志中的语义情感信息有助于异常检测效果的提升,并且经过实验证明了使用注意力机制的模型可以进一步提高文本情感分类效果,进而提升日志异常检测的准确率.  相似文献   

18.
网络钓鱼邮件分析系统的设计与实现   总被引:1,自引:0,他引:1  
随着网络技术的发展,网络犯罪应运而生。网络钓鱼活动日益加剧,网络钓鱼攻击成为Internet上最主要的网络诈骗方式,对网络安全和电子商务的正常运行构成了极大的威胁。通过给用户发送电子邮件,把用户引到精心设计好的钓鱼网站上,实施诈骗活动,是钓鱼者常用的手段。对网络钓鱼邮件的特点进行分析,基于这些特点设计出网络钓鱼邮件分析系统,该系统通过提取邮件的内容,对其进行分析,提取出可疑的URL,从而过滤出具有网络钓鱼特征的邮件,有效屏蔽了网络钓鱼网站。  相似文献   

19.
由兔颅内压血流速度的实验数据,采用回归和微分方程法分别建立了颅内压和血流速度(PICP-V)关系的回归模型和Logistic模型.理论计算与实验结果表明,Logistic模型较好地吻合了现有的一些医学结论.  相似文献   

20.
情感分析是文本信息挖掘中的重要任务之一,在个性化推荐、舆情分析等方面具有重要的理论和应用价值,但情感分析对于短文本和长文本部分内容进行分析时准确率不高.本文利用卷积神经网络(CNN)模型在特征提取方面的优势,提出了一种结合XGBoost的高精度分类的卷积神经网络混合模型.该模型利用XGBoost进行回归分析,很好地解决了在卷积神经网络中使用softmax来进行回归分析时导致的准确度不高的问题,在对短文本和长文本部分内容进行情感分析时有良好的效果.最后在多个类的数据集上进行实验,取得了比卷积神经网络模型和时间递归神经网络更好的结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号