首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 464 毫秒
1.
互联网应用的蓬勃发展产生了种类多样的网络流量。在网络技术不断进化的过程中,新型流量和流量加密技术的出现,使基于端口和基于有效载荷的传统网络流量分类算法的应用受到限制。为了实现对新型网络流量的自动分类,提出了一种基于机器学习的网络流量分类算法。通过选择特征属性和构建决策树模型,能够实现对流量级别的网络数据进行自动分类。使用网络流量分类领域的公开数据集进行训练和测试,并将测试结果与开源的机器学习平台Weka运行结果相比较,实验结果表明:所构建模型性能优良,在流量分类准确度与Weka平台相近甚至更优的前提下,大幅降低了建模时间,提高了网络数据分类的效率。  相似文献   

2.
决策树分类算法是智能指导系统实现"智能"的一种有效工具。通过对数据的分析和挖掘,能够实现对数据的精确分类。另外,对于决策树和产生式规则集的计算相对简单而且高效。提出了智能指导系统,并介绍了该系统的主要功能模块。在比较了ID3算法和C4.5算法后,结合个性化教学的需求,提出了新的基于规则属性相关的C4.5r算法。同时,给出了系统的计算评估模块。实验结果表明,新的C4.5r算法在运算时间、产生式规则集的规模及计算产生式规则的开销方面明显优于传统的C4.5算法。  相似文献   

3.
应用分类贡献函数的决策树构造方法   总被引:1,自引:0,他引:1  
在构造决策树的过程中,分类属性选择的标准直接影响分类的效果。本文基于粗糙集的理论,提出了在核中应用分类贡献函数来选择分类属性的新方法。利用UCI提供的数据集对该算法和基于信息熵的算法C4.5,以及基于加权平均粗糙度的决策树生成算法相比较。实验证明:用该方法构造的决策树与传统的基于信息熵方法构造的决策树相比较,复杂性低,且能有效提高分类效果。  相似文献   

4.
决策树是分类数据挖掘的重要方法.C4.5算法延用了经典ID3算法的基本策略,增加了处理连续属性的方法.在C4.5算法的基础上,讨论了新的基于属性变换的连续属性处理方法.该方法基于统计概率信息,依据概率属性的最佳分裂对应分裂连续属性,增加了决策树的分类精度.  相似文献   

5.
针对传统的流量分类管理系统存在不稳定、结果反馈不及时、分类结果显示不直观等问题,设计一个基于Web的在线的流量分类管理系统。该系统采用流中前5个包(排除3次握手包)所含信息作为特征值计算资源,集成一种或多种分类算法用于在线网络流量分类,应用数据可视化技术处理分类结果。实验表明:在采用适应在线分类的特征集和C4.5决策树算法做分类时,系统能快速做出分类,且精度达到94%以上;数据可视化有助于人机交互,改善分类指导。  相似文献   

6.
针对传统的流量分类管理系统存在不稳定、结果反馈不及时、分类结果显示不直观等问题,设计一个基于Web的在线的流量分类管理系统。该系统采用流中前5个包(排除3次握手包)所含信息作为特征值计算资源,集成一种或多种分类算法用于在线网络流量分类,应用数据可视化技术处理分类结果。实验表明:在采用适应在线分类的特征集和C4.5决策树算法做分类时,系统能快速做出分类,且精度达到94%以上;数据可视化有助于人机交互,改善分类指导。  相似文献   

7.
为解决目前常用于就业数据分析的C4.5算法、基于粗糙集等的决策树生成算法均无法很好地处理决策精度需求不同和噪声适应能力的问题,运用基于多尺度粗糙集模型的决策树算法于于高校就业数据分析,并以某高校2012年就业数据为例进行分析,同时将分析结果与C4.5算法和基于粗糙集的决策树生成算法的分析结果进行比较.结果表明:基于多尺度粗糙集模型的决策树算法生成的决策树树形结构简单、产生的规则简洁、不存在不可分的数据集、运算速度快.  相似文献   

8.
提出了一种基于决策树C4.5的多示例学习算法C4.5-MI,通过拓展C4.5的熵函数和信息增益比来适应多示例学习框架.应用梯度提升方法对C4.5-MI算法进行优化,得到效果更优的GDBT-MI算法.与同类决策树算法在benchmark数据集上进行比较,结果表明,C4.5-MI和GDBT-MI算法具有更好的多示例分类效果.  相似文献   

9.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

10.
Rough集在乳腺癌辅助诊断中的应用   总被引:1,自引:0,他引:1  
目的研究Rough集在乳腺癌辅助诊断中的应用。方法采用基于Rough集的属性约简算法,利用决策树算法对乳腺癌图像数据进行分类,辅助医疗诊断。结果实现了基于Rough集的属性约简算法,对乳腺癌数据进行处理,获得了分类的实验结果。结论该模型系统达到了较高的分类准确率,证明Rough集在辅助医疗诊断中有着广泛的应用前景。  相似文献   

11.
本文引入组合恶意加密流量数据集,结合随机森林对各个特征的重要性进行对比,构建可变长二维特征序列,提出一种针对可变长序列的恶意加密流量检测方法。该方法采用BiGRU-CNN深度学习模型,通过引入Masking层,有效解决变长序列问题,能够同时提取流量数据中时间和空间的多重特征,最终实现对恶意加密流量的二分类检测。实验结果表明,该方法与基于CNN、LSTM等单一模型相比在精确率、召回率和F1值均有所提升,准确率达到94.61%,且在非训练集实验中能达到94.93%的平均识别准确率,具有较好的应用价值。  相似文献   

12.
Global Positioning System(GPS) trajectory data can be used to infer transportation modes at certain times and locations. Such data have important applications in many transportation research fields, for instance,to detect the movement mode of travelers, calculate traffic flow in an area, and predict the traffic flow at a certain time in the future. In this paper, we propose a novel method to infer transportation modes from GPS trajectory data and Geographic Information System(GIS) information. This method is based on feature extraction and machine learning classification algorithms. While using GIS information to improve inference accuracy, we ensure that the algorithm is simple and easy to use on mobile devices. Applied to GeoLife GPS trajectory dataset, our method achieves 91.1% accuracy while inferring transportation modes, such as walking, bike, bus, car, and subway, with random forest classification algorithm. GIS features in our method improved the overall accuracy by 2.5% while raising the recall of the bus and subway transportation mode categories by 3.4% and 18.5%. We believe that many algorithms used in detecting the transportation modes from GPS trajectory data that do not utilize GIS information can improve their inference accuracy by using our GIS features, with a slight increase in the consumption of data storage and computing resources.  相似文献   

13.
Internet traffic classification is vital to the areas of network operation and management. Traditional classification methods such as port mapping and payload analysis are becoming increasingly difficult as newly emerged applications (e.g. Peer-to-Peer) using dynamic port numbers, masquerading techniques and encryption to avoid detection. This paper presents a machine learning (ML) based traffic classification scheme, which offers solutions to a variety of network activities and provides a platform of performance evaluation for the classifiers. The impact of dataset size, feature selection, number of application types and ML algorithm selection on classification performance is analyzed and demonstrated by the following experiments: (1) The genetic algorithm based feature selection can dramatically reduce the cost without diminishing classification accuracy. (2) The chosen ML algorithms can achieve high classification accuracy. Particularly, REPTree and C45 outperform the other ML algorithms when computational complexity and accuracy are both taken into account. (3) Larger dataset and fewer application types would result in better classification accuracy. Finally, early detection with only several initial packets is proposed for real-time network activity and it is proved to be feasible according to the preliminary results.  相似文献   

14.
Traffic classification is critical to effective network management. However, more and more proprietary, encrypted, and dynamic protocols make traditional traffic classification methods less effective. A Message and Command Correlation (MCC) method was developed to identify interactive protocols (such as P2P file sharing protocols and Instant Messaging (IM) protocols) by session analyses. Unlike traditional packet-based classification approaches, this method exploits application session information by clustering packets into application messages which are used for further classification. The efficacy and accuracy of the MCC method was evaluated with real world traffic,including P2P file sharing protocols Thunder and BitTorrent, and IM protocols QQ and GTalk. The tests show that the false positive rate is less than 3% and the false negative rate is below 8%, and that MCC only needs to check 8.7% of the packets or 0.9% of the traffic. Therefore, this approach has great potential for accurately and quickly discovering new types of interactive application protocols.  相似文献   

15.
基于数据流多维特征的移动流量识别方法研究   总被引:1,自引:0,他引:1  
随着移动互联网的快速发展,移动设备的数量激增至历史新高.从大量混杂流量中识别出移动流量并对流量进行分析,是深入研究移动互联网特性的第一步,同时可以为移动网络测量与管理、移动安全和隐私保护提供有价值的信息.本文综合整理了网络流量识别的常见方法,提出了基于数据流多维统计特征的移动流量识别方法.该方法从硬件特征、操作系统指纹和用户使用习惯三个方面提取了数据流中具有代表性的特征并对特征进行分析,使用集成学习的方法生成识别模型.移动流量的识别准确率和主流的5种操作系统流量分类的准确率都达到了99%以上.本文方法比UAFs方法准确率提高了8%左右.本方法提取的特征具有多维性并且具有实际意义,整合了网络层和传输层的数据流特征,相较于使用深度数据包检测的方法,基于数据流多维特征的方法同样适用于加密流量的分类.  相似文献   

16.
未知恶意流量是网络安全的重大安全挑战,对未知恶意流量的分类能够增强网络威胁识别能力,指导网络防御策略.未知恶意流量由于缺乏样本,无法满足现有的深度学习方法对大量数据的需要.本文提出了一种基于生成式零样本学习的未知恶意流量分类方法.从原始的网络流量中提取出关键的恶意流量信息并转化为二维图像,提出将恶意流量的属性信息作为辅助语义信息,利用条件生成对抗网络生成类别样本.同时,本文还添加了类级别的对比学习网络,使得生成的类别样本质量更高并且更具有类间区分度.实验结果表明,该方法在未知恶意流量分类问题上平均准确率能够达到90%以上,具有较高的应用价值.  相似文献   

17.
基于多特征融合的SVM声学场景分类算法研究   总被引:1,自引:0,他引:1  
针对DCASE2017挑战赛的声场环境数据集,提取梅尔频率倒谱系数(MFCC)、短时能量(SE)、声学事件似然特征(AELF)、静音时间(MT)特征,组成多特征融合矩阵,通过对比多种核函数和寻优算法,最终选取高斯径向基核函数(RK)建立支持向量机(SVM)模型,采用交叉验证(CV)方法进行SVM参数寻优,对15种声学场景进行分类.实验结果表明,杂货店、办公室的分类准确性达到了90%以上,平均分类准确性达到71.11%,远高于挑战赛的基线系统61%的平均分类准确性.   相似文献   

18.
为提升交通流预测精度,深层次地挖掘交通流数据的时空特征,提出一种基于双向长短时记忆网络(Bi-LSTM)的城市交通网格集群流量预测模型。将所获得的网约车轨迹数据集网格化;考虑人为确定集群个数对结果的影响,用贝叶斯信息准则进行参数估计确定集群数,利用高斯混合模型对交通状况相似的网格进行聚类得到不同交通网格集群;利用集群内部交通网格的输入时间序列的相互影响设计多对多模型,构建Bi-LSTM模型预测不相交集群上的流量;以经典多元线性回归模型(MLRA)作为对照组进行实验验证,采用平均绝对误差(MAE)、均方根误差(RMSE)、平均绝对百分比误差(MAPE)和动态时间规整(DTW)这四类评价指标对预测结果进行综合评价,验证基于Bi-LSTM模型的城市交通网格集群流量预测的可行性。实验结果表明:MLRA模型和Bi-LSTM模型对城市交通网格集群流量的预测值小于真实值,早高峰时段尤为明显;各交通网格集群的交通状态态势相似,集群的簇内相关性较强,两类模型均可实现较好的流量预测效果,Bi-LSTM表现更优; MLRA和Bi-LSTM预测模型的精度MAE、RMSE、MAPE分别为3.2011、4.4009、0.3187,3.0687、4.2943、0.3045,Bi-LSTM与MLRA相比,模型精度分别提高了4.14%、2.40%、4.46%,说明所构建的Bi-LSTM交通流网格集群流量预测精度高、误差低,要优于MLRA模型,表现出较好的泛化性能; MLRA和Bi-LSTM的DTW结果分别为52938.6356、54815.1055,构建的Bi-LSTM模型较MLRA模型各自工作日和节假日时间序列相似性DTW结果提高3.42%,表现出更好的鲁棒性。利用城市交通流量的特点和交通轨迹数据网格化的优点,基于Bi-LSTM模型的城市交通网格集群流量预测与MLRA交通流量预测模型相比,具有精度高、误差低的特点。同时,DTW指标方面,基于Bi-LSTM对城市交通网格集群流量模型与真实流量变化趋势一致,表现出较好的鲁棒性。  相似文献   

19.
为了进一步提高三维模型的识别精度,提出了一种基于深度卷积神经网络的三维模型识别方法。将点云数据通过占用网格规范化计算转化为二值3D体素矩阵,通过附加正则化项的随机梯度下降算法提取体素矩阵的特征,再通过共享权重的旋转增强对训练集进行数据增广并以此对模型标签进行预测。实验结果表明,该算法在公开数据集ModelNet40及悉尼城市模型数据集上的识别精度均达到85%左右。与基于同类机器学习的三维模型识别算法相比,在相同训练数据集上该方法网络训练时间短,在相同测试数据集上模型识别准确率高,检索速度快。提出的体素占用网格模型的深度卷积神经网络,可以实现三维点云模型数据集及规范化体素模型数据集的识别和分类工作。  相似文献   

20.
由于预训练模型输入分词数量限制,基于BERT的长文本分类任务效果与长文本分割后的文本段集合的处理及特征融合密切相关,现有的长文本分类研究在融合文本段特征时更关注文本段之间原始的顺序关系,而本文提出了一种基于BERT和集合神经网络的长文本分类模型.该方法以BERT为基础,可处理从同一文本样本分割得到的任意数量文本段,经过BERT后得到文本段特征,再将所有文本段特征输入到具有置换不变性的集合神经网络层中,提取出集合级别特征来优化长文本的特征表达.通过在三个数据上的实验分析,论文在平均分词长度较长的数据集上取得了90.82%的准确率,高出目前最优方法4.37%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号