共查询到19条相似文献,搜索用时 63 毫秒
1.
随着时间的推移,网络协议流将出现不平衡的现象,经常出现不可预知的在线流量种类,传统在线流量分类模型无法对未知的流量种类进行分类,导致整体分类精度低,适应能力差。为此提出一种新的基于机器学习算法的在线流量分类方法,针对不同类别的在线流量样本流集合筛取出若干最近邻样本流,求出各个样本流特征权重,确定各个特征与类别的相关性,将相关性大的特征当成在线流量特征。依据得到的特征选取部分标识在线流量数据,确定K中值聚类的起始中心,构造映射关系,获取未知的在线流量种类。实验结果表明,所提方法有很高的分类精度,且扩展性和适应能力较强。 相似文献
2.
基于自组织映射网络的流量分类算法 总被引:2,自引:0,他引:2
网络流量分类在QoS、流量控制及网络安全等领域发挥了重要作用. 有监督型的机器学习方法对新流量的识别往往依赖于先前的人工分析;自组织映射网络算法模拟生物神经元,通过自组织行为对数据进行分类学习;实验表明,该无监督型算法能够对新流量进行自动识别,提高了流量识别的准确率. 相似文献
3.
为了能通过Netflow得到网络性能测度,首先分析了从Netflow的长流信息中得到的网络性能测度的可信度,然后设计了基于Netflow的网络服务监测系统,该系统从历史数据中提取服务器的服务指纹作为服务质量的基准点,对用户关注的服务水平给出评判,包括数据分析方法、单个区域的变化规律和单个服务的服务指纹,并能根据网络状态的异常发现异常服务状况.该系统对网络中新出现的应用具有可扩展性,有较好的应用前景. 相似文献
4.
移动互联网的快速发展,产生了网络测量、网络安全和服务质量等方面的新问题.为了深入研究移动互联网的特性,研究人员需要从传统网络流量中快速准确分类出移动流量.本文提出了一种采用轻量级流表与深度数据包检测技术(DPI)相结合的移动流量实时分类方法,将网络流按照时间间隔关系扩展为时序流,并通过DPI时序流前N个特征数据包准确地分类出移动流量,缩减了流表规模,减少了实际DPI开销.通过实时的网络流量实验表明,DPI时序流前8个特征数据包时,提出的方法识别准确率达到91.55%,单次深度数据包检测的平均开销为20个数据包,并且流表的规模缩减到原来的0.21%.与P0F比较,方法识别准确率等性能有明显提升. 相似文献
5.
随着加密技术在网络应用中的广泛应用,如何在不侵犯用户隐私的情况下对加密流量进行分类成为新的挑战。文章提出了一种基于数据包的加密流量分类方法,这种方法不仅安全,而且可以有效防止恶意攻击流量。在流量传输过程中,每个数据包的任务是不同的。有些数据包负责维护连接,有些负责数据交互。以往的研究忽略了数据包行为对流量分类的影响。基于数据包的方法旨在通过聚类算法来区分正常和恶意数据包对流量分类的影响,以识别加密的恶意流量。该方法使用公共流量数据集和实验室收集的流量数据集进行验证,并与其他2种方法进行比较,证明了基于数据包的加密流量分类方法的有效性。 相似文献
6.
随着互联网主干网带宽的不断升级,直接对IP分组数据进行采集、存储和分析会产生巨大的测量开销,因而针对流数据的流量测量越来越受到关注.在流级别的测量工具和协议中,Netflow由于其出色的兼容性和易于部署的特点而得到广泛应用.传统基于Netflow的流数据测量系统往往是集中式的,在全网范围内缺乏必要的协作机制,因而极易受到负载分布不均衡、可扩展性差等问题.引入P2P的设计思想来实现均衡负载,并提供高度可扩展性,另外基于对实际流量数据的观察,提出了在IPv6环境下P2P流量识别的方法. 相似文献
7.
基于机器学习的文本分类方法综述 总被引:1,自引:0,他引:1
文本分类是信息检索与数据挖掘领域的核心技术,是机器学习领域新的研究热点。本文对现有的基于机器学习的文本分类方法进行了详细的介绍,分析了各种方法的优缺点,并阐述了文本分类方法未来的发展趋势。 相似文献
8.
基于数据流多维特征的移动流量识别方法研究 总被引:1,自引:0,他引:1
随着移动互联网的快速发展,移动设备的数量激增至历史新高.从大量混杂流量中识别出移动流量并对流量进行分析,是深入研究移动互联网特性的第一步,同时可以为移动网络测量与管理、移动安全和隐私保护提供有价值的信息.本文综合整理了网络流量识别的常见方法,提出了基于数据流多维统计特征的移动流量识别方法.该方法从硬件特征、操作系统指纹和用户使用习惯三个方面提取了数据流中具有代表性的特征并对特征进行分析,使用集成学习的方法生成识别模型.移动流量的识别准确率和主流的5种操作系统流量分类的准确率都达到了99%以上.本文方法比UAFs方法准确率提高了8%左右.本方法提取的特征具有多维性并且具有实际意义,整合了网络层和传输层的数据流特征,相较于使用深度数据包检测的方法,基于数据流多维特征的方法同样适用于加密流量的分类. 相似文献
9.
互联网应用的蓬勃发展产生了种类多样的网络流量。在网络技术不断进化的过程中,新型流量和流量加密技术的出现,使基于端口和基于有效载荷的传统网络流量分类算法的应用受到限制。为了实现对新型网络流量的自动分类,提出了一种基于机器学习的网络流量分类算法。通过选择特征属性和构建决策树模型,能够实现对流量级别的网络数据进行自动分类。使用网络流量分类领域的公开数据集进行训练和测试,并将测试结果与开源的机器学习平台Weka运行结果相比较,实验结果表明:所构建模型性能优良,在流量分类准确度与Weka平台相近甚至更优的前提下,大幅降低了建模时间,提高了网络数据分类的效率。 相似文献
10.
基于Netflow的网络监控系统的设计与实现 总被引:1,自引:0,他引:1
为了使网络管理员更加方便、快捷、直观地监控网络的运行情况,我们设计了基于Netflow的网络监控系统,并给出了该系统的设计思想、体系结构和具体的实现方法.该系统具有查看网络运行状况方便快捷、统计出用户的上网的规律、及时发现网络中的故障等特点.它的设计完成将缩短网络管理员查找和排除网络故障的时间. 相似文献
11.
支持向量机(support vector machine,SVM)是分类算法中集高效性、准确率和实时性于一体的分类方案。但由于在SVM分类决策的过程中,无关的分类器也参与了投票,使得方案的实时性和分类可靠性有一定程度的降低。提出了基于相似度的高效SVM网络流量识别方案(efficient SVM based on similarity,ESVMS)。ESVMS通过估算待分类实例可能所属的类别范围,排除SVM中那些无关分类器的投票决策。实验结果表明ESVMS较SVM分类准确度几乎没有降低,但分类实时性进一步提高。 相似文献
12.
分类算法是数据挖掘中最重要的研究领域之一。通过对当前数据挖掘中具有代表性的优秀分类算法进行分析和比较,给出了每种算法的特性,为使用者选择算法或研究者改进算法提供了依据。 相似文献
13.
准确、高效的业务流识别与分类是保障多媒体通信端到端QoS(Quality of Service)、执行相关网络操作的前提.但多媒体通信业务构成复杂、具有较严格的QoS约束,且在包/流水平统计特征多样性,业务统计特征有效选取直接关系到识别和分类方法的有效性.在介绍相关研究成果的基础上,文中从业务特征角度对现有技术进行分类,进而对比各类方法的性能,同时在探讨当前业务流识别方法存在对新业务识别准确度不高、实时性不足等问题的基础上,结合跨域QoS类映射弹性需求的特点,给出跨域QoS类映射中多媒体业务识别架构.整个架构的目标是准确、高效地识别多媒体流,为聚集流的形成做好前期准备,为保障高效的端到端QoS提供技术支撑.最后,总结了发展趋势和面临的挑战. 相似文献
14.
基于融合技术的道路交通状态判别模型 总被引:3,自引:0,他引:3
为了提高道路交通状态判别精度,提出基于浮动车检测与感应线圈融合技术的道路交通状态判别模型。该模型包括3部分:1)浮动车模块:利用安装在出租车上的GPS定位设备得到道路3部分的行程时间;2)感应线圈模块:利用安装在道路上的感应线圈以及交通信号参数得到道路的行程时间;3)数据融合模块。利用神经网络将以上两模块的结果作为输入从而提高道路交通状态判别的精度。该文利用7 000多辆装有GPS模块的出租车、100个安装在广州市主要道路口上的固定检测器以及广州市电子地图,对提出的模型进行了试验,试验结果表明该模型是有效的,50个数据的均方误差为0.1 s。 相似文献
15.
16.
李君 《高技术通讯(英文版)》2009,15(4):369-377
Internet traffic classification is vital to the areas of network operation and management. Traditional classification methods such as port mapping and payload analysis are becoming increasingly difficult as newly emerged applications (e.g. Peer-to-Peer) using dynamic port numbers, masquerading techniques and encryption to avoid detection. This paper presents a machine learning (ML) based traffic classification scheme, which offers solutions to a variety of network activities and provides a platform of performance evaluation for the classifiers. The impact of dataset size, feature selection, number of application types and ML algorithm selection on classification performance is analyzed and demonstrated by the following experiments: (1) The genetic algorithm based feature selection can dramatically reduce the cost without diminishing classification accuracy. (2) The chosen ML algorithms can achieve high classification accuracy. Particularly, REPTree and C45 outperform the other ML algorithms when computational complexity and accuracy are both taken into account. (3) Larger dataset and fewer application types would result in better classification accuracy. Finally, early detection with only several initial packets is proposed for real-time network activity and it is proved to be feasible according to the preliminary results. 相似文献
17.
为解决情感分类中词间的语义关系难以表达和分析的问题,提出了一种基于词向量(word representation)和支持向量机(support vector machine)的情感分类算法,对电子商务在线评论的情感分类问题进行研究.首先使用word2vec聚类相似特征,然后使用word2vec和SVM对情感数据进行训练和分类,并分别使用基于词特征和基于词性标注的方法进行特征选择.在京东评论数据上进行的实验结果表明,与现有方法相比,分类准确率和召回率得到了提高. 相似文献
18.
为文本情感分类提出一种改进的机器学习算法。在分析当前主要文本特征选择方法后,把词频和词语情感表现程度融入到信息增益特征选择方法中,从全局和局部2个方面进行特征权重衡量,使用特征空间向量模型对文本进行统一表示,然后利用SVM算法进行训练学习。通过实验发现该算法的查准率和查全率比传统的机器学习算法有所提高,并且得到的分类器具有较好的泛化能力。 相似文献
19.
提出基于K-最近邻算法的话务智能预测技术,利用机器学习算法从电信话务信息的历史数据中提取规律,从而预测未来的电信话务信息情况。在算法中根据时间间隔对样例的距离度量进行了特征加权。针对互联互通来话数据的实验表明,该算法具有良好的性能。 相似文献