首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 105 毫秒
1.
现有的基于密度的数据流聚类算法难于发现密度不同的簇,难于区分由若干数据对象桥接的簇和离群点.本文提出了一种基于共享最近邻密度的演化数据流聚类算法.在此算法中,基于共享最近邻图定义了共享最近邻密度,结合数据对象被类似的最近邻对象包围的程度和被其周围对象需要的程度这两个环境因素,使聚类结果不受密度变化的影响.定义了数据对象的平均距离和簇密度,以识别离群点和簇间的桥接.设计了滑动窗口模型下数据流更新算法,维护共享最近邻图中簇的更新.理论分析和实验结果验证了算法的聚类效果和聚类质量.  相似文献   

2.
提出了基于分布式聚类的异常入侵检测方法ID-DC,通过对训练集进行分布式聚类产生聚簇模型,采用基于双参考点的标识算法Double-Reference标记异常簇,不需要具有类别标签的训练集且可自动确定聚簇模型的个数.实验中采用了网络入侵检测数据集KDD-CUP-99来训练模型.实验结果表明:通过采用分布式聚类算法建立的分布式入侵检测模型可有效地检测攻击,检测率高,误警率低.  相似文献   

3.
针对电子病历中疾病诊断文本同义词识别和命名标准化问题,提出了一种自适应的文本聚类方法.首先提出了一种新的基于集合的文本相似性度量算法;然后采用基于相似度分布的文本聚类算法实现同义文本识别,该算法能够自动确定类簇个数;最后采用基于序列模式的中心概念提取算法实现了疾病命名的标准化,同时对聚类簇进行合并和优化,进一步提升了聚类的准确性.测试结果表明,所述方法具有较高的准确率和聚类效率,在病历文本的预处理、分类和分析中具有广泛意义.  相似文献   

4.
提出了基于分布式聚类的异常入侵检测方法ID—DC,通过对训练集进行分布式聚类产生聚簇模型,采用基于双参考点的标识算法Double—Reference标记异常簇,不需要具有类别标签的训练集且可自动确定聚簇模型的个数.实验中采用了网络入侵检测数据集KDD—CUP-99来训练模型.实验结果表明:通过采用分布式聚类算法建立的分布式入侵检测模型可有效地检测攻击,检测率高,误警率低.  相似文献   

5.
针对个性化邮件过滤中接收的邮件没有规律、正常邮件和垃圾邮件存在严重类偏移等问题,提出一种改进的k最近邻(k-nearest neighbor algorithm,KNN)个性化邮件过滤方法.该方法主要是通过建立兴趣度模型(对兴趣度计算的改进,剔除用户习惯对建立兴趣度模型带来的影响)不断改变训练集,使得训练集中的文本始终...  相似文献   

6.
张选平  祝兴昌  马琮 《西安交通大学学报》2007,41(12):1387-1390,1395
针对基于密度的聚类算法由高密度区到低密度区的处理顺序所带来的不能识别低密度对象类别的缺陷,通过对聚类过程中可能存在的边界识别进行讨论,提出了一种基于边界识别的聚类算法.该算法的思想是:同簇优先权高于密度优先权,即在选择下一个对象进行聚类时,在已聚类的对象中优先选择同一簇的对象,当对象沿某一方向扩展到达簇边界时停止扩展,转而向其他方向扩展,这种处理顺序能使得类别最大化.通过分析簇边界的密度变化特征,建立了边界识别准则,并根据该准则对数据进行聚类.通过在合成数据和美国加州大学提供的知识挖掘数据库数据集上的实验结果表明,所提算法能有效地处理低密度区域的数据,与识别聚类结构的对象排序算法相比,聚类效果可提高4%左右,而时间性能相当.  相似文献   

7.
针对kNN分类算法对不平衡数据进行分类可能偏向多数类的问题,提出了象限壳近邻分类算法。该算法仅选择测试样本象限方向上的最近邻的训练样本来判断其所属类别,从而有效地避免了kNN算法对选取k个最近邻训练样本时可能产生偏向多数类的问题。通过在UCI真实不平衡数据集上的实验,该文提出的分类算法在Recall、F-value和G-mean等评价标准明显优于传统的kNN分类算法。  相似文献   

8.
基于内容的垃圾邮件过滤本质上是文本分类问题,支持向量机分类器非常适合于垃圾邮件过滤这一二分类问题,但标准的支持向量机是基于分类精度进行优化的,对两类邮件的重要性未以区别,造成了邮件分类时虽然整体精度较高,但对正常邮件的误判率也较高.据此笔者提出了一种基于加权支持向量机的垃圾邮件过滤算法,通过增加两类邮件的类别权重及反映每封邮件重要性的权重,对支持向量机分类器进行训练,在保证分类精度的同时,尽可能地降低对正常邮件的误判率.实验表明该算法取得了很好的过滤效果.  相似文献   

9.
一种基于语义距离的高效文本聚类算法   总被引:6,自引:0,他引:6  
摘 要:提出了一种基于语义进行文本聚类的新方法。该方法从语义上具体分析文档,利用文档具体语义计算文档间的相似度,使得文档聚类结果更合理。文本聚类主要采用最近邻聚类算法,并提出第二次聚类算法改进最近邻算法对输入次序敏感的问题。类特征词的选择上根据相似度权重优胜略汰类特征词,使得最后类特征词越来越逼近类的主题。实验结果表明本文所提出的算法在聚类精度和召回率上均优于基于VSM的K-Means聚类算法。  相似文献   

10.
为了提高电子邮件中垃圾邮件的过滤准确率和效率,以朴素贝叶斯算法和K最近邻(KNN:K-Nearest Neighbors)算法为基础,对传统垃圾邮件过滤算法进行改进,给出邮件的合法属性和非法属性的概念,并提出一种新的分类算法--基于邮件合法属性和非法属性的分类算法(SEASF:Simple and Efficient Algorithm to Spam Filter based on legitimate attribute and nonlicet attribute)。SEASF计算复杂度较低,可适用于大规模场合及邮件的在线过滤。将SEASF算法应用于垃圾邮件过滤的结果表明,该算法可大幅度提高分类精度,分类速度也令人满意。  相似文献   

11.
垃圾邮件数量庞大、伪装形式多种多样,给反垃圾邮件带来了巨大的挑战。提出了一个基于行为和时间特征的垃圾邮件检测方法。根据邮件收发记录分析基于社会网络的行为特征和基于邮件发送间隔的时间特征,采用步进式判别分析方法,选择具有较强判别能力的行为特征,形成特征子空间,将训练样本投影到特征子空间。使用带标签的训练样本训练支持向量机SVM,形成邮件决策信息,以此检测出垃圾邮件。利用最近3年真实邮件数据,从不同的角度进行了对比实验。结果证明,提出的行为与时间特征能有效提升垃圾邮件检测的准确率和查全率,其整体性能优于其他的基于行为的垃圾邮件检测方法。  相似文献   

12.
垃圾邮件的概念漂移及过滤技术研究   总被引:1,自引:0,他引:1  
提出了双级别的概念漂移检测算法,监视已有的垃圾邮件过滤模型在对邮件分类时是否产生了持续的分类错误,进而对概念漂移进行识别。针对由用户偏好引起的垃圾邮件概念范畴变化,基于本体提出邮件数字指纹与概念子类别之间的关联强度和隶属度算法。通过对比实验,验证了所提方法在垃圾邮件概念漂移问题上的有效性。  相似文献   

13.
基于用户反馈和增量学习的垃圾邮件识别方法   总被引:1,自引:0,他引:1  
为了提高垃圾邮件识别的准确度,减少识别中的错判,提出了一种交互式垃圾邮件识别方法。该方法用一组具有特定权重的规则识别垃圾邮件,规则权重分布用改进遗传算法训练得到。增加用户与服务器间的交互,收集用户反馈的错判信息,根据反馈信息用增量学习动态调整规则权重。通过对SpamA ssass in扩展实现了该方法,并应用在邮件服务器上进行了测试。实验中在不影响垃圾邮件识别率的前提下,降低误判率约10%。实验结果表明:该方法不但能有效减少识别中的误判,而且避免了繁琐的重新训练,加快了规则权重的更新速度。  相似文献   

14.
基于贝叶斯概率理论的防火墙技术研究   总被引:3,自引:3,他引:0  
为解决在网络应用中垃圾邮件占用大量网络资源,并威胁邮件系安全的问题,根据垃圾邮件体的特点,在对大量垃圾邮件进行统计分析的基础上,依据贝叶斯理论,研究了垃圾邮件关键词统计概率的分布规律,并提出了在Solaris系统平台上使用SMTP协议服务器端垃圾邮件的过滤算法.LAN仿真测试结果表明,贝叶斯垃圾邮件概率公式的应用提高了垃圾邮件命中率.  相似文献   

15.
电子邮件一直是互联网最重要的应用之一,但现有基于SMTP协议和客户/服务器模式的电子邮件系统采用类似路由器的转发机制,由于服务器无法验证最初发送者的身份或源地址的真实性,导致垃圾邮件泛滥,而现有基于内容分析的过滤机制误判率高,经常导致邮件丢失.本文研究基于真实IPv6地址访问的P2P电子邮件体系结构,提出了基于真实IPv6地址的发信人身份认证技术,设计实现了基于真实IPv6地址访问的P2P电子邮件系统,实现了对发信人源地址的认证与追踪,使得假冒源地址的垃圾邮件根本无法发出.  相似文献   

16.
现有的垃圾网站检测方法主要针对自建的垃圾网站,对于通过入侵正常网站注入垃圾网络链接的检测效率不高.本文提出一种基于网页结构与文本多维特征的检测框架,该框架将网页进行分块处理.通过计算优势率的方法提取内容特征,根据标签数、属性键和属性值利用独热率的方法提取结构特征.使用机器学习算法进行训练并得到检测模型,进而有效地检测垃圾网站链接.同时,将本文的检测方法与基于内容分析的检测算法和黑名单匹配算法进行对比,本文提出的方法检测准确率最高有13%的提高.  相似文献   

17.
介绍了SMTP协议在安全方面的局限性,讨论了在网络环境中可能被垃圾邮件制造者所利用的弱点,设计了一种基于现有邮件服务器并可对邮件来源进行认证的SMTP协议改进方案,给出了实现方法及流程,并讨论了对垃圾邮件的遏制效果.  相似文献   

18.
提出在Linux系统上以Postfix为SMTP服务器、CYRUS为POP/IMAP服务器、A-PACHE为WEB服务器和MYSQL为后台数据库构建一个支持大量用户的邮件系统的方案,并实现其Web Mail系统.在贝叶斯方法的基础上,设计出一个电子邮件过滤器,并给出实现的系统结构.针对日益泛滥的邮件病毒问题,提出一套可行的病毒防护方案.  相似文献   

19.
用户反馈自适应的POP3邮件过滤代理模型   总被引:1,自引:0,他引:1  
为了有效接受邮件客户端反馈并自动根据邮件客户端反馈对邮件过滤系统做出调整,提出了用户反馈自适应的POP3邮件过滤代理模型SAMFUF(self-adaptive mail filtering POP3 proxy based on users’feedback)。SAMFUF采用异步连接模拟同步连接方式建立邮件客户端和邮件服务器间POP3连接,实现了邮件客户端与邮件服务器间的透明性连接;将最大熵、贝叶斯和支持向量机等基于内容过滤的方法从邮件过滤系统中独立出来,实现了通用邮件过滤系统的设计;通过在邮件中插入包含邮件唯一标识、分类结果等信息的HTML表单的标签以及调整邮件过滤模型,实现了基于邮件客户端的用户反馈以及邮件过滤系统的自适应功能;采用线程池管理线程和overlapped I/0事件通信方式实现邮件客户端与邮件服务器间通信,实现了邮件过滤服务的高效率和稳定性。实验表明,SAMFUF在垃圾邮件过滤上具有较高的效率和准确率。  相似文献   

20.
随着电子邮件数量的增多,如何对电子邮件进行有效的分类,工且过滤出垃圾邮件,成为一个令很多用户烦恼的问题.本文设计并初步实现了一个基于支持向量机的自动邮件分类系统.该系统位于邮件客户端,能对已有邮件样本进行自主学习,并自动从邮件服务器接收新到邮件进行分类和垃圾过滤.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号