首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 562 毫秒
1.
基于内容的垃圾邮件过滤本质上是文本分类问题,支持向量机分类器非常适合于垃圾邮件过滤这一二分类问题,但标准的支持向量机是基于分类精度进行优化的,对两类邮件的重要性未以区别,造成了邮件分类时虽然整体精度较高,但对正常邮件的误判率也较高.据此笔者提出了一种基于加权支持向量机的垃圾邮件过滤算法,通过增加两类邮件的类别权重及反映每封邮件重要性的权重,对支持向量机分类器进行训练,在保证分类精度的同时,尽可能地降低对正常邮件的误判率.实验表明该算法取得了很好的过滤效果.  相似文献   

2.
提出了一个基于遗传算法和发送行为的垃圾邮件检测模型,它通过抽取出可疑垃圾邮件的发送行为特征信息,用遗传算法确定各个特征信息的权重,根据邮件的总权重来判断邮件是否是垃圾邮件。实验结果表明,该模型获得较好的垃圾邮件检测效果。  相似文献   

3.
基于概率模型的名人网页相关度评价   总被引:1,自引:0,他引:1  
天网知名度系统是根据用户预定信息提供个性化检索的信息服务系统.该文提出了一种基于概率模型的名人网页相关度评价模型.改进Okapi BM25公式,引入HTML标记权重系数针对不同领域名人特点引入名人属性权重系数.分别采用伪反馈和用户反馈两种方法进行相关反馈,实现对评价模型中权重参数的自动优化.实验表明,该模型有效地提高了系统相关度评价质量,并且发现用户反馈的效果受实体属性信息词数影响,属性信息越丰富反馈后性能提高的概率越大.  相似文献   

4.
文中针对当下愈发泛滥的垃圾邮件,分别使用朴素贝叶斯分类和支持向量机分类法对当前日益泛滥的垃圾邮件进行识别、分类,将"词频-筛"混合特征选择方法应用于分类器模型中,以提高分类器的识别性能.同时,通过考虑更全面的分类概率情况,改进朴素贝叶斯分类模型,进一步提升朴素贝叶斯分类器的识别性能.最后通过实验得到了该垃圾邮件识别系统的准确率、召回率和F1值等分类识别性能指标.实验结果表明,"词频-筛"混合特征选择方法能有效提高垃圾邮件分类器的识别性能,而且使用成本敏感方法的分类输出调节模块也能大大降低分类器将正常邮件误判为垃圾邮件的概率,因此,文中设计的垃圾邮件识别系统具有较强的实用性,可以在实际工作、生活中使用.  相似文献   

5.
随着电子邮件在日常生活中多方面的灵活应用,大批量垃圾邮件的产生在很大程度上干扰了用户对电子邮件的使用.针对垃圾邮件过滤的研究现状,在阐述目前垃圾邮件过滤研究成果基础上,重点描述了具备高性能、低误判率的贝叶斯算法,并以贝叶斯算法、反馈学习技术为原理,利用Microsoft Visual C++6.0实现了垃圾邮件过滤系统.  相似文献   

6.
随着大数据时代的来临,商家拥有了越来越多的数据,从而能够准确识别出用户类型.准确的用户类型识别可以帮助商家进行精准营销,提高销售利润.由于商务数据存在数据不全等问题,若直接应用现有的分类方法识别用户类型,识别效果并不太好.借鉴关联规则算法的思想,设计一种商务大数据环境下可智能识别特定类型用户的方法.该方法首先选取种子商品,然后利用种子商品和其他商品的强关联规则,分层次赋予商品权重,再将权重映射到用户身上从而得到一个特征值,最后依据用户特征值来识别用户类型.该方法只利用购物记录数据,就能有很好的表现.通过真实数据集上的实验,以识别超市中婴幼儿家庭用户为例,证明了该方法的效果.  相似文献   

7.
多数在线垃圾邮件识别方法未有效区分用户针对不同邮件内容的感兴趣程度,导致垃圾邮件识别精度不高.文中提出了一种基于支持向量机的垃圾邮件在线识别新方法.即结合传统增量学习及主动学习理论,先通过随机选择代表样本寻找分类最不确定的样本进行人工标注;接着引入用户兴趣度的概念,提出了新的样本标注模型和算法性能评价标准;最后结合"轮盘赌"方法将标注后样本加入训练样本集.多种对比实验表明,文中方法针对垃圾邮件识别精度高,样本训练及待标注样本选择速度快,具有较高的在线应用价值.  相似文献   

8.
语音合成中基于听辨指导的权重训练算法   总被引:1,自引:0,他引:1  
针对语音合成的基元选取中权重设定的问题提出了一种基于人工听辨指导的权重自动训练的方法。该方法首先通过人工听辨对现有的基元选取结果进行评测打分,然后采取韵律逼近的方法对人工评测的结果进行学习,进而对权重进行调整修正,从而实现权重的自动训练。实验表明:该方法较好地解决了权重设定的问题,使得合成语音的自然度听辨得分由3.49提高到4.02。同时,该方法还使得语音合成系统在使用过程中根据用户反馈自动进行优化成为可能。  相似文献   

9.
传统试卷分析系统一般只是对考试成绩做简单的整体统计,如平均分、等级、不及格率等,用户缺乏对试题知识点掌握情况关联程度的准确了解。针对该问题提出一种基于用户反馈的关联规则挖掘算法。首先对原始数据进行预处理,得到试卷知识点评分权重表和二进制的学生得分率表。然后建立一个根据用户选择层数输出关联规则,以及查询与选定知识点相关的规则的新方案。最后,提出了一个考虑用户反馈、支持度和置信度阈值的关联规则挖掘算法,以过滤无用规则,提高挖掘效率。对VB试卷数据应用该算法,发现了基于用户反馈的有趣关联规则。实验结果表明基于用户反馈的关联规则挖掘优于其他关联规则挖掘算法,更易获得有趣的关联规则。  相似文献   

10.
针对面向汽车领域的软文识别问题,将软文识别分为顶贴识别、无关帖识别、广告帖识别和伪造帖识别4个子任务,并分别使用基于规则的方法和基于机器学习的方法对4类软文进行识别。基于规则的方法综合考虑汽车领域专业信息、极性词信息、作者级别信息等因素;基于机器学习的方法结合网帖内容特征和作者信息特征,使用最大熵分类器进行模型训练。实验结果表明,对于领域特征明显、具有数值化反馈信息和明确标注数据的领域,适合使用机器学习的方法进行软文识别。  相似文献   

11.
随着电子邮件的广泛使用,垃圾邮件问题也日益严峻.基于邮件内容的过滤是当前解决垃圾邮件问题的主流技术之一.提出了一种基于带有模糊隶属度的模糊支持向量机对中文垃圾邮件过滤的方法,同时,为解决FSVM中隶属度函数的确定问题,使用了一种改进的基于类中心的隶属度函数设计方法.通过实验,使用FS-VM对垃圾邮件过滤能够取得较好的效果.  相似文献   

12.
垃圾邮件的改进贝叶斯过滤算法   总被引:1,自引:0,他引:1  
在研究贝叶斯过滤算法原理和实现方法的基础上,将垃圾邮件的先验概率由常数改进为实际概率,改进了token的选取范围和选取规则,在检测内容上增加url和图片。最后设计了一个基于改进贝叶斯过滤算法的垃圾邮件过滤器。实验结果表明,这种改进的贝叶斯过滤算法在垃圾邮件过滤中有良好的应用效果。  相似文献   

13.
日益泛滥的图像垃圾邮件给互联网用户带来极大的不便,如何对其实施有效过滤成为亟待解决的问题.分析图像垃圾邮件过滤中的关键问题邮件图像的特征提取.利用垃圾邮件重复发送、内容高度相似的特点,提出一种过滤图像垃圾邮件的新方法:提取邮件图像的综合特征值,以此作为目标邮件图像与垃圾邮件图像样本库相似性度量的依据,通过检测其是否相似来实现垃圾邮件图像的过滤.实验中,提取邮件图像的颜色、纹理和形状3种底层特征,其描述方法分别为颜色矩、共生矩阵统计量和不变矩.结果表明该方法对图像垃圾邮件的召回率达到95%以上.  相似文献   

14.
一种应用于博客的垃圾评论识别方法   总被引:1,自引:0,他引:1  
针对博客垃圾评论泛滥的问题,提出了一种识别博客垃圾评论的新方法.利用网络常用语对短小评论先进行评论的识别,然后利用改进的相似度公式对评论进行了K轮评论的识别,在每轮识别之后,对主题词进行权重的调整和主题词扩展;待所有评论识别完毕,再利用网络常用语和主题词对识别出的垃圾评论进行第二次过滤,过滤出垃圾评论中的合法评论.实验结果表明,利用该方法进行评论识别在一定程度上提高了识别垃圾评论的准确率和召回率.  相似文献   

15.
电子邮件的普及给人们的生活带来极大的方便,但目前垃圾邮件的泛滥严重影响了用户的正常使用。贝叶斯算法因简单在英文邮件过滤中取得了良好的过滤效果,分析了贝叶斯算法的原理及其在垃圾邮件过滤中的应用,给出垃圾邮件过滤的整个过滤流程,设计并实现了一种语言无关的垃圾邮件过滤系统。  相似文献   

16.
针对传统的垃圾邮件过滤方法不能有效阻止出现的新型垃圾邮件的问题,借鉴生物免疫系统中疫苗的概念和免疫记忆功能,提出了一种基于疫苗机制的垃圾邮件过滤模型SFM-V(spam filtering model based on vaccine mechanism).该模型详细描述了垃圾邮件检测器的演化和抗原提呈的过程,通过疫苗控制器实现疫苗提取和疫苗接种,新生成的免疫记忆细胞作为疫苗实现信息交互,共享抗体.并引入小生境免疫记忆与共享机制,增加检测器的多样性及稳定性,促进免疫记忆库及原始抗体库中优良个体的保存,有效地提取和记忆垃圾邮件的未知特征和变异特征.利用CCERT(china education and research network)的邮件样本集对该模型进行训练和检测,仿真实验结果表明该模型有效地提高了垃圾邮件的正确率、召回率等特性,降低了垃圾邮件的虚报率.  相似文献   

17.
Internet的迅速发展,使电子邮件应用十分广泛,但垃圾邮件也泛滥成灾.本文介绍了基于安全认证、规则匹配和统计学习三类邮件过滤技术及应用情况,并对简单贝叶斯和支持向量机技术的原理应用于邮件过滤进行了阐述.最后分析了过滤技术面临的挑战并指出垃圾邮件过滤的发展趋势.  相似文献   

18.
分析目前基于邮件内容过滤技术存在的缺陷,根据垃圾邮件的大量发送和不请自来的行为特征,提出了一种垃圾邮件行为过滤技术.该技术将各邮件服务器组成一个垃圾邮件协作过滤网络,邮件服务器发送邮件时判断其发送行为,然后将发送行为信息加密;在MTA会话阶段,接收方先解密邮件发送行为信息,然后将不请自来的群发行为垃圾邮件进行过滤.实验结果表明,该技术在MTA会话通信阶段能过滤大量不请自来的垃圾邮件,具有较高的准确率和查全率,处理速度也较快,节省大量的网络资源,具有良好的过滤性能.  相似文献   

19.
垃圾邮件过滤中特征选择方法研究   总被引:2,自引:0,他引:2  
文章对垃圾邮件过滤中的特征选择问题进行了研究,引入"词共现模型"考虑词语之间的语义联系信息,和传统的信息增益特征选择方法结合表示邮件,采用神经网络方法对邮件进行分类得到垃圾邮件过滤器.实验表明,文章提出的将词共现对和信息增益结合的特征选择方法能够提高垃圾邮件过滤的精确度.  相似文献   

20.
为了提高电子邮件中垃圾邮件的过滤准确率和效率,以朴素贝叶斯算法和K最近邻(KNN:K-Nearest Neighbors)算法为基础,对传统垃圾邮件过滤算法进行改进,给出邮件的合法属性和非法属性的概念,并提出一种新的分类算法--基于邮件合法属性和非法属性的分类算法(SEASF:Simple and Efficient Algorithm to Spam Filter based on legitimate attribute and nonlicet attribute)。SEASF计算复杂度较低,可适用于大规模场合及邮件的在线过滤。将SEASF算法应用于垃圾邮件过滤的结果表明,该算法可大幅度提高分类精度,分类速度也令人满意。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号