首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 234 毫秒
1.
为了快速、有效地对垃圾网页进行识别,提出了一种基于云计算平台的垃圾网页识别方案.在Hadoop分布式平台下构建一个基于页面内容和连接结构的支持向量机分类器,对垃圾网页进行识别,通过对数据进行分析.结果表明:垃圾网页的识别准确率较高,处理时间随着集群节点数的增加而明显减少.  相似文献   

2.
搜索引擎垃圾网页检测模型研究   总被引:1,自引:0,他引:1  
搜索引擎垃圾网页的检测已经成为近年来机器学习领域的研究热点.在对搜索引擎垃圾网页及其使用的各种作弊技术进行介绍的基础上,针对各种垃圾网页检测模型进行综述,分别介绍和分析基于网页内容特征的检测模型、基于链接结构的检测模型、结合网页内容特征和链接特征的检测模型以及各种其它类型的检测模型,并对搜索引擎垃圾网页检测的未来研究方向进行了展望.  相似文献   

3.
搜索引擎垃圾网页的检测已经成为近年来机器学习领域的研究热点.在对搜索引擎垃圾网页及其使用的各种作弊技术进行介绍的基础上,针对各种垃圾网页检测模型进行综述,分别介绍和分析基于网页内容特征的检测模型、基于链接结构的检测模型、结合网页内容特征和链接特征的检测模型以及各种其它类型的检测模型,并对搜索引擎垃圾网页检测的未来研究方...  相似文献   

4.
基于SVM-RFE的钓鱼网页检测方法研究   总被引:1,自引:0,他引:1  
针对现有钓鱼网页检测方法存在的不足,基于后向选择算法,在信息获取、特征提取、分类器训练及检测疑似网络钓鱼网页等过程进行了优化.根据特征之间的相互关系划分等级空间,借助支持向量机回归特征消除的思想,提出了基于支持向量机的回归特征消除(SVM-RFE)对钓鱼网页进行检测的思路,设计出一种改进的钓鱼网页检测方法.最后对比不同特征维度在漏报率、误报率、识别率方面的差异,分析检测的有效性.实验结果表明:实际应用中可通过该方法准确有效地选定最优特征.  相似文献   

5.
网页分类需要使用标记网页对分类算法进行训练,然而,对网页进行标记的过程既费时又费力.随着web的快速发展,获得未标记网页已经变得相对容易.为了有效地利用未标记网页来提高网页分类的性能,提出了一种基于集成学习的网页分类算法,迭代运行支持向量机、中心分类器和朴素贝叶斯分类器,并对各分类器的预测进行集成,不断地从未标记集中对网页进行标记后用于训练.实验结果表明.提出的算法有效地提高了网页分类的性能.  相似文献   

6.
提出了中文网页相关链接提取算法,能够较好地抽取出中文网页中的相关链接,算法的时间复杂性低,准确率和召回率都令人满意.基于向量空间模型,采用KNN对中文网页进行分类,比较了基于网页标题分类、基于网页正文分类,以及将正文与相关链接结合分类、将标题与相关链接结合分类的分类效果,印证了中文网页中相关链接对网页分类具有积极影响的...  相似文献   

7.
针对垃圾信息过滤的问题,提出了一种基于支持向量机(SVM)算法的垃圾信息过滤方法. 利用文本分类和信息检索领域所常用的性能评价指标,建立了垃圾信息过滤的评价体系,针对仿真实验获得的实验数据,利用所建立的垃圾信息过滤评价体系对实验数据评价结果,选取了适合的核函数及其参数,构建了SVM分类器,同时也通过仿真实验和评价体系对SVM分类器和传统贝叶斯分类器进行了测试和评估. 结果表明,基于SVM算法的分类器提高了信息过滤的准确性,同时也验证了SVM算法在垃圾信息过滤中的有效性.   相似文献   

8.
一种网络入侵检测特征提取方法   总被引:2,自引:0,他引:2  
为了去除冗余特征,降低系统存储和运算负担,提高网络入侵检测分类器的性能,文中提出了一种基于Fisher分和支持向量机的网络入侵检测特征提取方法.针对KDD′99网络入侵检测数据集,应用该方法得到了混合攻击和4种单一攻击模式下的特征重要度排序,选取重要特征建立支持向量机入侵检测分类器.结果表明,该分类器精度与使用全部特征构建的支持向量机分类器相当,训练和测试时间则显著降低.  相似文献   

9.
文章提出了一个新的新闻网页分类方法(WPCM),采用主成分(PCA)和熵值相结合的特征选取支持向量机(SVM)的分类方法.首先把网页用特征项权重予以表示,使用主成分方法抽取最相关的一些特征,然后从每一类中选择在该类具有代表性的词并计算这些词的熵,把两种方法提取的特征合并之后作为支持向量机分类器的输入,实验结果显示,该网页分类方法在体育类新闻中取得了良好的效果。  相似文献   

10.
针对微博多类垃圾用户的检测问题,设计了一种基于模糊多类支持向量机的垃圾用户检测方法。首先,采用一对多SVM(support vector machines)的构造思想来构造多分类器,并针对每类用户的分类器重新选择训练集;然后,利用构造好的训练集来训练多分类器,经过反复调整参数,得到5个用户分类器;最后,针对多分类器的不可分样本,采用模糊聚类来进行模糊处理,即在垂直于SVM的最优分类面上定义一个改进的隶属度函数,选择最大隶属度对样本进行再分类。实验结果表明,该方法在保证垃圾用户检测效果的前提下,可以解决多分类中存在的混分和漏分问题。  相似文献   

11.
网页作弊与反作弊技术综述   总被引:1,自引:0,他引:1  
随着网络信息爆炸式的增长,搜索引擎成为人们首选的获取信息的主要途径。能否在搜索引擎的排名中占有比较靠前的位置,将在一定程度上决定网页的访问量。一些网站并不是通过提高网页质量来提高其在搜索引擎中的排名,而是根据搜索引擎自身的特点,采用欺骗手段来提高排名,这就是网页作弊。网页作弊是搜索引擎面临的重大挑战之一。本文将结合常见的网页作弊的方法,阐述当前已经存在的比较有效的反作弊技术。  相似文献   

12.
Web spamming是指故意误导搜索引擎的行为,它使得一些页面的排序值比它的应有值更高。最近几年,随着webspam的急剧增加,使得搜索引擎的搜索结果也降低了一些等级。文章首先讨论了Spam的基本概念和影响,然后详细地分析了当前的各种Spamming技术,包括termspaming、link spamming和隐藏技术三种类型。我们相信本文的分析对于开发恰当的反措施是非常有用的。  相似文献   

13.
一种基于后缀树的中文网页层次聚类方法   总被引:1,自引:3,他引:1  
为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比。聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。  相似文献   

14.
当前主流的搜索引擎根据查询词在网页中的出现频率,辅以网页权威性等信息,生成查询结果.但用户提供的查询词往往非常简单,因此搜索引擎难以确定用户的查询意图.为此,给出了一种利用海量clickthrough数据进行网页内容相关性挖掘的方法,在此基础上给出了一种反馈式搜索引擎(FSE)框架及相关算法.FSE根据网页相关性动态生成查询结果,以期提供给用户更中肯和个性化的信息.基于真实点击数据,进行了网页相关性矩阵的压缩实验和有效性实验,证明了该框架的可行性.  相似文献   

15.
针对元搜索的重复网页问题,提出基于元搜索的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的结果网页的URL进行比较,然后对各结果网页的标题进行有关处理,提取出网页的主题信息,再对摘要进行分词,计算摘要的相似度,三者结合能很好的检测出重复网页,实现网页去重。该算法有效,并且比以往算法有明显的优势,更接近人工统计结果。  相似文献   

16.
智能桌面元搜索引擎中个性化研究   总被引:1,自引:0,他引:1  
随着WWW信息量的急剧膨胀,当前的搜索引擎已经不能够很好的满足人们信息搜索的需求,元搜索引擎作为下一代功能更强大、更具智能的方案而成为当前的研究热点.本文针对桌面搜索引擎易于获得单个用户个性化信息的特点,提出了个性化桌面元搜索引擎的解决方案,从它的体系结构到局部的技术难点都作了详细描述,同时最后给出总结和展望.  相似文献   

17.
垃圾邮件的概念漂移及过滤技术研究   总被引:1,自引:0,他引:1  
提出了双级别的概念漂移检测算法,监视已有的垃圾邮件过滤模型在对邮件分类时是否产生了持续的分类错误,进而对概念漂移进行识别。针对由用户偏好引起的垃圾邮件概念范畴变化,基于本体提出邮件数字指纹与概念子类别之间的关联强度和隶属度算法。通过对比实验,验证了所提方法在垃圾邮件概念漂移问题上的有效性。  相似文献   

18.
提出在Linux系统上以Postfix为SMTP服务器、CYRUS为POP/IMAP服务器、A-PACHE为WEB服务器和MYSQL为后台数据库构建一个支持大量用户的邮件系统的方案,并实现其Web Mail系统.在贝叶斯方法的基础上,设计出一个电子邮件过滤器,并给出实现的系统结构.针对日益泛滥的邮件病毒问题,提出一套可行的病毒防护方案.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号