首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
王福海 《科技信息》2011,(15):J0077-J0077,J0227
对通用搜索引擎中的PageRank排序算法进行分析,针对原PageRank算法中主题漂移问题,提出一种与主题相关的改进算法,改进的PageRank值由链接重要性和内容重要性共同确定。  相似文献   

2.
HITS是Web结构挖掘代表算法之一.HITS算法仅考虑页面之间的链接关系,容易出现主题偏移现象.文中分析了用户历史行为与兴趣之间的关系,从四个方面近似计算用户兴趣度.提出了基于用户兴趣度的改进HITS算法(HC-HITS),对比实验结果表明HC-HITS算法减少了主题漂移现象,取得较好的效果.  相似文献   

3.
基于链接聚类的Shark-Search算法   总被引:1,自引:0,他引:1  
根据对Shark-Search主题爬取算法的分析,提出了一种基于链接聚类的改进Shark-Search算法. 并通过几个对比实验对该算法进行了验证. 实验结果表明,新算法能够更有效地识别链接与主题的相关性.  相似文献   

4.
在基于链接分析的排序算法PageRank分析基础上,提出了一种基于主题相关性和链接权重的Page-Rank改进算法.该方法首先随机选取任一链出页面,通过主题相关性评价算法获得改进的PageRank值,并重新排序.实验结果显示该算法提高了查询速度、查询准确率,并且算法具有良好的稳定性和可扩展性.  相似文献   

5.
基于网页分块的Shark-Search算法   总被引:1,自引:0,他引:1  
Shark-Search算法是一个经典的主题爬取算法. 针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题, 提出了基于网页分块的Shark-Search算法, 该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤. 实验证明, 改进的Shark-Search算法比传统的Shark-Search算法在查准率和信息量总和上有了质的提高.  相似文献   

6.
目前困扰查询扩展的主要问题是主题漂移.为了降低主题漂移对查询扩展优化的影响,提出了一种基于任务上下文信息的查询扩展方法,旨在通过任务上下文中的信息来选择合适的查询扩展词添加到查询中,使得查询的结果更加精确.实验结果表明,该方法有效降低了主题漂移对查询扩展精度的影响.  相似文献   

7.
针对垂直数据分布数据库FP-tree生长基本算法中存在的链接点表空间随问题规模线性增加的问题提出一种改进算法.采用定长的链接点表进行分段扫描,在空间需求恒定的前提下构造FP-tree.证明了改进算法与基本算法构造的FP-tree是同构的.实验与分析结果表明,当应用于同一数据集时,改进算法所需空间恒定.  相似文献   

8.
该文对一种基于Henon映射的快速图像加密算法进行了分析,指出该算法存在明文敏感性不足和像素点逐个处理的问题.进而提出了一种改进的图像加密算法.改进算法将原算法的单点链接方式变成双点链接方式,从而获得了更好的扩散效果和更高的计算效率.实验仿真结果表明,改进的算法在安全性和加解密速度方面均有更好的表现.  相似文献   

9.
针对目标周围的背景信息对目标跟踪算法的影响,基于判别式序列表提出了一种改进的均值漂移目标跟踪算法.利用目标外观特征来描述目标模型与候选目标,同时通过判别式序列表对目标外观建模并对目标周围的背景信息进行描述.基于均值漂移跟踪框架,把目标外观模型与判别式序列表目标外观模型相结合来改进传统的均值漂移跟踪算法.在几个图像序列上...  相似文献   

10.
针对铁路沿线护栏的检测问题,提出了一种改进的均值漂移算法。首先,从阈值分割算法入手,得到铁路防护栏网格区域的颜色范围;然后,基于均值漂移算法对其进行图像平滑和分割;再针对产生的过分割图像,采用基于最小面积的合并停止准则来进行区域合并;最后进行网格提取。实例验证表明:改进的均值漂移算法的效果优于传统的均值漂移算法。  相似文献   

11.
搜索引擎垃圾网页的检测已经成为近年来机器学习领域的研究热点.在对搜索引擎垃圾网页及其使用的各种作弊技术进行介绍的基础上,针对各种垃圾网页检测模型进行综述,分别介绍和分析基于网页内容特征的检测模型、基于链接结构的检测模型、结合网页内容特征和链接特征的检测模型以及各种其它类型的检测模型,并对搜索引擎垃圾网页检测的未来研究方...  相似文献   

12.
搜索引擎垃圾网页检测模型研究   总被引:1,自引:0,他引:1  
搜索引擎垃圾网页的检测已经成为近年来机器学习领域的研究热点.在对搜索引擎垃圾网页及其使用的各种作弊技术进行介绍的基础上,针对各种垃圾网页检测模型进行综述,分别介绍和分析基于网页内容特征的检测模型、基于链接结构的检测模型、结合网页内容特征和链接特征的检测模型以及各种其它类型的检测模型,并对搜索引擎垃圾网页检测的未来研究方向进行了展望.  相似文献   

13.
垃圾邮件的概念漂移及过滤技术研究   总被引:1,自引:0,他引:1  
提出了双级别的概念漂移检测算法,监视已有的垃圾邮件过滤模型在对邮件分类时是否产生了持续的分类错误,进而对概念漂移进行识别。针对由用户偏好引起的垃圾邮件概念范畴变化,基于本体提出邮件数字指纹与概念子类别之间的关联强度和隶属度算法。通过对比实验,验证了所提方法在垃圾邮件概念漂移问题上的有效性。  相似文献   

14.
垃圾邮件的改进贝叶斯过滤算法   总被引:1,自引:0,他引:1  
在研究贝叶斯过滤算法原理和实现方法的基础上,将垃圾邮件的先验概率由常数改进为实际概率,改进了token的选取范围和选取规则,在检测内容上增加url和图片。最后设计了一个基于改进贝叶斯过滤算法的垃圾邮件过滤器。实验结果表明,这种改进的贝叶斯过滤算法在垃圾邮件过滤中有良好的应用效果。  相似文献   

15.
基于随机森林的文本分类模型研究   总被引:1,自引:1,他引:1  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造. 当森林中决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明,分类效果比较好,性能比较稳定,将其同C4.5, KNN, SM0, SVM 4种典型的文本分类器进行了比较,结果显示它的分类性能胜于C4.5,同KNN, SMO和SVM方法相当.  相似文献   

16.
基于多视角特征融合的中文垃圾微博过滤   总被引:1,自引:0,他引:1  
微博中隐含着舆论热点等与特定话题相关的有价值的信息。因此,针对微博数据分析(如话题发现等)的工作成了当前的研究热点。由于微博内容和形式的高度自由,使得相关的研究工作面临着垃圾数据噪声大、有用数据提取难的问题。然而,目前针对非公共话题的中文垃圾微博过滤尚无有效方法。提出一种基于多视角特征融合的垃圾微博过滤方法。该方法首先从微博的结构和内容两个视角建立规则,再与微博文本分词结果进行融合构造复合特征,并以此对垃圾微博进行过滤。通过在真实数据集上的实验表明多视角融合的特征使得过滤效果有明显提升。  相似文献   

17.
基于用户反馈和增量学习的垃圾邮件识别方法   总被引:1,自引:0,他引:1  
为了提高垃圾邮件识别的准确度,减少识别中的错判,提出了一种交互式垃圾邮件识别方法。该方法用一组具有特定权重的规则识别垃圾邮件,规则权重分布用改进遗传算法训练得到。增加用户与服务器间的交互,收集用户反馈的错判信息,根据反馈信息用增量学习动态调整规则权重。通过对SpamA ssass in扩展实现了该方法,并应用在邮件服务器上进行了测试。实验中在不影响垃圾邮件识别率的前提下,降低误判率约10%。实验结果表明:该方法不但能有效减少识别中的误判,而且避免了繁琐的重新训练,加快了规则权重的更新速度。  相似文献   

18.
为了提高电子邮件中垃圾邮件的过滤准确率和效率,以朴素贝叶斯算法和K最近邻(KNN:K-Nearest Neighbors)算法为基础,对传统垃圾邮件过滤算法进行改进,给出邮件的合法属性和非法属性的概念,并提出一种新的分类算法--基于邮件合法属性和非法属性的分类算法(SEASF:Simple and Efficient Algorithm to Spam Filter based on legitimate attribute and nonlicet attribute)。SEASF计算复杂度较低,可适用于大规模场合及邮件的在线过滤。将SEASF算法应用于垃圾邮件过滤的结果表明,该算法可大幅度提高分类精度,分类速度也令人满意。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号