首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
基于链接分析自动侦测Spam页面,提出了一个分阶段机制。采用决策树和链接分析模型对Wikipedia中的所有节点进行Indegree和Outdegree检测,从而产生出一个候选列表,并引入一个启发算法来降低第一类型的错误。设计一个分类器用于分类候选列表,采用TrustRank和SpamRank算法分别从信任种子集和Spam种子集中推算系统页面各自可信概率和Spam概率,从而减少第二类型的错误。然后将产生的候选集合推送至页面编辑,根据编辑判断的结果反馈训练模型,调整权重。结果表明,分阶段侦测模型可自动地侦测Spam页面,其查准率和查全率分别达到78.3%和94%。  相似文献   

2.
在深入研究网络信息采集技术的基础上,提出一个基于Web结构的新闻采集模型。该模型加载采集入口地址后,通过信息采集和过滤算法确定新闻列表页,结合正则表达式技术自动识别新闻内容页的链接地址,访问目标新闻内容页,使用采集算法自动提取新闻信息数据。同时,它可以过滤在此页面中嵌入的广告等信息。实践结果表明,该模型工作良好,可以自动化、高效率地采集新闻信息。  相似文献   

3.
挖掘高效用项集已成为关联分析中的热点问题之一.多数高效用项集挖掘算法需要产生大量的候选项集,影响了算法性能.HUI-Miner是一个不需要产生候选项集就能发现事务数据库中所有高效用项集的算法.但其需要产生大量效用列表,不仅消耗了过多的存储空间,而且影响了算法的运行性能.针对此问题,提出一个新的数据结构,称为项集列表,用于存储事务和项的效用信息.提出3种剪枝策略,减少项集列表的数量,通过扫描一次事务数据库完成所有项集列表的构建.提出算法MHUI,直接从项集列表中挖掘所有的高效用项集而不产生任何候选项集.在3个不同的稀疏数据集上和最新的算法进行对比实验证明,MHUI算法的运行时间和内存消耗优于其他算法.  相似文献   

4.
一种实时有效的蜂群模式挖掘算法   总被引:1,自引:0,他引:1  
针对实时相关运动模式挖掘应用的需求,提出了一种实时地发现关闭蜂群模式的簇重组算法(CLUR).该算法维护一个候选蜂群模式列表,在每个时间戳采用基于密度的聚类算法对移动目标进行聚类,根据聚类结果组合所有的最大移动目标集,记录相应的时间集,然后构建候选蜂群模式,并更新到候选列表.算法给出了三种更新规则和一种插入规则,用于实现候选蜂群模式列表的更新,同时降低了候选列表的冗余度,提高了算法的效率.在每个时间戳结束时可通过关闭检测规则实时地发现当前时刻的关闭蜂群模式.在合成数据上的综合实验验证了CLUR算法的正确性、实时性和高效性,CLUR算法适用于实时相关运动模式挖掘系统.  相似文献   

5.
文章在ACS算法使用的最近邻候选列表的基础上,应用受限生成思想,设计了一种半动态的候选列表生成机制,使得蚁群对于所求解问题产生一定程度的记忆与环境识别能力;运用该方法改进了基本蚁群算法,优化了AS算法的搜索过程;同时,通过仿真实验对比具有半动态候选列表的AS算法与AS算法在计算TSP问题时的结果,验证了算法优化的有效性.  相似文献   

6.
基于网页分块的Shark-Search算法   总被引:1,自引:0,他引:1  
Shark-Search算法是一个经典的主题爬取算法. 针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题, 提出了基于网页分块的Shark-Search算法, 该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤. 实验证明, 改进的Shark-Search算法比传统的Shark-Search算法在查准率和信息量总和上有了质的提高.  相似文献   

7.
一种个性化的主题提取和层次发现算法   总被引:3,自引:0,他引:3  
从语义相关性角度分析超链归纳主题搜索(HITS) 算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,因此提出了一种个性化的主题提取和层次发现算法(PTDHE),通过个人查询日志扩展查询词,构造符合用户需要的个性化根集和基础集合,达到防止主题漂移的目的.PTDHE采用基于最小最大原则的图划分方法,层次地发现与用户查询相关的主题页面集合,利用HITS算法分别计算每个主题页面集合中页面的权威值,返回与查询相关的其他主题权威页面.在14个查询上的实验结果表明,与HITS算法相比,PTDHE算法不仅可以减少2%~66%的主题漂移率,而且可以发现与查询相关的多个主题.  相似文献   

8.
行人微观仿真技术已经成为地铁站等行人密集场所方案评价和疏散评估的主要研究手段.社会力模型从受力角度进行建模,可得到行人的运动状态和受力状态,不引入复杂的判断规则即能得到丰富的自组织现象.文中针对该模型存在的算法复杂度高和物理粒子运动盲目性的问题,引入分子动力学的Gear预测校正法和链接列表元胞算法,基于Agent感知-决策建模方法,构建了改进模型及其面向对象的编程实现框架.采用椭圆形的行人形体描述方法,标定了行人形体、运动及模型参数,设计了密度扫描转向、变作用强度及碰撞预测规避等行人Agent交互方法及算法,在VC++2008平台实现了改进模型并进行地铁站通道的单、双向仿真.结果显示链接列表元胞法可以明显减少仿真时间,模型可较好地实现自动渠化,与车站调研得到的通道客流密度-流量关系吻合.  相似文献   

9.
主题蜘蛛的设计与实现   总被引:1,自引:0,他引:1  
针对多媒体资源在网上的分布特点,采用链接类型过滤、网页内容过滤、链接内容过滤三层过滤和临时页面存储、目标页面存储、中间链接存储、更新存储四层存储机制,设计并实现了一个对包含多媒体资源(音频、视频和Flash动画)的网页进行搜集的主题蜘蛛.实验结果显示,该主题蜘蛛能有效提高查准率.  相似文献   

10.
为了提高政务领域实体链接任务的准确率,降低响应时间,提出了一种基于伪孪生网络的实体链接模型.模型通过伪孪生网络框架解耦问句和候选实体的特征提取过程,并预先计算候选实体的向量表示,显著地提高了模型在大规模数据集上的性能.同时,通过引入候选实体在知识图谱中的上下文信息,增强实体链接模型的语义匹配能力,从而提高链接准确率.实...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号