首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于链接分析自动侦测Spam页面,提出了一个分阶段机制.采用决策树和链接分析模型对Wikipedia中的所有节点进行Indegree和Outdegree检测,从而产生出一个候选列表,并引入一个启发算法来降低第一类型的错误.设计一个分类器用于分类候选列表,采用TrustRank和SpamRank算法分别从信任种子集和Spam种子集中推算系统页面各自可信概率和Spam概率,从而减少第二类型的错误.然后将产生的候选集合推送至页面编辑,根据编辑判断的结果反馈训练模型,调整权重.结果表明,分阶段侦测模型可自动地侦测Spam页面,其查准率和查全率分别达到78.3%和94%.  相似文献   

2.
在深入研究网络信息采集技术的基础上,提出一个基于Web结构的新闻采集模型。该模型加载采集入口地址后,通过信息采集和过滤算法确定新闻列表页,结合正则表达式技术自动识别新闻内容页的链接地址,访问目标新闻内容页,使用采集算法自动提取新闻信息数据。同时,它可以过滤在此页面中嵌入的广告等信息。实践结果表明,该模型工作良好,可以自动化、高效率地采集新闻信息。  相似文献   

3.
挖掘高效用项集已成为关联分析中的热点问题之一.多数高效用项集挖掘算法需要产生大量的候选项集,影响了算法性能.HUI-Miner是一个不需要产生候选项集就能发现事务数据库中所有高效用项集的算法.但其需要产生大量效用列表,不仅消耗了过多的存储空间,而且影响了算法的运行性能.针对此问题,提出一个新的数据结构,称为项集列表,用于存储事务和项的效用信息.提出3种剪枝策略,减少项集列表的数量,通过扫描一次事务数据库完成所有项集列表的构建.提出算法MHUI,直接从项集列表中挖掘所有的高效用项集而不产生任何候选项集.在3个不同的稀疏数据集上和最新的算法进行对比实验证明,MHUI算法的运行时间和内存消耗优于其他算法.  相似文献   

4.
针对低信噪比下认知无线电中采用能量检测(ED)的频谱感知方法错误概率较大的问题,提出了一种采用广义随机共振的改进的能量检测(IED)算法。该算法首先对接收信号添加一个直流分量,并借助偏移系数确定直流分量的最优幅值,使其与信号中的直流产生广义随机共振;其次,对共振后的信号进行采样和能量累加得到检测统计量,然后根据最小平均错误概率准则确定最佳检测门限并与检测统计量进行比较从而做出判决;最后,从错误概率、样本检测点数和算法复杂度等几个方面给出算法的性能分析。理论推导和仿真结果表明:在信噪比为-15dB的低信噪比条件下,IED算法的错误概率性能比传统的ED算法提升了约3dB;在相同的错误概率条件下,IED算法所需的检测样本点数比ED算法显著减少。  相似文献   

5.
一种实时有效的蜂群模式挖掘算法   总被引:1,自引:0,他引:1  
针对实时相关运动模式挖掘应用的需求,提出了一种实时地发现关闭蜂群模式的簇重组算法(CLUR).该算法维护一个候选蜂群模式列表,在每个时间戳采用基于密度的聚类算法对移动目标进行聚类,根据聚类结果组合所有的最大移动目标集,记录相应的时间集,然后构建候选蜂群模式,并更新到候选列表.算法给出了三种更新规则和一种插入规则,用于实现候选蜂群模式列表的更新,同时降低了候选列表的冗余度,提高了算法的效率.在每个时间戳结束时可通过关闭检测规则实时地发现当前时刻的关闭蜂群模式.在合成数据上的综合实验验证了CLUR算法的正确性、实时性和高效性,CLUR算法适用于实时相关运动模式挖掘系统.  相似文献   

6.
本文针对目前主流的PageRank算法,集中研究了该算法的形成思路、计算方法,并分析该算法在独立网站、包含索引页面、入站链接和出站链接等几种模型下的效果,提出了相应的优化策略。从而有效指导网站链接结构优化,有组织,有规划地提高网页在搜索结果中的排名,避免盲目处理造成的混乱结果。实验证明了所提出优化策略的有效性。  相似文献   

7.
本文在简单阐述了Rootkit隐藏的机制后,提出了一种侦测Rootkit隐藏的算法。最后演示了直接遍历内核活动进程列表(ActiveProcessList)和内核调度者ETHREAD列表来侦测隐藏的Rootkit。该方法还能通过遍历内核的PsLoadedModuleList来侦测出通过挂钩本机API函数ZwQuerySystemInformationy隐藏的内核模块和内核驱动。  相似文献   

8.
在基于压缩感知的正交匹配追踪算法中,候选集原子的选取对最终的重建性能至关重要.文中结合前向预测和回溯两种策略更新候选原子集,提出了一种基于预测与回溯的正交匹配追踪(LABOMP)算法.该算法通过设定阈值将所有迭代划分为前后期,在迭代前期,通过预测原子在未来迭代中的性能选择最佳原子;在迭代后期,加入回溯策略,每两次迭代淘汰一个前面错误选择的原子.实验结果表明:LABOMP算法是实用有效的,由于加入回溯策略修正了预测算法LAOMP的不足,使迭代后期高斯稀疏信号与二值稀疏信号的精确重建概率较LAOMP算法分别平均提高了12.5%、18.2%.  相似文献   

9.
基于网页分块的Shark-Search算法   总被引:1,自引:0,他引:1  
Shark-Search算法是一个经典的主题爬取算法. 针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题, 提出了基于网页分块的Shark-Search算法, 该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤. 实验证明, 改进的Shark-Search算法比传统的Shark-Search算法在查准率和信息量总和上有了质的提高.  相似文献   

10.
主题蜘蛛的设计与实现   总被引:1,自引:0,他引:1  
针对多媒体资源在网上的分布特点,采用链接类型过滤、网页内容过滤、链接内容过滤三层过滤和临时页面存储、目标页面存储、中间链接存储、更新存储四层存储机制,设计并实现了一个对包含多媒体资源(音频、视频和Flash动画)的网页进行搜集的主题蜘蛛.实验结果显示,该主题蜘蛛能有效提高查准率.  相似文献   

11.
行人微观仿真技术已经成为地铁站等行人密集场所方案评价和疏散评估的主要研究手段.社会力模型从受力角度进行建模,可得到行人的运动状态和受力状态,不引入复杂的判断规则即能得到丰富的自组织现象.文中针对该模型存在的算法复杂度高和物理粒子运动盲目性的问题,引入分子动力学的Gear预测校正法和链接列表元胞算法,基于Agent感知-决策建模方法,构建了改进模型及其面向对象的编程实现框架.采用椭圆形的行人形体描述方法,标定了行人形体、运动及模型参数,设计了密度扫描转向、变作用强度及碰撞预测规避等行人Agent交互方法及算法,在VC++2008平台实现了改进模型并进行地铁站通道的单、双向仿真.结果显示链接列表元胞法可以明显减少仿真时间,模型可较好地实现自动渠化,与车站调研得到的通道客流密度-流量关系吻合.  相似文献   

12.
了解用户的行为与特征对网站的设计与维护非常重要,分析网站日志可有效获取Web的访问信息.提出一种利用对网站日志文件的分析实现Web用户分类的新算法.首先对日志文件进行数据筛选及事务识别,构建出一个链接网络图;然后利用页面之间的链接关系定义评估页面之间相似性的新指标,合并相似的页面,形成一个压缩链接图;使用FDOD对链接图中的链接路径进行分类.实验表明,该分类算法具有易于使用、响应迅速以及准确性高等优点。  相似文献   

13.
为得到非置换流水车间更好的调度方案,考虑到缓冲区、机器可用性约束和序列相关换模时间,以最小化最大完工时间为目标,建立数学模型和析取图模型,构造了一种面向NPFS的列表启发式算法.算法通过允许列表和候选列表记录启发式过程信息,采用量子蚁群和SPT启发式规则搜索并选择析取边的可行移动方案,得到一个没有冲突的有向非循环图.通过正交试验法验证了算法关键参数,实例验证了算法求解和CPLEX的精确解相同.同时采用8组Demirkol测试问题,与MHD-ACS和ACO算法比较评估,验证了算法的有效性和鲁棒性.  相似文献   

14.
为了提高政务领域实体链接任务的准确率,降低响应时间,提出了一种基于伪孪生网络的实体链接模型.模型通过伪孪生网络框架解耦问句和候选实体的特征提取过程,并预先计算候选实体的向量表示,显著地提高了模型在大规模数据集上的性能.同时,通过引入候选实体在知识图谱中的上下文信息,增强实体链接模型的语义匹配能力,从而提高链接准确率.实...  相似文献   

15.
企业外网应用系统作为企业面向社会和外部企业运营的通道,在提高企业运营效率的同时面临着来自互联网安全危险。因此研究实时在线信息安全评估与分析具有很重要的作用。本文结合企业互联网应用系统面临的信息安全现状,研究基于强化学习的WEB信息抓取RLC模型,通过模型来完成WEB页面结构化、页面特征提取、链接特征抽取等任务,同时利用综合回报评价模型中的Q值评价算法评价链接的接口相关度,根据该接口相关度数值进行WEB信息抓取对象选择,为WEB信息抓取提供最优选择策略,减少对无效页面检测的次数,从而提高整体安全检测效率。  相似文献   

16.
基于扩展标记树,提出了一种从中心网页中自动抽取主题网页链接的方法。首先构建链接有序表,利用链接前缀树发现主题网页链接拒绝规则,实现对网页链接类型的预判定;其次,通过分组分割和相似分组重新合并,把页面中的链接归入到不同分组之中,进而识别分组的类型和核心区域所在的分组,最终把链接归入三类链接集合之中。实验结果表明该方法无需训练即可实现中心网页中主题网页链接的高精度抽取。  相似文献   

17.
研究了带有位置信息的2-garm音节模型,根据音节切分后前后音节的位置信息和同现概率来判断非词错误,再根据最短编辑距离和、viterbi算法来提供候选词.根据2元单词模型,对输入文本以句子为单位,从判断前后2元单词的同现概率来判断真词错误,并提供候选词.  相似文献   

18.
针对译文后编辑中的过度修正问题, 提出利用神经网络自动后编辑方法, 训练专门用于提供少量复合编辑修正和单一编辑类型修正的神经网络后编辑模型。在此基础上, 通过建立一个基于翻译质量估计的译文筛选算法, 将提出的模型与常规的神经网络自动后编辑模型进行联合。在WMT16自动后编辑任务测试集上的实验结果表明, 与基准系统相比, 所提方法显著提高了机器译文的翻译质量, 实验分析也表明该方法能有效地处理过度修正造成的译文质量下降问题。  相似文献   

19.
基于URL类型优先级的入口页面查询算法   总被引:1,自引:0,他引:1  
入口页面(主页)查询结果只有一个,并且用户的查询词常常是简短的页面名称,由于它要求更高的精准度,一般认为是较为困难的. 依据语言模型分析,挖掘出对中文入口页面(entry page)检索有意义的查询域作为基准检索的内容域,同时考虑到非内容网页优先级(URL type等)特征的重要性,建立综合内容域和非内容网页特征的检索模型. 通过URL类型优先级(URL type prior)的概率统计,发现入口页面和其相关的子页面之间存在比较大的联系. 据此提出基于相关子页面的入口页面提取算法PERS(page extracted from relevant sub page). 对比实验数据表明,PERS算法对检索的性能有较大提高.  相似文献   

20.
Web结构挖掘算法探讨   总被引:15,自引:0,他引:15  
在分析Web结构挖掘现有算法的基础上,重点研究了HITS(Hyperlink—InducedTopic Search)算法。Hub页面的多主题性、无关页面和无关链接等对于HITS算法有较大影响。针对这些问题,提出了HITS算法的改进算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号