首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
可在线增量自学习的聚焦爬行方法   总被引:9,自引:0,他引:9  
将Web爬行看作执行序列动作的过程,结合改进的快速Q学习和半监督贝叶斯分类器,提出一种新的具有在线增量自学习能力的聚焦爬行方法.该方法从获取的页面中抽取特征文本,根据特征文本评估页面的主题相关性,预测链接的Q值,然后基于Q值过滤无关链接.当得到主题相关页面时产生回报,将回报沿链接链路反馈,更新链路上所有链接的Q值,并选择相应的特征文本作为训练样本,增量地改善主题评估器和Q值预测器.实验结果表明,该方法具有很快的自学习能力,获取的页面数目和精度均优于离线聚焦爬行方法,更符合Web资源发现的要求.  相似文献   

2.
基于网页分块的Shark-Search算法   总被引:1,自引:0,他引:1  
Shark-Search算法是一个经典的主题爬取算法. 针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题, 提出了基于网页分块的Shark-Search算法, 该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤. 实验证明, 改进的Shark-Search算法比传统的Shark-Search算法在查准率和信息量总和上有了质的提高.  相似文献   

3.
网页之间的链接为Web数据挖掘提供了丰富信息,通过链接关系来加强中文网页分类的效果.由于网页的编写存在随意性和不规范性,并非所有的链接页面与源页面都有主题相关性.通过比较页面与其链接页面的相似性,优选出相似度较高的链接子集,利用得分向量对基于内容的分类结果进行修正.基于北大天网数据集的实验结果表明,优选链接页面的分类方法对于训练样本较少的类别在分类精度上有一定的提高.  相似文献   

4.
针对页面中的大量动态链接,提出了模拟浏览器的解析方式进行页面链接的提取,并设计实现了基于JaveScript等多链接分析的主题爬虫系统.  相似文献   

5.
基于本体语义的定题爬虫   总被引:3,自引:0,他引:3  
定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性.  相似文献   

6.
通过对Flash资源网站页面特征的分析,本文提出Flash资源智能搜索系统的架构,定义了Flsh资源的"元数据结构",阐述了该系统的总体设计思想,着重分析了系统的一些关键技术及实现方法,如特征提取、主题式蜘蛛、Flash资源分类等,并对系统模块详细描述.  相似文献   

7.
从全局上限定采集范围可以有效地提高主题爬虫的查准率.结合Web链接分析和页面内容特征分析,提出了一种基于复杂网络局部社区发现的主题爬行方法,将主题爬行分为两个阶段,第一阶段采用复杂网络的局部社区发现算法进行Web链接分析,构建主题网站群,缩小爬行范围.在第二阶段,在限定的范围内,对爬取到的页面进行主题相似度判定,并对下一步的链接目标进行预测.实验证明,该方法显著提高了主题爬虫的查准率.  相似文献   

8.
新型颗粒层采用固定床连续过滤、流化床连续清灰工作方式,克服了现有颗粒层过滤过程中存在的颗粒间隙增大、颗粒错位等问题,改善了过滤装置的过滤性能.通过试验研究了颗粒层的清灰周期、过滤速度和过滤介质粒径等重要参数对颗粒层过滤分级效率的影响,得出洁净气流中灰尘粒径分布规律,并探讨了新型颗粒层过滤装置的低能耗、高效过滤的设计参数和运行参数.研究结果表明,选择合适粒径范围的过滤介质能达到较高的过滤效率和较低的床层阻力;调节清灰周期能灵活地改变颗粒层的过滤性能,满足各种工艺的过滤要求.  相似文献   

9.
时下盛行网页视频点播(VOD),视频内容良莠不齐.为保证未成年人的健康上网、安全上网,本文提出并设计了一个网络不良视频信息的过滤系统.该系统通过检测网页视频数据以及监控网页页面来过滤网络不良信息.仿真结果表明这个过滤系统可以较好地对网络不良视频信息进行过滤.  相似文献   

10.
面向读者信息需求的浏览空间   总被引:1,自引:0,他引:1  
提出面向读者信息需求的浏览空间 .该浏览空间是由基于读者的信息需求所生成的web页面构造的 ,并且web的信息显示方式和页面之间的链接都是以读者的逻辑思维为依据 .最后 ,给出实现面向读者信息需求的浏览空间的一个应用实例  相似文献   

11.
在深入研究网络信息采集技术的基础上,提出一个基于Web结构的新闻采集模型。该模型加载采集入口地址后,通过信息采集和过滤算法确定新闻列表页,结合正则表达式技术自动识别新闻内容页的链接地址,访问目标新闻内容页,使用采集算法自动提取新闻信息数据。同时,它可以过滤在此页面中嵌入的广告等信息。实践结果表明,该模型工作良好,可以自动化、高效率地采集新闻信息。  相似文献   

12.
介绍CSS滤镜的语法,对几种常用CSS滤镜的主要属性进行分析,并指出CSS滤镜可以像图像软件一样处理页面中的文字和图像,还可以通过利用脚本控制滤镜的参数来产生动态效果,同时结合Dreamweaver实例表明,运用CSS滤镜可以使网页更加生动.  相似文献   

13.
多媒体素材库是远程教学传统资源数字化的存储媒体,也是教师、学生的教学和学习资源中心.多媒体素材库必须有强大的多媒体信息存储、检索与管理功能.以全文检索技术为核心,结合多媒体数据库技术和流媒体技术建设而成的多媒体素材库检索精度和效率非常高.  相似文献   

14.
以FIR数字高通滤波器为例,详细分析时域卷积运算和频域加权算法的物理意义。并利用MATLAB的声音处理函数作为数据接口,利用多媒体播放器作为交互界面,利用MATLAB的FDA-Tool作为滤波器设计工具,设计一组语音高通滤波器,通过对比滤波前后的语音效果,可加深对数字信号处理的认识。  相似文献   

15.
Web上的信息量正以惊人的速度增加,人们迫切需要能自动地从Web上发现、抽取和过滤信息的工具,即如何从数以亿计的页面中发现需要的内容、如何从大量的访问中发现固有的模式和关联.马尔科夫模型的网页浏览预测,仅仅从用户的浏览网页本身出发,预测用户的下一步链接,并不能捕获到用户的真正兴趣.本文提出基于隐马尔科夫模型的网页浏览路径预测,并将其与基于马尔科夫模型的方法进行对比.根据已知的浏览序列判断用户的类别,当浏览序列长度很短时,本文方法的预测准确性比马尔科夫模型低.这是由于序列长度过短,系统获取判断的信息少,增加了对用户错误分类的可能性.随着浏览序列长度逐渐增加.系统捕获的用户浏览信息越来越多,进而能够折射出用户的兴趣所在.预测准确率也逐步增加.当浏览序列长度大于或等于8时,预测准确率已经到达80%.提高了浏览兴趣预测的准确率.  相似文献   

16.
为了提高多媒体虚拟面部残缺再生仿真的准确性,提出了一种基于多媒体虚拟的面部残缺再生三维仿真方法。利用粒子滤波估计算法,对面部残缺的方向和角度进行估计,从而为多媒体虚拟的面部残缺再生三维仿真提供依据。利用多媒体虚拟技术,对面部残缺再生三维进行有效的仿真分析。实验结果表明,利用该算法进行面部残缺再生三维仿真,能够真实地反映面部残缺不同位置之间的关联性,从而为面部残缺手术提供准确的决策依据。  相似文献   

17.
FIR数字滤波器设计可视化平台开发   总被引:4,自引:1,他引:3  
利用Matlab语言对FIR滤波器设计建立一个软件仿真平台,设计结果由时域特性图形及频谱图形表示,可任意修改各系统参数以研究滤波器特征,形象直观.给滤波器学习分析与研究提供一个软件平台,可作为多媒体教学辅助.  相似文献   

18.
教育资源类网页加密现象的存在,让普通教师无法下载获取心仪的网络多媒体教育资源,使丰富的网络教育资源不能有效普及、发挥其教育价值;本文在不用于商业目的前提下,从常见网页加密现象与技术分析入手,结合笔者实际工作经验,尝试总结、归纳出教育资源类加密网页的破解与资源下栽方法和技巧,以推进现代教育技术的普及应用.  相似文献   

19.
基于ISAPI过滤器的网页防篡改系统   总被引:1,自引:0,他引:1  
首先分析了几种常用网页防篡改技术的特点,然后提出并实现了一种基于ISAPI过滤器的网页防篡改系统.该网页防篡改系统可以高效地监控网页内容的变化,对于被篡改的网页文件能在其被用户访问之前自动加以恢复,使用该系统能方便网站的管理,并能帮助网站管理员及时地了解网站信息.  相似文献   

20.
Bloom filter是一个简单的空间效率极高的数据结构,用于判别一个元素是否属于某个集合.Weighted Bloom filter和Bloom filter已经被建议作为共享Web cache信息的一种方式.利用Bloom filter表示共享信息的内容,大大降低了用于存储索引的空间消耗,减少了访问延迟.因为在代理之间只需传输Bloom filter而不是完整的cache目录表.分别从理论和实践方面比较了Bloom filter和Weighted Bloom filter,结果证明Bloom filter比Weighted Bloom filter更好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号