首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 812 毫秒
1.
网页之间的链接为Web数据挖掘提供了丰富信息,通过链接关系来加强中文网页分类的效果.由于网页的编写存在随意性和不规范性,并非所有的链接页面与源页面都有主题相关性.通过比较页面与其链接页面的相似性,优选出相似度较高的链接子集,利用得分向量对基于内容的分类结果进行修正.基于北大天网数据集的实验结果表明,优选链接页面的分类方法对于训练样本较少的类别在分类精度上有一定的提高.  相似文献   

2.
了解用户的行为与特征对网站的设计与维护非常重要,分析网站日志可有效获取Web的访问信息.提出一种利用对网站日志文件的分析实现Web用户分类的新算法.首先对日志文件进行数据筛选及事务识别,构建出一个链接网络图;然后利用页面之间的链接关系定义评估页面之间相似性的新指标,合并相似的页面,形成一个压缩链接图;使用FDOD对链接图中的链接路径进行分类.实验表明,该分类算法具有易于使用、响应迅速以及准确性高等优点。  相似文献   

3.
基于海量数据挖掘的个性化推荐系统   总被引:1,自引:0,他引:1  
目的建立海量数据环境中具有个性化的推荐系统。方法在普通文献推荐系统的基础上,增加基于链接页面的Pagerank计算,从而更精确地表示查询页面相对于特定用户的查询价值。结果结合了基于页面内容的查询方法与基于链接的查询方法的优点。结论具有一定的研究价值,值得在未来的研究工作中加以完善。  相似文献   

4.
主题蜘蛛的设计与实现   总被引:1,自引:0,他引:1  
针对多媒体资源在网上的分布特点,采用链接类型过滤、网页内容过滤、链接内容过滤三层过滤和临时页面存储、目标页面存储、中间链接存储、更新存储四层存储机制,设计并实现了一个对包含多媒体资源(音频、视频和Flash动画)的网页进行搜集的主题蜘蛛.实验结果显示,该主题蜘蛛能有效提高查准率.  相似文献   

5.
基于网页分块的Shark-Search算法   总被引:1,自引:0,他引:1  
Shark-Search算法是一个经典的主题爬取算法. 针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题, 提出了基于网页分块的Shark-Search算法, 该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤. 实验证明, 改进的Shark-Search算法比传统的Shark-Search算法在查准率和信息量总和上有了质的提高.  相似文献   

6.
通过观察网站呈现网页的规律及网页本身的结构特点,提出基于URL类型及网页链接变化规律的入口页面识别算法,优先抓取入口页面.在实际应用中,取得了较好的更新效果.  相似文献   

7.
可在线增量自学习的聚焦爬行方法   总被引:9,自引:0,他引:9  
将Web爬行看作执行序列动作的过程,结合改进的快速Q学习和半监督贝叶斯分类器,提出一种新的具有在线增量自学习能力的聚焦爬行方法.该方法从获取的页面中抽取特征文本,根据特征文本评估页面的主题相关性,预测链接的Q值,然后基于Q值过滤无关链接.当得到主题相关页面时产生回报,将回报沿链接链路反馈,更新链路上所有链接的Q值,并选择相应的特征文本作为训练样本,增量地改善主题评估器和Q值预测器.实验结果表明,该方法具有很快的自学习能力,获取的页面数目和精度均优于离线聚焦爬行方法,更符合Web资源发现的要求.  相似文献   

8.
从全局上限定采集范围可以有效地提高主题爬虫的查准率.结合Web链接分析和页面内容特征分析,提出了一种基于复杂网络局部社区发现的主题爬行方法,将主题爬行分为两个阶段,第一阶段采用复杂网络的局部社区发现算法进行Web链接分析,构建主题网站群,缩小爬行范围.在第二阶段,在限定的范围内,对爬取到的页面进行主题相似度判定,并对下一步的链接目标进行预测.实验证明,该方法显著提高了主题爬虫的查准率.  相似文献   

9.
基于扩展标记树,提出了一种从中心网页中自动抽取主题网页链接的方法。首先构建链接有序表,利用链接前缀树发现主题网页链接拒绝规则,实现对网页链接类型的预判定;其次,通过分组分割和相似分组重新合并,把页面中的链接归入到不同分组之中,进而识别分组的类型和核心区域所在的分组,最终把链接归入三类链接集合之中。实验结果表明该方法无需训练即可实现中心网页中主题网页链接的高精度抽取。  相似文献   

10.
Web应用程序常常要面对并发问题.链接数或并发链接过多时,系统内部资源被大量消耗,不能及时释放,最终造成系统运行效率和页面访问速度大大降低.因此,要采取一种方式对数据库的链接访问进行优化,数据库链接池技术正是在对传统链接技术进行了详尽分析的基础上引入一种有效的优化方案.并介绍了此技术的特点、技术原理以及实施策略.  相似文献   

11.
FIFO页面置换算法的实现以及异常问题的讨论   总被引:1,自引:0,他引:1  
在操作系统虚拟页式存储管理中,当系统总没有空闲页时,则要进行页面置换。针对FIFO页面置换算法以及它可能存在的异常问题进行了讨论,最后模拟实现FIFO页面置换算法。  相似文献   

12.
Nutch的网页更新预测方法采用的是邻比法,相关更新参数需要人为设定,不能自适应调整,无法应对海量网页更新的差异性.为解决这个问题,提出动态选择策略对Nutch的网页更新预测方法进行改进.该策略在网页更新历史数据不足时,通过基于MapReduce的DBSCAN聚类算法来减少爬虫系统抓取网页数量,将样本网页的更新周期作为所属类其他网页的更新周期;在网页更新历史数据较多时,通过对网页更新历史数据进行泊松过程建模,较准确地预测每个网页的更新周期.最后在Hadoop分布式平台下对改进该策略测试.实验结果表明,优化后的网页更新预测方法表现更优.  相似文献   

13.
以长江师范学院主校区图书馆2013年征订的期刊中抽选的1222种期刊为调查对象,对其版权页进行了调查研究。结果表明:期刊版权页位置设置正确的为98.4%,0.3%无版权页,0.3%在勒口、正文中,1%设在封三及对页,有的期刊分散在目录页眉、页脚而不集中在一页;有的只在封底记载出版物号、邮发代号、价格等少量信息;较多期刊没有全部记载版权页的11个项目或记载项目不突出。记载率最高的为主办单位94%,其次是出版物号92.3%、印刷单位92%;广告许可证号仅66.9%,12.6%无广告号却刊载广告。建议主管单位对记载项目进行修改,希望版权页记载项目集中在一页。  相似文献   

14.
基于网页可达性和平均载入时间的网站评估方法   总被引:5,自引:0,他引:5  
给出了网页可达性和平均载入时间的定义,并为计算上述指标设计了到达网页路径的路径树生成算法(PTSA)·提出基于网页可达性和平均载入时间的网站评估方法,并对一个实际运行中的网站进行了分析·结果表明,网页所处层次和网页的大小是影响其访问难易程度的主要因素,网络传输速度对网站性能有重要影响·  相似文献   

15.
提出了一种网页篡改检测定位的方法,该方法首次实现对目标HTML网页被篡改位置的定位。此方法将原始HTML网页源代码的每一列和每一行分别进行PCA数字水印和ULC嵌入处理,通过对网页源代码行与列的计算结果和抽取出的认证信息进行比较,实现对目标HTML网页篡改范围的定位。实验结果表明,该方法能检测网页篡改并较好地定位出篡改范围。  相似文献   

16.
开发国际化的Web应用时,有时同一个页面内容在不同语言环境中需要呈现不同的显示效果,即通过不同的HTML代码或CSS样式表来显示相同的页面内容.设计出一个基于Struts-Tiles框架的国际化引擎,以实现相同页面内容在不同语言环境中的不同显示要求.  相似文献   

17.
SNS粉丝主页的营销成果体现在市场营销的方方面面:口碑或品牌传播效果,消费者品牌关系的建立,品牌认知及品牌形象的提高.SNS营销战略定位要从单纯的品牌植入扩展到粉丝主页运营方面.中国当下品牌SNS的营销应当采取内容更新、粉丝主页意识培养、管理者的专业化和年轻化、忠诚用户升华等措施.  相似文献   

18.
影子页表作为内存虚拟化地址转换问题的解决方案之一,其性能开销主要源于客户机页表和影子页表不一致造成的缺页异常。实验发现:在使用影子页表技术的虚拟机中,缺页异常引起的虚拟机陷入占所有虚拟机陷入的70%以上;这些缺页异常中,30%的缺页异常由客户机页表本身引起,从而造成不必要的虚拟机陷入。客户机的不必要陷入可以通过结合类虚拟化思想和硬件虚拟化条件优化技术并调整影子页表的缺页异常处理流程来解决。为验证上述方法的有效性,设计并实现了AccSP原型系统。实验结果表明,AccSP能够使得系统性能得以稳定提升。  相似文献   

19.
20.
本文利用WORD2000的强大功能,讨论了在一份文档中建立不同的页眉和页脚的两种方法:在首页和奇偶页上创建不同的页眉或页脚、在同一文档中创建不同的页眉或页脚。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号