首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 49 毫秒
1.
在网络舆情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用.针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息.该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取.实验证明,该抽取方法具有较高的召回率和准确率.  相似文献   

2.
基于分块的网页主题信息自动提取算法   总被引:3,自引:0,他引:3  
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.  相似文献   

3.
准确挖掘网页中的信息对检索系统非常重要.提出了一种基于模板的网页信息抽取方法进行网页信息抽取.该方法采用网页抓取与数据模板技术实现了网页信息的自动发现与抽取.在Yahoo网站上的实验结果表明,该方法具有较好的检索效果.  相似文献   

4.
为了弥补互联网信息爆炸带来的搜索引擎用户满意度低的问题,提出了一种基于本体的垂直搜索引擎模型。该模型构建一个本体知识树,利用增加了属性提取和相似度算法的NWeb-Crawler对网页进行抓取,并将非相关信息进行隔离;然后,进行网页源代码格式信息和语义信息两方面的抽取;抽取的数据信息通过分词后建立二维索引表,用户的请求通过本体知识树扩展概念集和二维索引表进行检索。该系统模型从入口网页到出口数据逐步贴近检索需求,具有良好的扩展性,对垂直搜索引擎的研究有一定的参考借鉴作用。  相似文献   

5.
提出了结合色彩和空域信息的CBIR方法.该算法采用色彩和空域信息相结合的办法来提取图像的特征向量,生成色彩-空域共生矩阵.实验结果表明,该方法能有效地提高检索的正确性.  相似文献   

6.
基于DOM的WEB主题信息抽取   总被引:7,自引:1,他引:6  
随着Internet 的发展及其广泛应用,WEB上的信息呈爆炸式增长趋势,但是WEB页面通常包含了很多与主题内容无关的信息,影响了对主题内容的快速获取以及对WEB信息的各种应用.本文提出了一种基于DOM的WEB页面主题抽取方法,快速准确的提取出WEB页面的主题内容,并对1000个网页进行了测试.实验结果表明该方法切实可行,可达到92.46%的准确率.  相似文献   

7.
页没有提供关键词,人工标注关键词代价巨大,并且大多数已有的关键词自动提取算法都需要建立在人工标注的训练集之上,因而难以实用.由于关键词是文章中较重要且主题关联较凝聚的词的集合,因此提出一种基于密度聚类模式的中文新闻网页关键词提取方法,根据词语之间的共现信息,对网页分词后的词语进行聚类,在分析词语关联度的基础上提取出反映新闻主题的关键词.通过大量随机新闻网页实验结果表明,与单纯的TF/IDF(词频和文档频率倒数的乘积)方法相比,此算法召回率平均提高了7.15N,准确率平均提高了7.075%.  相似文献   

8.
基于粒子群优化算法的模式分类规则获取   总被引:8,自引:0,他引:8  
提出了基于粒子群优化的规则提取算法.该算法将规则编码为粒子,通过粒子群优化算法的速度-位移搜索模型以及粒子保存的记忆信息指导生成模式分类规则集.算法用于Iris数据集模式分类规则的提取.与其他规则提取方法比较,该算法在提高分类规则正确率的同时减少了计算费用.  相似文献   

9.
新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配的网页净化方法,即在网页源代码中匹配最长文字字符串,从而准确定位主题内容源代码在网页源代码中位置,实现网页净化。本方法可去除来自不同网站网页的噪音内容,无需事先训练数据集来生成模板,不需要生成网页DOM树。对同构、异构和不符合XML规范的网页净化,试验证明效果理想且性能稳定。
  相似文献   

10.
 关联规则挖掘能使我们发现数据库中大量项目与项目之间的相关关系,但是用传统关联规则生成方法所生成的规则一是数量庞大,二是其中包含许多具有相同意义的规则,这必然对用户理解和提取信息带来干扰.通过求封闭项目集大大消减了频繁项目集数量,再由封闭项目集构造一种新的存储机制——-近似格,基于近似格可以得到冗余度较小的关联规则,从而提供用户简洁紧凑又无信息丢失的关联规则集.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号