首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 737 毫秒
1.
在网络舆情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用.针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息.该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取.实验证明,该抽取方法具有较高的召回率和准确率.  相似文献   

2.
王平根 《科技信息》2010,(31):I0054-I0054,I0059
动态网页是Internet上重要的网页类型,它们通常是由网站的后台数据库通过某种通用的模板构成。本文在研究DOM技术与网页结构的基础上,根据动态Web页面的特点,提出了一种基于DOM的动态网页信息抽取方法,并描述了利用DOM技术实现动态网页信息抽取的算法。  相似文献   

3.
模板化网页主题信息的提取方法   总被引:37,自引:0,他引:37  
为了消除网页噪音,有效地提取基于模板的网页主题信息,提出了一种新的信息提取方法.该方法采用机器自动学习方式生成网页集的模板;以网页链接关系中的锚点文本作为提取目标对模板进行标记,生成对应模板的提取规则;依据模板的提取规则对网页主题信息进行提取.对国内2 588个新闻网页进行了检测.实验结果表明,该方法可以快速、有效地提取模板生成的网页集主题信息,准确率达99.5%.将该方法应用于搜索引擎系统(木棉检索)中,与原来的检索系统相比较,索引文件的大小减少约50%,检索的速度和精确度也得到提高.  相似文献   

4.
基于对深网(DeepWeb)网页公共框架的定义,提出一种在信息抽取算法中增加公共框架检测阶段,采用序列比对算法提取公共框架的方法.与原始网页数据相比,去除公共框架的数据域信息对模板抽取更有利.基于真实网站的数据密集型网页集合,测试和对比了序列比对算法中参数不同取值以及公共框架检测阶段在数据量和抽取准确率等方面对信息抽取算法的影响.实验结果表明了算法的有效性.  相似文献   

5.
词语间语义关系是中文信息处理基础。现有算法存在语义关系抽取专业性强、依赖语料库、抽取有限等不足。通过确定符合语义关系的种子,根据种子生成谓词模板和种子模版,利用网络资源得到网页信息,将网页信息与谓词模版和种子模版进行匹配,最终得到词语间语义关系。该方法充分利用网络资源,并不受限于特定语料资源,抽取的词语关系可适用于多种语义关系的自动抽取。通过同义语义关系实验和对比实验,表明语义关系自动抽取方法具有良好的抽取结果。  相似文献   

6.
为了提高分布式融合集成网络网页信息资源定向抽取能力,提出基于卷积神经网络的分布式融合集成网络网页信息资源定向抽取方法。构建分布式融合集成网络网页信息的自适应聚类处理模型,获得分布式融合集成网络网页信息数据集合,采用多重属性调度的方法,建立高分布式融合集成网络网页信息检测的模糊度训练集,实现对网页信息资源的模糊参数辨识与融合,采用最优策略下均衡控制的方法,得到高分布式融合集成网络网页信息的模糊决策特征调度矩阵,通过自相关检测识别与参数寻优的方法实现网页信息资源的定向抽取。仿真结果表明,采用该方法进行网页信息资源定向抽取的精度较高,自适应性较好,提高了网页信息资源定向抽取能力。  相似文献   

7.
网页分块方法使得Web信息抽取的单位由原来的页面缩小为分块.结合分块重要度模型与二维条件随机场的优点,提出一种Web对象信息抽取方法.该方法利用分块重要度模型对网页分块进行重要度标注,过滤掉大量与主题无关信息,更加准确的定位待抽取信息的位置.二维条件随机场模型相比传统的线性条件随机场模型更好的适应了网页分块的二维结构,有效的提高信息抽取准确率.实验结果表明,该方法对Web对象信息抽取具有良好的效果.  相似文献   

8.
针对从模板生成的网页中自动抽取web数据的问题,提出了一种新的树对齐算法.该算法能够确定输入网页的最大匹配结构.经过一系列的对齐操作之后,多棵树被合并成为一棵记录着合并前多个网页上的统计信息的合并树,树对齐算法可以发现合并树中的重复模式,在最可能内容块上构建包装器,并按照重复模式从网页上抽取数据.实验结果表明,该算法的抽取结果具有较高的准确性和良好的稳定性.  相似文献   

9.
针对抽取新闻关键信息需要人工构造或训练生成模板的问题,提出了基于标签和分块特征的新闻关键信息自动抽取方法。该方法首先通过计算新闻网页相关特征来定位新闻正文标签块,然后通过编辑距离定位新闻标题标签块,最后根据正文块和标题块定位新闻发布时间和来源标签块,并通过抽取各块的文本获得目标新闻关键信息。在该方法的基础上提出了针对新闻站点的目标新闻自动抽取框架,并用该框架对10个新闻站点的30个新闻栏目进行了新闻抽取。对抽取到的1 597条新闻随机选择了1 000条进行了实验。实验结果表明,该方法对新闻标题、发布时间、来源、正文均表现出良好的抽取效果,且优于实验对比对象。  相似文献   

10.
黄荣 《科技信息》2011,(4):250-251
本文说明了网页主题信息提取的意义,并描述了常用的抽取方法及其存在的主要问题。在此基础上提出了一个新的基于模板的抽取方法,并结合实例分析了如何运用该模型构建电子军务信息提取系统。  相似文献   

11.
如何准确表达用户意图,判断网页与用户需求的相关性是信息检索技术研究的重要方向。本文提出了一种基于网页内容分割的语义信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用内容相似性和视觉相似性进行节点的整合。根据用户的查询,充分利用区域信息来对相关的检索结果进行排序。实验表明,本文提出的方法可以显著地提高搜索引擎的查询效果。  相似文献   

12.
为了提高万维网信息检索的性能,该文提出在基于机器学习的检索排序算法中,利用万维网链接图的拓扑特性来度量网页的重要性。链接图的拓扑特性是从各种不同的角度对链接图结构信息的描述,利用它来度量网页的重要性可以更加全面地利用链接图所包含的结构信息,并且能够更好地发挥学习机的学习能力。通过实验表明,在基于排序提升器的检索排序算法中,利用链接图的拓扑特性可以非常有效地度量网页的重要性,其性能要优于传统的PageR ank算法。  相似文献   

13.
如何有效地构建面向领域的垂直搜索引擎,是信息检索领域众多研究者关注的问题.本文提出了一种通用的基于专业词汇表构建垂直搜索引擎的方法,通过分析网页特征,提出了基于链接结构和文本内容的启发式网页爬取策略.该策略结合网页的结构信息特征,在网页和主题相关度计算中考虑了特征词汇在网页中的权重,有效地提高了专业搜索引擎的查询效率.通过具体实现一个面向医疗领域的垂直搜索引擎,验证了本文所提出的方法的有效性.  相似文献   

14.
分析了搜索引擎的检索效率和检索质量,指出目前影响搜索引擎检索效率和检索质量的主要因素是检出信息相关度低、信息重复出现率高等问题,提出了提高检出信息相关度、降低检出信息重复出现的方法。  相似文献   

15.
The massive web-based information resources have led to an increasing demand for effective automatic retrieval of target information for web applications. This paper introduces a web-based data extraction tool that deploys various algorithms to locate, extract and filter tabular data from HTML pages and to transform them into new web-based representations. The tool has been applied in an aquaculture web application platform for extracting and generating aquatic product market information. Results prove that this tool is very effective in extracting the required data from web pages.  相似文献   

16.
特征词提取是一项提炼整个web页面内容的实用技术,同时也为文本分类,信息抽取应用提供了技术支持.在web页面内容上,利用段落间语义关系划分出网页内容的篇章结构,并以此为基础使用网页的元数据和特殊标签,设计了一个特征词的加权函数,综合考虑了词频、词长和位置因子,最后,实验对比了各类位置因子对系统的贡献度.实验结果表明,改进方法的F1值比传统的TFIDF提取技术提高了15.5%,其中,位置因子中的标题,关键词和摘要因素对系统的贡献最大.  相似文献   

17.
通过对微内容类网页正文内容块自动填充的研究,利用网页区域分块技术与HTML的结构特征,提出了一种基于区域分块和内容块自动填充(RAF)的正文提取方法,可用于微内容类网页正文的自动提取,同时运用编程实现提取工具进行实验.结果表明,该方法能够有效、准确地提取微内容类网页的正文信息.  相似文献   

18.
设计了一种基于统计的多层次分类算法:在一个树状的层次分类体系中,对文档进行自动分类时,首先从根结点开始找到对应的大类,然后递归往下直到找到对应的最底层子类.每一层中使用支持向量机作为分类模型,并使用类别均衡的方法解决数据稀疏的问题,在经过大规模网页语料训练后取得了很好的分类效果.  相似文献   

19.
在分析不规范书写的Web网页的DOM树存在的树深度大、结点层次多、结点层次和子树间关系错误等问题的基础上,提出了一种容错的Web网页语义树构造方法,为文本分类与聚类、网络社区发现、Web主题信息的提取和基于主题的Web信息检索等技术的研究工作奠定了基础.  相似文献   

20.
基于超图聚类的用户行为模式挖掘   总被引:3,自引:1,他引:2  
为解决代理服务器端用户行为日志的高维特征,提出一种基于超图模型的Web会话聚类方法。该方法利用页面归约和隐含在会话中的时间等统计信息描述会话,并在此基础上利用基于关联规则的超图对用户会话进行聚类,可以在较高层次上发现代理服务器端的用户行为模式。实验结果表明,该方法可以在大型的代理日志文件集中挖掘出有意义的用户行为模式,有效揭示用户的行为规律。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号