首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法.  相似文献   

2.
介绍了基于索引路径的数据抽取算法的不足,从代码角度和用户需求角度2个方面进行考虑,提出了一种进改良措施,有效地提升了数据抽取的准确率,从而大大减少了数据冗余.由于补充了记录、有效数据等定义,使得抽取出的数据仍然保有其在网页中的结构关系,为之后的语义标注工作带来了极大的方便,为深度网页(Deep Web)数据集成奠定了良好的基础.  相似文献   

3.
依据《国际标准书目著录规则ISBD》和《中国读目使用手册(修订版)》,对普通图书MARC基础数据字段的著录问题进行了归纳和总结,并作了分析.  相似文献   

4.
RSS是一种基于XML标准,在互联网上被广泛采用的内容包装和投递协议。RSS通过XML标准定义内容的包装和发布格式,使内容提供者和接收者都能从中获益。本文主要阐述RSS技术原理,结构特点以及如何利用Visual C#实现RSS的抽取技术。  相似文献   

5.
王平根 《科技信息》2010,(31):I0054-I0054,I0059
动态网页是Internet上重要的网页类型,它们通常是由网站的后台数据库通过某种通用的模板构成。本文在研究DOM技术与网页结构的基础上,根据动态Web页面的特点,提出了一种基于DOM的动态网页信息抽取方法,并描述了利用DOM技术实现动态网页信息抽取的算法。  相似文献   

6.
图书著录标准化和文献资源共享(下称资源共享)是图书馆发展的必然趋势,是图书馆事业现代化的必备条件,本文就两者之间的关系,进行初步的探讨。 一、图书著录标准化 所谓图书著录标准化,就是一个国家按其文字特点和目录传统、以国际标准为依据所制定的国家标准;并以国家标准的形式,对图书文献著录的原则、内容、格式、规则等作出统一的规  相似文献   

7.
一种自动化的网页数据抽取方法   总被引:1,自引:0,他引:1  
数据抽取是当前网络飞速发展的背景下衍生的一类技术。简单介绍了数据抽取技术的发展和研究现状,并针对目前数据抽取技术的不足提出了一种新的数据抽取方法.能够自动化地并高准确度地从网页上抽取数据。  相似文献   

8.
网页文本抽取是一种在互联网上运用广泛的数据挖掘技术。主要目的是把一个网页的主题内容抽取出来,为Web数据挖掘提供好的基础数据。本文基于网页树形结构进行改进,首先对网页进行分块,把每一块存储在树形结构当中,然后通过对所有块进行方差和阈值计算,选择出主题信息。该方法相比传统的基于正则表达式的抽取方法, 具有简单, 实用的特点, 实验结果表明, 该抽取方法准确率达到 96%以上, 有一定的实用价值。  相似文献   

9.
基于分块的网页主题文本抽取   总被引:2,自引:2,他引:0  
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块.实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法.  相似文献   

10.
Web数据存在方式的特殊性使Web数据控制变得十分复杂,把现有的Web页面转换成XML可以使那些熟悉Web最常用技术的开发人员能快速而便捷地获取他们所需的以Web方式发布的信息.描述了从目前存在的最大信息来源-万维网-抽取信息的方法和实现过程.  相似文献   

11.
结合数据抽取处理的多源性、数据预处理功能的集成、数据抽取处理描述信息的重用等特征,讨论数据抽取事务逻辑划分及组件包设计。给出数据抽取包的定义、包的逻辑结构及可视化管理工具设计。提出用元数据生成数据抽取包,用DTS包作为数据抽取包的执行载体的方法,以提高数据传输性能和简化系统实现。  相似文献   

12.
本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取.实验结果表明:该...  相似文献   

13.
探讨了传记性图书的CNMARC著录,包括2-字段的著录、3-字段的著录、6-字段的著录及7-字段的著录,并列举了著录实例。  相似文献   

14.
刘志宝  朱岩 《科技资讯》2010,(22):13-13
ashx是用于写web handler的,一般用来处理生成动态图片、生成动态文本等不需要回传处理的任务。本文利用ashx文件(一般处理程序)实现把数据库中的图像数据读取出来,直接显示在Web页面上,这样省去了对临时图像文件进行管理的工作,同时也提高了系统执行效率。  相似文献   

15.
通过对影印版图书特征的描述和分析,结合西文文献著录规则及USMARC著录格式,提出了该类出版物的著录方法.  相似文献   

16.
针对当前新闻网页主题内容抽取方法较少利用网页块之间关联特性这一问题,提出了一种基于条件随机场(CRFs)的新闻网页主题内容自动抽取方法.该方法首先将待抽取网页解析成DOM树,经过滤、剪枝以及压缩处理后,然后按照一定的启发式规则将DOM树切割成块并转换成为一个数据序列,再定义CRFs特征函数来提取各网页块自身状态特征和相...  相似文献   

17.
介绍了影印版与授权影印版的区别,着重探讨了授权影印版图书的著录和入藏问题。  相似文献   

18.
搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果优化处理中的页面正文内容去重。  相似文献   

19.
介绍了Unicorn系统下西文图书编目过程中的主要方法,探讨了提高西文图书编目效率的途径。  相似文献   

20.
HTML数据内容的抽取与集成   总被引:11,自引:0,他引:11  
在XML基础上,利用HTML Tidy可实现轻量级的Web数据挖掘和转换。转换过程主要解决的是HTML文档及其集合要表达的模式信息的分离。转换步骤是利用HTML Tidy提供的标准类库,净化HTML文档,借助DOM生成树对HTML元素结构做进一步分析,最后通过XSL、XPATH等自动提取转换。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号