首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 765 毫秒
1.
为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法.  相似文献   

2.
基于扩展标记树,提出了一种从中心网页中自动抽取主题网页链接的方法。首先构建链接有序表,利用链接前缀树发现主题网页链接拒绝规则,实现对网页链接类型的预判定;其次,通过分组分割和相似分组重新合并,把页面中的链接归入到不同分组之中,进而识别分组的类型和核心区域所在的分组,最终把链接归入三类链接集合之中。实验结果表明该方法无需训练即可实现中心网页中主题网页链接的高精度抽取。  相似文献   

3.
准确挖掘网页中的信息对检索系统非常重要.提出了一种基于模板的网页信息抽取方法进行网页信息抽取.该方法采用网页抓取与数据模板技术实现了网页信息的自动发现与抽取.在Yahoo网站上的实验结果表明,该方法具有较好的检索效果.  相似文献   

4.
针对当前新闻网页主题内容抽取方法较少利用网页块之间关联特性这一问题,提出了一种基于条件随机场(CRFs)的新闻网页主题内容自动抽取方法.该方法首先将待抽取网页解析成DOM树,经过滤、剪枝以及压缩处理后,然后按照一定的启发式规则将DOM树切割成块并转换成为一个数据序列,再定义CRFs特征函数来提取各网页块自身状态特征和相...  相似文献   

5.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.  相似文献   

6.
为解决中文网页主题特征项抽取不精确的问题, 对中文网页的主题特征项抽取算法进行了研究。网页的主题特征项抽取是主题网络爬虫进行网页相关度计算的基础, 结合主题网页的二分类情况对目前常用的文本特征项加权方法TF-IDF(Term Frequency-Inverse Document Frequency)进行了改进, 在此基础上结合网页的半结构化特征, 综合考虑特征项的位置信息及其包含的信息量, 提出了一种线性特征项加权计算方法。经实验验证, 该方法可有效提高主题网页的召回率和准确率。  相似文献   

7.
通过对现有网页数据抽取方法的分析,结合专利网页数据的特点,提出了一种基于XML文件和规则库的专利数据抽取方法。通过自定义标签对网页进行格式化,克服了以往网页采集中只针对<\table>和<\div>标签进行分割提取数据的不足,实现了专利数据的有效采集。实验结果表明该方法具有很高的准确性和适用性。  相似文献   

8.
基于分块的网页主题文本抽取   总被引:2,自引:2,他引:0  
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块.实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法.  相似文献   

9.
针对Web论坛的一种结构化数据自动抽取方法   总被引:1,自引:0,他引:1  
由于网页布局设计的复杂性和用户发表帖子的灵活性,从论坛网页中抽取结构化的数据是一项未能很好解决并非常具有挑战性的任务。本文提出了一种从任意的论坛站点中自动抽取结构化数据的通用解决方案,通过分析网页结构发现列表页和帖子页中的数据记录,并利用一组产生式规则从发现的数据记录中抽取结构化的数据。实验结果表明该方法在抽取论坛数据记录方面明显优于已有的方法,对论坛帖子的标题、作者、发表时间和内容文本块等元数据的抽取达到了较高的准确率。  相似文献   

10.
网页分块方法使得Web信息抽取的单位由原来的页面缩小为分块.结合分块重要度模型与二维条件随机场的优点,提出一种Web对象信息抽取方法.该方法利用分块重要度模型对网页分块进行重要度标注,过滤掉大量与主题无关信息,更加准确的定位待抽取信息的位置.二维条件随机场模型相比传统的线性条件随机场模型更好的适应了网页分块的二维结构,有效的提高信息抽取准确率.实验结果表明,该方法对Web对象信息抽取具有良好的效果.  相似文献   

11.
A Web page typically contains many information blocks. Apart from the main content blocks, it usually has such blocks as navigation panels, copyright and privacy notices, and advertisements. We call these blocks the noisy blocks. The noises in Web pages can seriously harm Web data mining. To the question of eliminating these noises, we introduce a new tree structure, called Style Tree, and study an algorithm how to construct a site style tree. The Style Tree Model is employed to detect and eliminate noises in any Web pages of the site. An information based measure to determine which element node is noisy is also constructed. In addition, the applications of this method are discussed in detail. Experimental results show that our noises elimination technique is able to improve the mining results significantly.  相似文献   

12.
13.
基于分块的网页主题信息自动提取算法   总被引:3,自引:0,他引:3  
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.  相似文献   

14.
针对医学文本缺乏可量化数据结构,基于关键词模型的文本处理方法不适用的问题,在研究词之间潜在语义关联和关键词树结构的基础上,构造了一种基于潜在语义树的语义分析模型用于医学文本的数据挖掘。进一步地将隐含主题与潜在语义的研究相关联,设计出一种基于潜在狄利克雷分配和潜在语义树模型的文本处理方法,可针对不同类型的医学文本生成有一定可读性的自动批注。该方法形成的自动批注主观性低,其准确度和可读性均高于关键词模型的处理结果,可辅助医生进行医学文本的批注和分类,从而减轻其工作量。程序结果表明,该方法目前可应用于对医学图像所见形成诊断意见、对病人病历进行摘要形成和对病症描述给出对症处方等方面,批注的语义匹配度可达67.7%,文本的平均可读性为60.02%。  相似文献   

15.
研究了面向移动云计算的数据完整性验证技术,依托BLS短签名算法和Merkle哈希树,提出了一种适合在移动云计算环境中部署的数据完整性验证方案.该方案针对移动云计算环境中的移动设备计算能力较低和通信传输能力较弱的情况进行设计,能以相对较少的计算量和较低的数据通信量完成可信度较高的数据完整性验证.该方案还具有支持验证外包、无需源文件块直接参与验证、验证中无状态信息保存、以及支持对云端数据的动态操作等特性,适合于移动云计算环境中面向数据的应用.  相似文献   

16.
及时、准确的玉米出苗情况监测可以为农田经营管理和宏观决策提供玉米出苗期的生长信息,便于及时采取适当的科学管理措施,达到增产增收的目的。归一化植被指数(Normalized Difference Vegetation Index, NDVI)及与作物生长状态关系密切,可以用于评价玉米的出苗情况。采用地块的NDVI均值及均方差可以反映地块内玉米出苗的综合情况,以吉林省长春市九台市榆树村和解放村为例,对研究区玉米出苗情况信息进行提取,最后利用实地采集的验证数据对提取结果进行验证。研究区玉米出苗情况信息提取结果的总体精度达到80%,表明利用上述方法能够在一定程度上反映玉米的出苗情况,可以为玉米出苗情况评价提供参考依据。  相似文献   

17.
在GIS系统应用中,海量栅格数据的存储与计算已经普遍的存在于很多系统中。对于多个栅格数据的交叉计算,在应用中是一种非常普通的需求。对多个栅格数据的交叉计算,往往涉及到海量数据的多次分析处理,计算性能是个核心的技术瓶颈。本文提出了一种对栅格数据的交叉计算方法,首先对GIS系统中两个或多个栅格数据进行分块处理,获得满足要求的栅格数据的栅格块;然后运用四叉树的思想,对栅格数据的栅格块建立四叉树结构,对四叉树结构中的叶子节点进行赋值;然后读取赋值来确定满足交叉计算的计算条件的栅格块,只对确实满足交叉计算条件的区域数据进行计算。大大提高了栅格数据交叉计算的效率。  相似文献   

18.
网页正文信息抽取新方法   总被引:6,自引:0,他引:6  
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号