首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
针对Web论坛的一种结构化数据自动抽取方法   总被引:1,自引:0,他引:1  
由于网页布局设计的复杂性和用户发表帖子的灵活性,从论坛网页中抽取结构化的数据是一项未能很好解决并非常具有挑战性的任务。本文提出了一种从任意的论坛站点中自动抽取结构化数据的通用解决方案,通过分析网页结构发现列表页和帖子页中的数据记录,并利用一组产生式规则从发现的数据记录中抽取结构化的数据。实验结果表明该方法在抽取论坛数据记录方面明显优于已有的方法,对论坛帖子的标题、作者、发表时间和内容文本块等元数据的抽取达到了较高的准确率。  相似文献   

2.
一种基于XML的Web数据挖掘技术   总被引:6,自引:0,他引:6  
阐述了一种基于XML的数据抽取技术,并示例如何将该技术应用于Web信息的挖掘,通过对实例的剖析,提出了有关技术人员如何通过该数据挖掘技术拥有一个维护成本低廉而且可靠的数据抽取系统,从而快速便捷地获取所需的信息。  相似文献   

3.
基于证券行业半结构化数据的抽取技术   总被引:1,自引:1,他引:1  
半结构化数据是网络中一种重要的数据形式,其数据抽取和知识发现研究是半结构化数据各项研究的核心.针对互联网上的证券交易系统半结构化的个股资料,根据OEM模型,利用SAS软件建立了半结构化到结构化数据的转换.本文关于信息的抽取技术,提供了一种新的方法,无论为投资者还是为数据挖掘都提供了证券分析的基础,从而能更好地提高抗风险的能力.  相似文献   

4.
为克服半结构化数据存储复杂的缺点,提出一种基于动态树的半结构化的存储模型。对该模型进行模式抽取, 并将其引入到Apriori算法。通过设置最小支持度阀值过滤掉不必要的信息, 输出最长频繁路径的集合, 以实现半结构化数据的提取。实验结果表明, 该算法能同时有效地处理分支及环路问题, 避免了死循环的出现。  相似文献   

5.
基于OEM模型的半结构化数据的模式抽取   总被引:5,自引:0,他引:5  
Web数据是典型的半结构化数据 ,缺乏明确的、预知的、与数据分离存储的外在模式 ,导致查询、浏览和集成Web数据的效率极低。该文提出一种基于 OEM (objectexchange model)模型的半结构化数据的模式抽取算法 ,采用自顶向下的剪枝策略 ,可快速发现频繁简单路径集 ,应用于半结构化数据的集成及查询回答与优化。其特点是可降低目标模式的规模 ,有效改进模式抽取的效率  相似文献   

6.
基于DOM的半结构化网页信息抽取算法   总被引:1,自引:0,他引:1  
为从不同的半结构化网页中自动提取数据记录,提出了基于DOM和记录子树最大相似度发现记录模武的思想,对信息噪声有较强的过滤功能,在记录模式存在一定差异的情况下也能正确识别记录。在此基础上,实现了多记录网页自动抽取的IESS算法.该系统可以从多个学术论文检索网站中自动获取结果网页。并自动抽取其中的记录。对常见论文检索网站的实验表明了该系统具有较好的有效性和准确性。  相似文献   

7.
XML及其在Web数据挖掘中的作用   总被引:1,自引:0,他引:1  
介绍了Web数据的数据环境和结构,XML简单、开放、扩充的特性及XML与HTML的比较.论述了面向Web的数据挖掘需要解决的问题及XML在Web数据挖掘中所起的作用。  相似文献   

8.
Web信息抽取策略及其实现方法研究   总被引:2,自引:0,他引:2  
从信息抽取实现原理的角度出发,综合性地介绍了几种Web信息抽取策略,并对各种策略进行了简要的分析和评价,在此基础上提出了具体可行的实现方法以及Web信息抽取研究有待解决的关键性问题。  相似文献   

9.
一种基于XML的Web数据抽取的实现   总被引:2,自引:0,他引:2  
Web数据挖掘的研究越来越广泛,对Web数据的抽取则是研究的前提和必要的步骤.而当前Web信息大多数都是HTML格式的,存在很多缺陷.针对目前研究,简单地介绍了XML及它的特点,并且对HTMLand XML从开放性、可操作性等几个方面做了比较,显示出了XML的优越性.最后利用一个实例简述了基于XML的数据抽取过程.  相似文献   

10.
Web的半结构化数据模型和查询模型   总被引:4,自引:0,他引:4  
通过介绍半结构化数据的特点,说明了半结构化数据适合于描述Web上的数据,并讨论了Web的查询特点以及Web查询模型的研究情况  相似文献   

11.
基于XML的Web数据挖掘   总被引:4,自引:0,他引:4  
介绍了数据挖掘、Web数据挖掘以及XML的基础知识,阐述了将XML技术应用于Web数据挖掘,构建基于XML的Web数据挖掘系统结构.  相似文献   

12.
基于XML的Web数据交换服务平台的设计与实现   总被引:5,自引:0,他引:5  
依托Web提出了一种以XML文件作为中间结果实现异构平台数据交换的解决方案,满足了电子政务处理过程中对不同形式数据的处理要求.  相似文献   

13.
基于XML的Web数据挖掘技术   总被引:5,自引:0,他引:5  
全面分析了Web挖掘最新技术及发展方向,重点分析了Web结构挖掘、Web内容挖掘方法以及Web Log挖掘等,介绍了基于XML的Web数据挖掘的特点,提出了运用XML解决Web数据挖掘中半结构化数据的模型查询与模型抽取的方法,并通过实例说明了该方法.  相似文献   

14.
将预处理后的XML数据当作文本信息采用词频-逆向文档频率(TF-IDF)模型进行处理时,逆向文档频率作为词项权重有其不足之处.为此,文中定义了词项的数据源敏感度作为逆向文档频率(IDF)的修正系数.其值取决于提供此词项的数据来源于不同数据源的概率,概率大则其值大,反之则其值小.然后在修正后的词项权重向量的基础上,定义了相似度函数.最后在模拟、真实数据集上进行数据重复检测实验.结果表明,新方法获得了更高的F测度值.这说明考虑词项的数据源敏感度可提高相似度函数的有效性.  相似文献   

15.
企业ERP建设中形成了许多异构数据源,为了有效使用这些数据有必要进行异构数据源的集成.为此给出了基于XML的异构数据源集成查询的中间件的设计和实现方案.该中间件具有接收查询的功能,还具有对用户查询进行语法分析、生成查询任务树、优化查询、分解查询和组合数据并以XML格式保存信息的功能.  相似文献   

16.
Java XML与面向Web的智能数据抽取   总被引:4,自引:1,他引:4  
采用标准Web技术——HTML,XML和Java,开发一种基于Web用Java把Web数据转换为XML的数据挖掘方法.该方法标识数据源并把它映射成XHTML,根据一定的相关关系查找数据内的引用点并进行智能数据抽取,将数据映射成XML.这种数据抽取方法比较简单,通过选择可靠的数据源以及在这些数据源中选取与内容相关但与格式无关的锚点,可以较为方便地建立一个强壮的数据抽取系统.  相似文献   

17.
基于Web Services的数据采集   总被引:1,自引:0,他引:1  
以异构的、自治的、分布的数据库系统构建数据仓库是个挑战, 必须解决两个问题:一是采取有效的措施从各分布的异构数据源采集数据,二是对收集来的数据进行清理和格式转换.笔者分析了Web services的开放性和互操作性,提出了以SOAP协议和HTTP协议连接Internet的异构数据源,实现基于Web Services的数据采集系统.基于组件技术,提出了一种通用的数据采集器结构,用于数据清理和数据转换.并探讨了数据采集器以XML方式实现数据转换和数据装载的核心技术.  相似文献   

18.
介绍了管理信息系统中数据交换中心的概念和作用,设计了数据交换中心的模型,并根据该模型使用XML和Web Service的技术开发了数据交换中心,并将其应用于企业的管理信息系统当中。  相似文献   

19.
网络教学资源在开发和使用上遇到了不可重用性、互通性以及教学教材内容的呈现缺乏路径规划等问题,本论文在研究了大量文献资料的基础上,依据SCORM所定义的信息模型以及XML语言,设计具有可重用性(reusability)、互通性(interoperability)以及含有教学顺序描述的网络课程,论文探索和讨论了SCORM标准体系结构,依据SCORM标准的架构,以网络课程《网络工程与设计》为例,从开发环境、元数据制作以及课程内容顺序导航等方面进行研究,给出了一个符合SCORM标准的网络多媒体课件实例。  相似文献   

20.
提出使用XML文件的方法存储不同Web日志的格式,采用一个通用的方法分析原始的Web日志,并对日志做预处理、产生Web日志挖掘系统所需的数据,从而使Web日志挖掘更快速和准确。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号