首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
基于OEM模型的半结构化数据的模式抽取   总被引:5,自引:0,他引:5  
Web数据是典型的半结构化数据 ,缺乏明确的、预知的、与数据分离存储的外在模式 ,导致查询、浏览和集成Web数据的效率极低。该文提出一种基于 OEM (objectexchange model)模型的半结构化数据的模式抽取算法 ,采用自顶向下的剪枝策略 ,可快速发现频繁简单路径集 ,应用于半结构化数据的集成及查询回答与优化。其特点是可降低目标模式的规模 ,有效改进模式抽取的效率  相似文献   

2.
为克服半结构化数据存储复杂的缺点,提出一种基于动态树的半结构化的存储模型。对该模型进行模式抽取, 并将其引入到Apriori算法。通过设置最小支持度阀值过滤掉不必要的信息, 输出最长频繁路径的集合, 以实现半结构化数据的提取。实验结果表明, 该算法能同时有效地处理分支及环路问题, 避免了死循环的出现。  相似文献   

3.
目的:解决Web数据挖掘中的半结构化数据模型和半结构化数据模型的抽取问题.方法:运用XML作为元标志语言所提供的描述结构化资料的格式来使复杂的Web数据挖掘简单化.结果与结论:可以加强对非结构化数据如文本数据、图形图像据、多媒体数据的挖掘.  相似文献   

4.
信息抽取任务旨在从非结构化的文本中抽取出结构化的信息,帮助将海量信息进行自动分类、提取和重构,提高信息的利用率.目前,基于深度神经网络的信息抽取技术已经成为自然语言处理领域最重要的研究主题之一,它提供了分析非结构化文本的有效手段,是实现大数据资源化、知识化和普适化的核心技术,此外进一步为更高层面的应用和任务提供了支撑....  相似文献   

5.
研究了如何利用查询和视图来解决半结构化数据查询重写问题.给出了一种OEM数据模型和一种半结构化数据查询重写算法.算法借用了半结构化数据查询重写桶算法的思想,解决了半结构化数据模型之下查询重写的一些新问题.理论分析表明,它降低了算法的代价.  相似文献   

6.
为了满足市政管理领域对数据权威性和体系完备性的高要求,实现市政管理领域知识库的自动化构建,笔者提出了一种基于多源异构数据的市政管理知识库构建模型.采用自顶向下的构建模式,完成对结构化关系型数据、半结构化文本数据和互联网数据在内的多源异构数据自动化知识抽取,最后设计了一个轻量级示例系统,并对该方法的执行效果进行了评估.实验结果表明,本方法在市政管理领域的知识库构建上优势明显,能够实现对多种市政管理资源的自动化知识抽取,所生成的概念体系完整清晰,知识描述恰当准确.  相似文献   

7.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.  相似文献   

8.
案例表示是案例推理的基础,突发事件案例涉及到大量非结构化的信息,如何有效地将海量信息整合成案例是案例表示的关键。该文针对中国突发事件的特点,结合信息来源,给出了突发事件案例应包括的要素,针对结构化信息和非结构化信息提出了不同的表示方法。对于结构化信息,使用模糊集合的方法定量表示,以隶属度函数代替单一的数值;对于非结构化的文本信息,通过对3种关键词提取方法的比较研究,选择了基于词语共现概率的改进方法提取关键词,利用提取结果进行信息抽取。整个案例被表示成包含定量化数据和抽取文本的半结构化形式,前者主要用于案例匹配,后者记录了案例的详细内容,用于提供决策支持。这种表示方法为进一步的案例推理奠定了基础。  相似文献   

9.
xml作为一种数据表示方式,越来越为人们所接受.最近,基于xml/半结构化数据的索引的查询引起了人们的广泛关注.有人提出来用结构索引来支持基于xml/半结构化数据的查询.由于xml/半结构化数据的结构不严格、不规则,结构索引会随着数据的增加或删除而变化,维护结构索引就成了首要问题.本文研究了在xml文档集合上增加多个文档和删除一个文档时结构索引的更新,提出了在这两种情况下的索引维护算法,这两种算法比现在已知的其它算法的性能要更优秀.  相似文献   

10.
研究了利用半结构化时空数据的"嵌套"特征实现对时空数据存储和管理的问题,提出了一种面向时空嵌套关系的半结构化时空数据管理模型.该模型以时空数据的"嵌套关系"为管理对象,用更丰富的数据语义(semantics)区别了"实体对象类"的属性、"空问嵌套关系类"的属性和"时空嵌套关系类"的属性等概念,运用非第一范武的嵌套关系数据库实现对时空数据的综合营理.基于传统关系型DBMS和GIS组件构成的软件实验系统表明,本模型简明有效,在数据更新和冗余方面均取得了较好的效果.该研究为半结构化时空数据的管理探索了一条新的途径.  相似文献   

11.
基于数据仓库的证券公司决策支持系统研究   总被引:2,自引:0,他引:2  
随着中国证券市场的日益规范化,建立基于数据仓库的证券公司决策支持系统,对数据进行重新组织和挖掘分析,可以使决策者及时掌握辅助决策的信息,并根据对信息的分析结果,做出科学合理的决策,以提高公司的管理水平和竞争优势.文章论述了由数据仓库技术、联机分析处理技术和数据挖掘技术三者结合而构建成的基于数据仓库的决策支持系统基本理论,并结合其在证券业的应用需求,讨论了基于数据仓库的证券公司决策支持系统的设计与实现.  相似文献   

12.
随着信息爆炸时代的到来,如何有效的从网络上获取有价值的信息成为当前研究的热点.Web文本挖掘技术就是解决上述问题的一种方法,它从大量半结构化、异构的Web文档集中发现潜在的、有价值的知识.本文着力于研究Web文本挖掘过程中的重要技术,并通过分析当前研究热点和各种算法,提出一种改进的投影聚类算法,实验证明其正确率比k-均值算法高.最后,本文设计了基于Web文本挖掘的证券投资系统,并将改进的聚类算法应用其中.  相似文献   

13.
针对基于路径的半结构化数据结构相似度度量方法不能很好地处理路径部分相似以及忽略了元素之间兄弟关系的问题,提出一种基于频繁关联标签序列的结构相似度度量方法,该方法将半结构化数据的结构信息视为标签序列的集合,采用数据挖掘技术中频繁模式和关联项集的概念及算法,从半结构化数据中挖掘频繁关联标签序列并以此作为特征计算其结构相似度.实验结果证明:提出的基于频繁关联标签序列的半结构化数据结构相似度度量方法可以解决基于路径方法的不足,计算的结构相似度更准确、更合理.  相似文献   

14.
The massive web-based information resources have led to an increasing demand for effective automatic retrieval of target information for web applications. This paper introduces a web-based data extraction tool that deploys various algorithms to locate, extract and filter tabular data from HTML pages and to transform them into new web-based representations. The tool has been applied in an aquaculture web application platform for extracting and generating aquatic product market information. Results prove that this tool is very effective in extracting the required data from web pages.  相似文献   

15.
针对NativeXML数据存储性能不高、支持查询和更新效率低等不足,提出一种新的半结构化信息存储模型WNXD。引入动态倒排技术和数据映像机制,将记录和分页的存储模式相结合,建立3种结构化索引,用不同方法解决了结构化和动态增长的矛盾。创建了实用的存储模型,提供了从整体到局部,从元素、属性到具体值的全面覆盖访问策略,底层的数据存取,尤其是内容混杂的各类形式异构数据的有效性和完整性存取,得到了最大程度保证,查询次数减小了I/O,提高了系统处理性能。  相似文献   

16.
以北京市农业种植结构调整监测为对象,借鉴数据挖掘和知识发现的最新成果,从对遥感数据的信息论分析出发,探讨适合于农业应用的卫星遥感数据挖掘与知识发现的关键技术。研究试验表明,该方法有利于提高遥感信息农业应用过程中数据处理和信息提取的能力与效率,具有较好的应用价值和前景。  相似文献   

17.
随着电子信息技术的高速发展,人们积累的信息量急剧增长,采用数据挖掘技术便可从大量的信息中提取有价值的知识.数据挖掘技术广泛应用在电信、农业、金融、生物、化工、医药等领域.本文主要探讨将数据挖掘技术引入远程教育系统中,并运用数据挖掘技术构建起远程教育系统中各种多维数据模型.  相似文献   

18.
基于Web数据挖掘的综述   总被引:4,自引:0,他引:4  
数据挖掘是一种新兴的信息处理技术,在信息的利用和提取中发挥着日益重要的作用。介绍了数据挖掘的基本原理、方法及作用。  相似文献   

19.
随着中国加入WTO,证券服务业的竞争越来越激烈,券商要想在竞争中求生存,就必须提高自身的服务质量和水平,其中信息服务尤为关键,经过多年的经营,券商拥有了大量的历史数据,却无法完全利用他们;公司内部存在多种数据环境,难于集成在一起,而数据仓库和OLAP(在线分析处理)分析技术对此提供了较好的解决方法.通过运用DW(数据仓库)和OLAP(在线分析处理)等新技术,结合决策支持系统和证券分析模型的基本理论,为券商设计了一个基于数据仓库的证券分析OLAP系统,辅助公司管理者进行决策,并通过该系统为客户提供更高质量的信息咨询服务.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号