首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 515 毫秒
1.
基于XML的Web数据挖掘技术   总被引:5,自引:0,他引:5  
全面分析了Web挖掘最新技术及发展方向,重点分析了Web结构挖掘、Web内容挖掘方法以及Web Log挖掘等,介绍了基于XML的Web数据挖掘的特点,提出了运用XML解决Web数据挖掘中半结构化数据的模型查询与模型抽取的方法,并通过实例说明了该方法.  相似文献   

2.
基于XML的多数据库系统集成数据模型   总被引:2,自引:0,他引:2  
随着网络信息的大量积累,如何充分利用网络资源已成为一个亟待解决的问题,将数据库技术应用到Web数据中是一种较好的解决办法,而其中则牵涉到Web数据的结构抽取以及采用什么形式描述这种结构。基于上述情况,提出了如何将一个典型的半结构化数据(HTML网页)经过模式抽取并转换为XIDM描述形式的方法,从而实现了自行研制的多数据库系统Panorama与文件系统的集成。  相似文献   

3.
目的:解决Web数据挖掘中的半结构化数据模型和半结构化数据模型的抽取问题.方法:运用XML作为元标志语言所提供的描述结构化资料的格式来使复杂的Web数据挖掘简单化.结果与结论:可以加强对非结构化数据如文本数据、图形图像据、多媒体数据的挖掘.  相似文献   

4.
异构信息源集成技术   总被引:12,自引:0,他引:12  
异构信息源集成技术提供统一接口,使各种基于因特网的应用能迅速、准确地提取所需信息,为用户屏蔽各种信息源的异构性.这种异构信息源的集成技术从传统的结构化的异构数据库扩大到半结构化的大量Web页面信息及无结构的信息.对集成技术的方法,如数据模型、Web信息、描述语言XML、主流软件开发技术及信息智能搜索、查询重写、查询分析等进行了分析,给出了半结构化异构信息源集成的系统架构,并指出该项技术未来发展趋势.  相似文献   

5.
Internet上有海量的数据信息,有效地应用这些海量数据成了数据库技术的研究热点,Web数据挖掘技术应运而生。XML数据自我描述以及XML的半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取,从而解决Web数据内容挖掘的难题。随着XML作为在Web上交换数据的一种标准方式的出现,面向Web的数据内容挖掘将会变得轻松。  相似文献   

6.
设计基于XML的Web信息采集系统,抽取出HTML页面中半结构化数据后,将清洗、解析后的数据置入My SQL数据库中。通过将类型相似页面的节点信息和字段描述配置于XML文件中,改进了网页对应独立抽取模板的方法,有效地提高了Web信息采集的效率和准确性。实验结果表明,基于XML的Web信息采集系统能够满足信息抽取的需求。  相似文献   

7.
一种基于XML的WebGIS多源异构数据集成方案   总被引:1,自引:0,他引:1  
本文提出了一种基于XML的WebGIS多源异构数据集成方案,在该方案中,既可对不同数据源上载到空间数据库,也可将不同数据源进行模式映射和转换而存储为XML数据库.对于空间数据库,调用GIS应用服务器上的Web Service对其进行数据抽取并转换为XML格式;对于XML数据库,则直接通过封装了XML查询的Web Service进行数据抽取;最终使异构空间数据集成于XML这一文本格式.同时,还可通过对已定义的Web Service进行发布和注册实现本系统GIS数据库服务器上数据资源的共享,也可以通过搜索Internet上已发布和注册的相关Web Service,通过对其引用而实现异地数据的集成,由此实现空间数据之间的共享与互操作,实现多源异构的地理空间数据的有机集成.最后通过XSLT将XML转换为SVG实现地理空间数据的可视化.  相似文献   

8.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.  相似文献   

9.
针对基于查询接口集成的web集成技术复杂且面向领域这一现象,提出了一种非实时查询Deep Web数据库集成技术.该技术通过在被检索网站安装客户端数据源应用程序,获取所有被检索网站的Deep Web数据源连接信息、Deep Web异构数据库表结构信息以及Deep Web异构数据库表数据.其中表结构和表数据经集成系统解析后以统一的格式集成到本地数据库.实验结果表明,该集成技术可集成所有领域的Deep Web异构数据库,没有领域限制.由于是本地查询查询速度也较快,具有一定的可行性.  相似文献   

10.
基于样本实例的Web信息抽取   总被引:14,自引:1,他引:13  
主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器.  相似文献   

11.
A semi-structured data extraction method to get the us eful information embedded in a group of relevant web pages and store it with OE M(Object Exchange Model) is proposed. Then, the data mining method is adopted t o discover schema k nowledge implicit in the semi-structured data. This knowledge can make users un derstand the information structure on the web more deeply and thourouly. At the same time, it can also provide a kind of effective schema for the querying of we b information.  相似文献   

12.
基于证券行业半结构化数据的抽取技术   总被引:1,自引:1,他引:1  
半结构化数据是网络中一种重要的数据形式,其数据抽取和知识发现研究是半结构化数据各项研究的核心.针对互联网上的证券交易系统半结构化的个股资料,根据OEM模型,利用SAS软件建立了半结构化到结构化数据的转换.本文关于信息的抽取技术,提供了一种新的方法,无论为投资者还是为数据挖掘都提供了证券分析的基础,从而能更好地提高抗风险的能力.  相似文献   

13.
基于批量方式发布地形数据更新信息存在传输大量无效数据等缺点,影响了更新信息的传播。为了克服更新信息批量发布存在的问题,提出利用增量方式实现更新信息的分发。增量信息的建模和描述是实现增量发布的必要前提,以我国1:25万地形数据库的两个版本之间的增量信息为例研究了增量信息的数据建模问题。首先分析了地形数据库增量信息的类型和特点,发现增量信息具有半结构性。基于对象交换模型.提出了增量信息的数据建模框架。另外.说明了增量信息的OEM表达如何映射为XML编码,最后以1:25万数据库两个版本的居民地数据为例说明了此方法的可行性和有效性。  相似文献   

14.
税控收款机Flash文件系统的设计与实现   总被引:3,自引:0,他引:3  
针对税控收款机设计了一种Flash文件系统,通过Flash空间分配实现方式优化、断电保护和空间回收等关键技术,并结合嵌入式数据库设计思想,向用户提供方便可靠的数据导入导出及日常检索功能,从而为税控收款机的推广提供了系统软件支持。  相似文献   

15.
针对NativeXML数据存储性能不高、支持查询和更新效率低等不足,提出一种新的半结构化信息存储模型WNXD。引入动态倒排技术和数据映像机制,将记录和分页的存储模式相结合,建立3种结构化索引,用不同方法解决了结构化和动态增长的矛盾。创建了实用的存储模型,提供了从整体到局部,从元素、属性到具体值的全面覆盖访问策略,底层的数据存取,尤其是内容混杂的各类形式异构数据的有效性和完整性存取,得到了最大程度保证,查询次数减小了I/O,提高了系统处理性能。  相似文献   

16.
海洋遥感数据一体化管理方法   总被引:1,自引:0,他引:1  
将WebGIS、空间数据存取、网络传输等技术引入海洋光学遥感数据一体化管理中,设计了面向海洋遥感数据的速报地理信息系统(GIS).系统集成了数据自动批量入库、数据批量自动远程分发、空间数据可视化实时发布等功能模块,具备海洋遥感数一体化管理功能和数据网络实时发布功能.同时,研究了海洋遥感数据存取方法,探讨了将数据加密验证与Java Socket网络通信技术相结合的数据高效安全传输实现方法,分析了双效数据库连接池机制,并提出了结合动态数据文件生成与可视化缓冲技术的海洋遥感数据高效可视化策略.系统运行实例结果表明:该系统能够支持分布式异构数据库,支持多用户的并发操作,具有较高的安全性和与客户端平台无关等优点.  相似文献   

17.
组态软件中历史数据存储与查询的一种新方法   总被引:1,自引:0,他引:1  
提出了一种达到毫秒级的快速历史数据存储与查询方案,该方案采用哈希散列和多级索引的组织结构,应用了定时和定差的存储策略及分级压缩方法,并针对方案进行查询性能的分析和优化.目前采用该方案实现的数据库系统已经在商用组态软件中稳定运行,与同类产品相比,有着良好的存储和查询效率.  相似文献   

18.
针对无线传感器网络数据处理的高实时性要求和节能要求,设计并实现了一种基于统计模型的传感器网络查询系统,采用了层次式的系统处理结构,并使用基于统计模型的优化方法改进了查询处理过程.最后给出了该系统与普通的WSN查询处理系统的性能对比分析,实验数据表明基于统计模型的查询策略提高了查询处理的效率,节约了无线传感器网络的能量消耗.  相似文献   

19.
为提高空间移动对象数据更新效率和查询准确率,提出了一种空间移动对象并行索引结构.利用主索引和辅助索引支持对空间对象进行基于范围的查询和基于对象标识的查询,还通过查询索引将更新操作和可能受其影响的查询操作相连接,在满足并行操作时间片语义的同时,避免了传统方法进行范围查询时对查询范围内相关对象及相关索引结构全部进行锁定的需求.实验结果表明:高负载环境下,该索引结构不但能保证查询准确率,其处理能力也明显优于传统索引结构.该索引通过提高系统并行度,使同一范围内的更新和查询操作可以并行执行,提升了系统整体运行效率.  相似文献   

20.
基于粗糙关系数据库的粗糙数据查询   总被引:14,自引:0,他引:14  
以粗糙关系数据库模型(RRDM)为背景,从分解原理、投影原理、粗糙关系数据库(RRDB)的可定义性及上、下近似几方面讨论了RRDB的查询理论,并以此为基础提出了一种新的RRDB查询方法--粗糙数据查询,我们把粗糙数据查询分为精确查询、粗糙完全查询、粗糙组合查询三类,并从这三方面对粗糙数据查询进行了讨论与仿真实验,仿真结果验证了这种方法的可行性和正确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号