首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
基于OEM模型的半结构化数据的模式抽取   总被引:5,自引:0,他引:5  
Web数据是典型的半结构化数据 ,缺乏明确的、预知的、与数据分离存储的外在模式 ,导致查询、浏览和集成Web数据的效率极低。该文提出一种基于 OEM (objectexchange model)模型的半结构化数据的模式抽取算法 ,采用自顶向下的剪枝策略 ,可快速发现频繁简单路径集 ,应用于半结构化数据的集成及查询回答与优化。其特点是可降低目标模式的规模 ,有效改进模式抽取的效率  相似文献   

2.
为了提高半结构化文档数据流的挖掘效率,对原有挖掘算法StreamT进行了改进,提出了一种半结构化文档数据流的快速频繁模式挖掘算法--FStreamT.该算法针对利用集合存储候选频繁模式效率较低的缺点,采用枚举树存储候选频繁模式,可以有效地提高对候选频繁模式集合进行查找和更新的效率,同时利用频繁模式的单调性和枚举树的特点减小了维护负边界的搜索空间,从而提高了整个算法的效率.理论分析和实验结果表明,算法FStreamT与算法StreamT相比具有较高的效率,是有效可行的.  相似文献   

3.
针对非结构化大数据边缘安全性较差,存储效果受限的问题,提出基于边缘计算的非结构化大数据动态安全存储算法。有效分析和识别非结构化大数据,利用构建的数据敏感级别识别模型确立非结构化大数据敏感度等级并加密。基于边缘计算及云计算,建立云边协同架构,利用该架构编写的分布式压缩感知-同时正交匹配追踪(DCS-SOMP:Distributed Compressed Sensing-Simultaneous Orthogonal Matching Pursuit)算法对加密数据进行压缩采集,以此降低数据存储量,最终将非结构化加密数据上传至云边协同框架各个边缘,实现非结构化大数据动态安全存储。经存储量、元数据占比、加密耗时和带宽消耗测试实验,结果表明该算法鲁棒性较高,能保证实际应用性。  相似文献   

4.
XML模式与关系模式的无损映射研究   总被引:1,自引:0,他引:1  
由于XML是半结构化的数据,并且包含控制信息,因此XML模式与关系模式的映射是有损映射.从映射的可逆性角度分析,研究并给出了XML模式与关系模式的无损映射算法,使得关系数据库可以作为虚拟平台管理XML文档.  相似文献   

5.
廖海生 《河南科学》2014,(12):2505-2510
随着大数据存储需求的不断扩大,网络存储技术面临如何存储并管理海量数据的问题.通过对现有各种大数据存储模型进行了对比分析,针对现有存储模型存储的局限性和大数据存储的特点,提出了一种基于数据特征的面向对象存储思想.采用虚拟类技术设计并实现了一种基于面向对象的大数据存储模型.在仿真环境中,对该模型的分类关键模块与非结构化数据存储性能进行了测试与分析,实验结果表明该模型分类模块误差较小,读写效率较高,而且随着数据的增大,非结构化存储性能保持稳定.  相似文献   

6.
研究了利用半结构化时空数据的"嵌套"特征实现对时空数据存储和管理的问题,提出了一种面向时空嵌套关系的半结构化时空数据管理模型.该模型以时空数据的"嵌套关系"为管理对象,用更丰富的数据语义(semantics)区别了"实体对象类"的属性、"空问嵌套关系类"的属性和"时空嵌套关系类"的属性等概念,运用非第一范武的嵌套关系数据库实现对时空数据的综合营理.基于传统关系型DBMS和GIS组件构成的软件实验系统表明,本模型简明有效,在数据更新和冗余方面均取得了较好的效果.该研究为半结构化时空数据的管理探索了一条新的途径.  相似文献   

7.
计算机网络入侵通常具有高频度特性,因此,识别是否正常访问,对数据流中重复元素的挖掘,给出频度指标,是一种重要的依据.提出一种基于数据流频繁模式的改进型AFP算法,该算法采用滑动窗口树技术,单遍扫描数据流及时捕获网络上的最新模式信息,并将该算法应用在入侵检测模型中正常数据和异常数据的在线挖掘.解决了有限存储和无限数据流的矛盾.实验结果表明,该模型有较高的报警率和较低的误报率.  相似文献   

8.
针对NativeXML数据存储性能不高、支持查询和更新效率低等不足,提出一种新的半结构化信息存储模型WNXD。引入动态倒排技术和数据映像机制,将记录和分页的存储模式相结合,建立3种结构化索引,用不同方法解决了结构化和动态增长的矛盾。创建了实用的存储模型,提供了从整体到局部,从元素、属性到具体值的全面覆盖访问策略,底层的数据存取,尤其是内容混杂的各类形式异构数据的有效性和完整性存取,得到了最大程度保证,查询次数减小了I/O,提高了系统处理性能。  相似文献   

9.
当前大数据交互的不透明性以及数据文件访问形式的不合理性, 导致大数据存储存在存储延时长、 安全性较差的问题, 为此提出基于区块链的非结构化大数据动态安全存储技术。 构建多用户规则调度模型, 利用存储数据包生成独立的行向量与 n 阶矩阵, 基于列不满秩概率完成存储算法设计; 采用区块链非对称加密技术的公私钥, 实现透明与完整的数据交互, 对次要信息与数据访问形式实施记录。 引入分布式文件系统, 将其与Mongo DB 非关系型数据库有效结合, 从而使非结构化大数据得到安全存储。 仿真实验结果表明, 该方法不仅具有理想的存储速率, 而且使大数据的完整性得到了保证, 具有理想的有效性与实践性。  相似文献   

10.
研究了如何利用查询和视图来解决半结构化数据查询重写问题.给出了一种OEM数据模型和一种半结构化数据查询重写算法.算法借用了半结构化数据查询重写桶算法的思想,解决了半结构化数据模型之下查询重写的一些新问题.理论分析表明,它降低了算法的代价.  相似文献   

11.
针对基于路径的半结构化数据结构相似度度量方法不能很好地处理路径部分相似以及忽略了元素之间兄弟关系的问题,提出一种基于频繁关联标签序列的结构相似度度量方法,该方法将半结构化数据的结构信息视为标签序列的集合,采用数据挖掘技术中频繁模式和关联项集的概念及算法,从半结构化数据中挖掘频繁关联标签序列并以此作为特征计算其结构相似度.实验结果证明:提出的基于频繁关联标签序列的半结构化数据结构相似度度量方法可以解决基于路径方法的不足,计算的结构相似度更准确、更合理.  相似文献   

12.
基于nested-loop的大数据集快速离群点检测算法   总被引:1,自引:0,他引:1  
针对已有的多数离群点检测算法存在扩展性差,不能有效应用于大数据集的问题,在已有的基于距离的离群点检测算法的基础上,设计模信息表存储结构,利用向量内积不等式关系以及合理的存储分配和调度策略,提出一种高效离群点检测算法DBoda.该算法通过在预处理中存储每个点的模信息,减少点间距离的计算量,并对嵌套循环方法进行优化,进一步减少I/O的开销.理论分析和试验结果表明,所提算法具有时间消耗小和适用于处理大数据集的特点,可以有效地解决离群点检测中的算法时间复杂性和算法扩展性问题.  相似文献   

13.
随着信息爆炸时代的到来,如何有效的从网络上获取有价值的信息成为当前研究的热点.Web文本挖掘技术就是解决上述问题的一种方法,它从大量半结构化、异构的Web文档集中发现潜在的、有价值的知识.本文着力于研究Web文本挖掘过程中的重要技术,并通过分析当前研究热点和各种算法,提出一种改进的投影聚类算法,实验证明其正确率比k-均值算法高.最后,本文设计了基于Web文本挖掘的证券投资系统,并将改进的聚类算法应用其中.  相似文献   

14.
孤立点挖掘在教务管理中的应用研究   总被引:2,自引:0,他引:2  
孤立点挖掘是一个重要的知识发现任务,在介绍孤立点及其挖掘算法的基础上,利用孤立点检测方法对教务管理系统中积累的数据进行分析,并提出基于距离和的孤立点检测算法。实验结果分析表明,该算法降低了检测过程对用户设置阀值的要求,在时间复杂度上,稍微优于循环一嵌套算法。  相似文献   

15.
基于证券行业半结构化数据的抽取技术   总被引:1,自引:1,他引:1  
半结构化数据是网络中一种重要的数据形式,其数据抽取和知识发现研究是半结构化数据各项研究的核心.针对互联网上的证券交易系统半结构化的个股资料,根据OEM模型,利用SAS软件建立了半结构化到结构化数据的转换.本文关于信息的抽取技术,提供了一种新的方法,无论为投资者还是为数据挖掘都提供了证券分析的基础,从而能更好地提高抗风险的能力.  相似文献   

16.
信息时代的快速发展带来的是信息总量呈现几何级数的增加,而海量数据的存储和分析处理对计算机硬件能力和数据分析能力都是一个极大的挑战.数据挖掘算法是针对于大批量数据处理而提出并逐步发展起来的,基于完备的数据库技术,可以在云计算算法、矩阵压缩算法和并行关联算法的基础上,进行算法集成,能进一步提高数据挖掘的速度、精度和时效性,在实际海量数据的处理过程中有较好的适应性,为海量数据处理提供了新的技术分析方法.  相似文献   

17.
Web数据挖掘是将数据挖掘技术和理论应用于对互联网资源挖掘的一门新兴研究领域.XML能够为web数据挖掘提供半结构化的数据模型,解决了Web挖掘中的数据源问题.分析了Web数据挖掘的特点,并将XML技术引入Web数据挖掘领域中,进而在此基础之上介绍了一种数据挖掘的模型.  相似文献   

18.
本文讨论了基于Web使用挖掘的Web个性化技术,针对个性化系统的功能及特点,论述了相关数据采集、数据预处理技术和模式发现及其在个性化服务中的应用,提出了一个关于个性化系统的实时聚类算法.实验结果表明,该算法不仅有效,而且具有较高的准确度,能适应用户短期浏览的变化.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号