首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 468 毫秒
1.
为了挖掘XML(Extensible Markup Language)文档在历史变化过程中不经常发生变化的结构所蕴含的知识,给出了发现冰冻结构的方法,使用一组冰冻结构组成的文档向量模型代表一个XML文档,并使用加权Jaccard系数作为相似度,利用基于XML文档历史变化过程中相对稳定的冰冻结构对XML文档进行聚类。经过实验证明,基于冰冻结构能够将XML进行有效的聚类,聚类后每簇中的XML文档具有相似的不经常变化结构。  相似文献   

2.
在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类。用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。  相似文献   

3.
蛋白质的二级结构序列和结构型   总被引:1,自引:0,他引:1  
从蛋白质的二级结构序列出发 ,提出了冗余的概念 ,定义了冗余数量和冗余长度 ,给出了不同结构型蛋白的冗余数量和长度的分布特性 .统计结果表明 α类蛋白中 30 %、β类蛋白中84 %、α/β类蛋白中 95 %的序列不同程度的存在冗余 ,冗余数量和冗余长度主要分布在 1~ 3的范围 .以主二级结构序列三联体为参数 ,利用信息聚类方法对 α类、β类、α/ β类、α β类的6 0 0个蛋白进行了聚类 ,结果表明 ,对冗余较少的α类蛋白 85 %以上能够较好地聚类在一枝中 ,但对于冗余较多的其它类蛋白不能分在一个大支中 ,大部分可以分散在多个小支中 .以主二级结构序列三联体为参数 ,利用 Mahalanobis距离方法对上述四种结构型进行预测 ,预测的总体准确率为 81 .1 % .聚类结果和利用 Mahalanobis距离分类结果充分展示了蛋白质二级结构序列对结构型的特殊作用 ,但由于冗余的影响使得二级结构序列的信息并未充分显示出来 .说明从蛋白质二级结构序列出发预测结构型和构建蛋白质框架结构是合理的选择  相似文献   

4.
简要介绍了XML语言的基本概念和主要优点及ASP.NET平台.在此基础上重点介绍了XML的用途、文件结构,以及基于ASP.NET的开发模式.详细介绍了采用ASP.NET中的类来转换、显示XML文档和利用ADO.NET对关系数据库中数据和XML数据相互转换,从而提高应用程序的效率和应用范围.最后总结了XML在企业系统改造应用中的优势,并展望了XML应用于Web的发展前景.  相似文献   

5.
提出了一种基于八邻域网格聚类的多样性XML近似查询算法.首先给出了支持XML文档间语义距离计算的3种编辑操作代价模型,再利用XML文档间的语义距离建立XML文档的向量模型并设计基于八邻域网格的XML文档聚类算法,进而利用聚类过程中得到的物理和逻辑聚类中心对静态有序选择算法的查询评估策略进行优化,这样做只需定位聚类中心所在组群的局部范围,并在该范围内进行目标查询,而无需遍历整个XML数据库,从而快速返回满足用户需求的查询结果.经汽车外形智能化设计实验表明,所提算法的查询速度比静态有序选择算法平均提高了3~4倍.  相似文献   

6.
从蛋白质的氨基酸组成出发,用信息聚类方法给出了蛋白质的聚类树状图,发现树状图的分支与蛋白质二级结构的含量有较强的相关性。  相似文献   

7.
从蛋白质的氨基酸组成出发,用信息聚类方法给出了蛋白质的聚类树状图,发现树状图的分支与蛋白质二级结构的含量有较强的相关性.  相似文献   

8.
在分析Web内容挖掘特征的基础上,提出一种基于XML技术的Web内容挖掘模型.利用HITS算法确定权威Web页面,利用HTMLTidy工具将非XML文件经过数据清洗后转换成结构良好的XMI。文档,结合互联网上传统科技论文的自动抽取系统实例,采用文本聚类分类技术进行面向XML文档数据的数据挖掘.实验结果表明,该模型工作良好,可以自动、有效地提取网页内容.  相似文献   

9.
提出了一种客观的特征提取和相关的方法用于DNA序列的结构分析.这种方法是从DNA序列码的碱基和片段码中提取统计特征和相关特征.然后计算样本序列和已知类之间的平均相关系数.如果最大的相关系数大于对应类的平均相关系数,则该样本被分类到对应的类中去.利用一组DNA序列样本做了试验,结果表明,这种方法适合于任何DNA序列的结构分析而不需要先念的生物信息,对发掘人类基因隐藏信息的研究大有用处。  相似文献   

10.
在模糊XML数据管理中,模糊XML文档和模糊DTD的相似性是模糊XML数据整合、模糊XML文档聚类的关键步骤.为了研究模糊XML文档和模糊DTD的相似性,对模糊DTD树进行了规则变换,主要解决元素和属性的析取约束和基数约束问题,即由析取范式转化为合取范式,将元素或属性的重复次数确定化,然后利用树编辑距离算法对模糊XML文档树和转化后的模糊DTD树集合进行相似性对比.通过实验验证了所提方法的性能优势.  相似文献   

11.
利用XML数据岛技术实现了对数据的单记录绑定,利用XMLDSO技术实现了对数据的表格绑定,并利用JavaScript给出了搜索XML数据库中特定记录的方法,重点讨论了Sun仍在开发中的一种新的Java规范请求JSR-031,通过数据绑定,它用于将XML文档编译成一个或多个Java类,而Java应用程序中可以方便地使用这些Java类。  相似文献   

12.
异构数据库数据迁移测试软件的研究与实现   总被引:1,自引:0,他引:1  
指出了数据迁移测试领域中存在的问题.开发了异构数据库数据迁移测试软件,该软件使用JDBC接口连接访问数据库,采用XML文档存储测试数据,并建立了多层数据源结构,利用JDOM应用编程接口解析XML文档获取测试数据.该软件开发过程更加符合开发者的编程习惯,实现了测试数据的可重用以及DML语句的动态生成,达到了利用软件对迁移结果进行自动化测试的目的.  相似文献   

13.
用XML-DBMS技术实现关系数据库间的数据交换   总被引:1,自引:0,他引:1  
XML-DBMS是一种在关系数据库之间互相交换数据的技术.笔者从XML-DBMS映射语言出发具体介绍了如何建立关系数据库和XML文档之间的MAP映射关系,以及如何利用MAP语言来实现关系数据库和XML文档之间的数据交换,同时结合一个网上商务订单的传输为例具体说明了它的工作过程.  相似文献   

14.
为解决当前可扩展标记语言(XML)绑定框架普遍存在的由XML模式映射生成的数据类的冗余,以及数据类系统规模过大的问题,提出一种从一组相关XML数据文件的数据实体类识别方法.该方法先抽取这一组XML数据文件的XML模式树图,并将其每个节点表示成向量空间中的向量;然后,利用相似度和距离识别该模式节点对应的预定义模式节点类型;最后,按模式节点类型到类的映射规则得到数据类.结果表明:该方法能识别合并对应同一个实体的数据类避免类冗余,将集合类型的XML文件映射成泛型类和集合类减小生成类系统的规模.  相似文献   

15.
XML文档集的结构连接算法研究   总被引:1,自引:0,他引:1  
针对XML文档集进行结构连接时,因数据量大且需要进行文档之间的比较而产生了定位复杂的问题,提出了一种利用栈实现基于缓存的结构连接算法。实验结果表明,该方法有效实现了XML文档集的结构连接计算。  相似文献   

16.
By rapid progress of network and storage technologies, a huge amount of electronic data such as Web pages and XML has been available on Internet. In this paper, we study a data-mining problem of discovering frequent ordered sub-trees in a large collection of XML data, where both of the patterns and the data are modeled by labeled ordered trees. We present an efficient algorithm of Ordered Subtree Miner (OSTMiner) based on two- layer neural networks with Hebb rule, that computes all ordered sub-trees appearing in a collection of XML trees with frequent above a user-specified threshold using a special structure EM-tree. In this algo- rithm, EM-tree is used as an extended merging tree to supply scheme information for efficient pruning and mining frequent sub-trees. Experiments results showed that OSTMiner has good response time and scales well.  相似文献   

17.
一种基于文本节点的XML文档索引   总被引:1,自引:0,他引:1  
XML将逐步取代HTML成为Internet上的主流数据表示及数据交换格式,如何快速准确地对XML文档中的数据进行查询也成为亟待解决的关键问题.因此,需要开发一种适合XML的查询策略以及特殊的索引技术.文章利用一种基于文本节点的XML索引TN—Index,特点是索引文件规模较小,而且可以进行局部查找,这样就实现了XML文档的快速查询.  相似文献   

18.
基于海量XML文档查询速度已不能满足日益增长的信息关联和服务请求多样性的需求,本文提出一个重构XML结构的频繁向量选择增量模式树(XFP-tree)算法,该算法以XML键为基础,首先对XML结构进行向量矩阵处理,再通过投影频繁模式树实现对XML结构进行分裂、合并、更改与取消等优化措施,满足XML结构简洁性与查询多样性;结合投影和树结构技术,讨论XML键向量矩阵频繁项集的划分规则,而相应启发式策略的制定与支持度阈值的讨论有利于算法效率的提高。对比其它关联算法,一系列仿真实验表明所提出的算法具有一定的有效性及合理性,是重构XML结构的一种有效方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号