首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
探讨了针对概率XML文档集中与内容相关的关键字检索结果的排序问题,针对概率XML文档的特征提出了一种新的排序模式.与仅取决于检索结果概率的检索排序算法不同,本文提出的排序算法充分考虑了节点对文档的区分程度、节点描述文档的程度,以及XML文档本身的结构特性,设计了满足以上特征的检索结果排序模型,并针对排序模型提出了新的倒排索引结构.新的排序算法可以快速完成关键字检索,并将最相关的信息提供给用户.模拟数据集实验验证了该方法的有效性.  相似文献   

2.
为准确地推断XML关键字查询中用户的查询目标,提出一种基于结构耦合的目标节点推断方法.在获取目标节点时,考虑了某条路径下XML节点出现的频率,同时也考虑了该路径的长度对目标节点类型的影响.通过分析,引入XML文档树的结构耦合度的计算,进行目标节点的推断.结果表明,该方法可以得到更加准确的目标节点,提高查询查准率.  相似文献   

3.
讨论了基于XML文档的关键字查询技术,根据XML文档结构的特点,结合关键字查询的需求,提出查询文档中主题的概念;建立XML文档的主题索引,设计出基于主题的高效查询算法.该算法依据主题索引和输入的关键字判断用户的查询主题,再根据主题执行获取最终查询的结果.在查询过程中不仅排除了查询主题不相关的关键字节点,同时也避免生成不相关的查询结果,提高了查询效率和质量.实验结果证明了该算法在绝大多数情况下的高效性.  相似文献   

4.
XML文档中相当大的部分由标记组成,用起始和结束元素标识符描述文档的树结构.本文重点研究了XML文档树结构的压缩算法,比较了各种编码方法与树结构中包含的节点数目和模型规模之间的关系.提出了有效的XML树结构压缩算法,实验结果表明,这种算法对于内部片段多次重复出现的XML树结构特别有效.  相似文献   

5.
模糊XML关键字查询方法   总被引:1,自引:0,他引:1  
在实际应用中数据经常存在不确定性和模糊性,因而对模糊XML数据的关键字查询处理成为一种非专业用户的需求.针对模糊XML数据的关键字查询方法进行研究,对模糊XML的关键字查询语义进行分析,提出一种新的模糊XML文档的编码方法 CDewey,该编码方法能够有效地对节点类型进行区分.在此基础上,提出关键字查询算法FIndex Loop,该算法能够准确求解输入关键字的SLCA结果及结果的可能性值,最后通过实验表明此查询方法的有效性.  相似文献   

6.
针对以往关系信息挖掘中存在的复杂XML文档相似度计算精度不高的问题,提出通过发现包含目标关系信息的最小公共祖先节点SCATR,以SCATR节点为根对复杂文档进行片段划分,并按片段的相似度进行聚类,目的在于改善已有模型对复杂XML文档的识别效果.实验结果表明,通过抽取包含目标关系的文档片段,去除文档片段中无关分枝,能够有效地帮助已有模型从复杂XML文档中识别和抽取出目标关系信息.  相似文献   

7.
为了解决分布式哈希表(DHT)不支持模糊匹配和查找延迟长等问题,提出使用改进的超立方体互连圈结构建立逻辑的关键字搜索层.对于给定的文档和描述该文档的关键字集合,使用反向文档索引(IDF)技术选择文档的重要关键字,并映射到环标号,将描述文档的关键字集映射到立方体标号,有效地提取了关键字对于文档的重要性信息,并通过构造生成树来实施搜索操作.实验结果表明,与使用超立方体结构作为关键字搜索层的算法相比,该算法在查询关键字较少时,具有更好的性能.  相似文献   

8.
识别和抽取XML文档中的关系信息及其出现模式   总被引:3,自引:0,他引:3  
Web中存在着大量描述实体间相互关联的信息,而目前的搜索引擎缺乏知识的处理和理解能力,无法对Web中的关系信息进行识别.该文以XML作为研究对象,提出了一种XML文档中识别和抽取关系信息及其出现模式的方法.该方法按照用户的挖掘请求搜集XML文档;通过计算XML文档的相似度来识别目标文档;建立用户挖掘模式并与目标文档进行模式匹配实现关系数据的抽取.实验结果表明提出的XML相似度计算方法能较好的实现目标文档的识别,同时采用的模式表达和匹配方式也能较准确地从目标文档中抽取出用户所需的关系数据.  相似文献   

9.
XML作为交换资料的标准,广泛应用于分布式系统中,但是在使用XML DOM来处理大型XML文件时,会占用过多的存储器资源并需要更多的CPU时间.提出一种基于SAX模型的XML 文档更新算法,利用SAX模型占用时间和空间少的优点进行文档的更新.形式化地定义了XML文档的更新脚本,使用X-Path来表示所更新的文档节点,在XML文档的SAX扫描过程中,生成XML文档的节点的X-Path,从而判断文档节点是否需要更新,然后通过将更新脚本应用到需更新文档实现文档更新.  相似文献   

10.
Domino和XML结构的相似性使XML文档可以方便有效地存储在Domino表单、域、页面、文件系统中,不需存储的XML数据可以在系统内存中处理.文章采用两种方法实现了XML文档在Domino中的存储:把XML原始数据存储在Notes域中,生成DOM(Document Object Model)树,通过遍历整个DOM树,按节点创建多个Notes文档;或者把XML原始文档调入系统内存,在内存中解析成DOM树,并只对包含所需数据的DOM树节点的子集进行处理,创建Notes文档.  相似文献   

11.
This paper presents an effective keyword search method for data-centric extensive markup language (XML) documents.The method divides an XML document into compact connected integral subtrees,called self-integral trees (Si-Trees),to capture the structural information in the XML document.The Si-Trees are generated based on a schema guide.Meaningful self-integral trees (MSI-Trees) are identified,which contain all or some of the input keywords for the keyword search in the XML documents.Indexing is used to accelerate the retrieval of MSI-Trees related to the input keywords.The MSI-Trees are ranked to identify the top-k results with the highest ranks.Extensive tests demonstrate that this method costs 10-100 ms to answer a keyword query,and outperforms existing approaches by 1-2 orders of magnitude.  相似文献   

12.
A new way of indexing and processing twig patterns in an XML documents is proposed in this paper. Every path in XML document can be transformed into a sequence of labels by Structure-Encoded that constructs a one-to-one correspondence between XML tree and sequence. Base on identifying characteristics of nodes in XML tree, the elements are classified and clustered. During query proceeding, the twig pattern is also transformed into its Structure-Encoded. By performing subsequence matching on the set of sequences in XML documents, all the occurrences of path in the XML documents are refined. Using the index, the numbers of elements retrieved are minimized. The search results with pertinent format provide more structure information without any false dismissals or false alarms. The index also supports keyword search Experiment results indicate the index has significantly efficiency with high precision.  相似文献   

13.
一种改进的XML关键字查询算法   总被引:1,自引:0,他引:1  
为了使XML关键字查询中的查询结果更有意义,首先研究针对XML的各种经典关键字查询算法,然后根据XML文档的结构特征,定义几种结构类型,在此基础上,提出了一种改进的SLCA算法.该算法不仅解决了在XKSearch中存在的查询结果返回无意义信息的问题,而且与XSEEK中的返回有意义信息的算法相比,有效提高了查询效率.试验结果表明,该算法在查询质量和查询效率上都有较大提高.  相似文献   

14.
研究了基于图结构XML文档的关键字检索方法。根据图结构XML文档的结构特点,结合用户输入的关键字及其类型,建立了用户查询语义模型;定义了拥有完整语义信息的查询结果模型,并从层次结构上分析来定义结果的语义相关性排序方案;提出基于语义的双层索引结构。实验结果表明,算法具有较高的准确率和效率。  相似文献   

15.
提出1种网络分布式计算中节点之间信息传递的通用接口——"超接口",它结合了跨平台中间件CORBA技术和未来Internet上的信息传输标准XML技术,降低了分布计算节点数据处理的复杂度,同时,也减轻了程序设计的难度,提高了分布式计算的总体性能.    相似文献   

16.
0 IntroductionToretrieveXMLdata ,severalquerylanguageshavebeenproposed.ExamplesareXPathandXQuery[1] thatisthefirstpublicworkingdraftofaquerylanguageforXMLreleasedrecentlyfromtheW3C .ThecommonfeaturesoftheselanguagesaretheuseofXPathpathexpressionsorregular…  相似文献   

17.
Deep Web查询接口分类是实现Deep Web在线数据库分类访问的主要方法,本文在研究查询接口特征数据抽取和表示的基础上,通过对查询接口所在Web页的位置来构建对应的接口特征XML文档,根据XML文档中的节点位置不同,分别为不同的查询接口特征赋予不同的分类权重因子,以提高有效特征的分类能力,并采用信息增益算法实现最终分类特征的选择,然后采用KNN分类算法实现查询接口分类,实验结果表明此方法的实际可行性.  相似文献   

18.
张静  林淑飞 《科学技术与工程》2007,7(9):2092-20942097
XML文件作为一种数据存储与数据交换的文件,其应用日益广泛,但目前对于信息量大、结构复杂的文档要获取其中有用信息的操作效率较低。现提出一种新的基于程序切片技术对XML文档进行切片的方法。对给定的XML文档,可根据给定的切片规则对文档进行切片,从而得到一个用户感兴趣信息集合的新XML文档。同样,也可以对给定的XML文档对应的DTD或XML模式文档进行切片,根据给定的切片规则生成新的DTD或XML模式文档切片,同时,也会生成对应的XML文档切片,且切片获得的新文档是符合新的DTD或XML模式规范的有效文档。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号