首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
研究了基于图结构XML文档的关键字检索方法。根据图结构XML文档的结构特点,结合用户输入的关键字及其类型,建立了用户查询语义模型;定义了拥有完整语义信息的查询结果模型,并从层次结构上分析来定义结果的语义相关性排序方案;提出基于语义的双层索引结构。实验结果表明,算法具有较高的准确率和效率。  相似文献   

2.
一种改进的XML关键字查询算法   总被引:1,自引:0,他引:1  
为了使XML关键字查询中的查询结果更有意义,首先研究针对XML的各种经典关键字查询算法,然后根据XML文档的结构特征,定义几种结构类型,在此基础上,提出了一种改进的SLCA算法.该算法不仅解决了在XKSearch中存在的查询结果返回无意义信息的问题,而且与XSEEK中的返回有意义信息的算法相比,有效提高了查询效率.试验结果表明,该算法在查询质量和查询效率上都有较大提高.  相似文献   

3.
A new way of indexing and processing twig patterns in an XML documents is proposed in this paper. Every path in XML document can be transformed into a sequence of labels by Structure-Encoded that constructs a one-to-one correspondence between XML tree and sequence. Base on identifying characteristics of nodes in XML tree, the elements are classified and clustered. During query proceeding, the twig pattern is also transformed into its Structure-Encoded. By performing subsequence matching on the set of sequences in XML documents, all the occurrences of path in the XML documents are refined. Using the index, the numbers of elements retrieved are minimized. The search results with pertinent format provide more structure information without any false dismissals or false alarms. The index also supports keyword search Experiment results indicate the index has significantly efficiency with high precision.  相似文献   

4.
模糊XML关键字查询方法   总被引:1,自引:0,他引:1  
在实际应用中数据经常存在不确定性和模糊性,因而对模糊XML数据的关键字查询处理成为一种非专业用户的需求.针对模糊XML数据的关键字查询方法进行研究,对模糊XML的关键字查询语义进行分析,提出一种新的模糊XML文档的编码方法 CDewey,该编码方法能够有效地对节点类型进行区分.在此基础上,提出关键字查询算法FIndex Loop,该算法能够准确求解输入关键字的SLCA结果及结果的可能性值,最后通过实验表明此查询方法的有效性.  相似文献   

5.
探讨了针对概率XML文档集中与内容相关的关键字检索结果的排序问题,针对概率XML文档的特征提出了一种新的排序模式.与仅取决于检索结果概率的检索排序算法不同,本文提出的排序算法充分考虑了节点对文档的区分程度、节点描述文档的程度,以及XML文档本身的结构特性,设计了满足以上特征的检索结果排序模型,并针对排序模型提出了新的倒排索引结构.新的排序算法可以快速完成关键字检索,并将最相关的信息提供给用户.模拟数据集实验验证了该方法的有效性.  相似文献   

6.
XML与数据库的通信问题是XML研究领域中的一个重要问题。在总结多种映射方法的基础上,提出了一种方法将多个相似的XML文档进行解析。根据映射关系,生成统一模式,并分析归纳出一个集成的模式,然后创建一个数据库,提取并存储XML文档数据到数据库。它主要解决了XML文档与数据库通信问题,并通过实例论述了实现步骤及相关的关键技术,其最大的特点就是不用考虑文档的模式信息(DTD,XML Schema)。  相似文献   

7.
0 IntroductionToretrieveXMLdata ,severalquerylanguageshavebeenproposed.ExamplesareXPathandXQuery[1] thatisthefirstpublicworkingdraftofaquerylanguageforXMLreleasedrecentlyfromtheW3C .ThecommonfeaturesoftheselanguagesaretheuseofXPathpathexpressionsorregular…  相似文献   

8.
XML文件可以利用树状结构来表示,于是把如何将XML文件做聚类看成如何对树状结构的数据作聚类.使用SOM聚类工具搭配上Jaccard 的距离测量公式来对XML 文件做聚类,然后在每个cluster 中利用GST(Graph Search Technique)算法从这些XML文件当中找出他们的最大序列,最后将这些最大序列融合起来成为共同的结构.  相似文献   

9.
提出一种基于XML的文档图像在原生数据库中存储和检索的新方法,该方法将文档图像切分标记为XML文档,将此类XML文档存储到原生数据库中;利用XML:DB API接口对XML数据进行查询和管理,XSL样式表完成XML数据的显示.  相似文献   

10.
针对XML文档半结构化的特点及传统tf\|idf方法仅考虑关键字在文档中出现的频率, 而未考虑XML文档中节点的语义信息问题, 利用向量空间模型, 设计一种基于XML关键字查询结果的相关度排序策略. 相关度计算充分考虑XML文档中各节点对文档的区分程度、 节点描述文档的明确程度及节点描述文档的直接程度, 以提高节点权重度量的准确性, 从而将最相关的信息提供给用户, 经DBLP数据集实验验证了该方法的有效性.  相似文献   

11.
Optimal clustering for the web documents is known to complicated combinatorial Optimization problem and it is hard to develop a generally applicable oplimal algorithm. An accelerated simuIated arlneaIing aIgorithm is developed for automatic web document classification. The web document classification problem is addressed as the problem of best describing a match between a web query and a hypothesized web object. The normalized term frequency and inverse document frequency coetficient is used as a measure of the match. Test beds are generated on - line during the search by transforming model web sites. As a result,web sites can be clustered optimally in terms of keyword vectors of corresponding web documents.  相似文献   

12.
XML既是互联网上流行的信息交换媒介,也是储存数据的主要方式.对大量XML数据做查询,要加快查询速度,最有效的方法之一就是建立良好的索引结构并辅以相关的搜寻技术.动态XML 数据标记法(LSDX)可以动态更新标记,不用重建索引和标记,由于有2个问题仍然没有完全解决,因而影响它的实用性,提出的2个标记编码规则很好地解决了这2个问题.  相似文献   

13.
越来越多的网上信息交换依附于XML文档,许多软件需要检索、存取、处理相关条件的XML文档并且返回近似值,因此XML文档的相似性评价受到越来越多的关注。本文对XML文档的相似性的几种常用的比较方法进行了总结和分析。  相似文献   

14.
为了挖掘XML(Extensible Markup Language)文档在历史变化过程中不经常发生变化的结构所蕴含的知识,给出了发现冰冻结构的方法,使用一组冰冻结构组成的文档向量模型代表一个XML文档,并使用加权Jaccard系数作为相似度,利用基于XML文档历史变化过程中相对稳定的冰冻结构对XML文档进行聚类。经过实验证明,基于冰冻结构能够将XML进行有效的聚类,聚类后每簇中的XML文档具有相似的不经常变化结构。  相似文献   

15.
提出一种将关键词查询转换为SPARQL查询的方法来进行RDF数据的搜索.首先,根据RDF本身的关联特点,构建一个压缩实体摘要图;然后,借助关键词与所在实体的索引,将所查询的关键词在该摘要图上进行定位,通过图双向搜索算法找出包含关键词实体的前k子图,获得查询实体之间的关系,再联合最初的关键词及他们的属性,构建SPARQL查询;最后使用SPARQL搜索引擎执行查询.实验结果表明,所提方法较其他方法有更快的响应时间及更高的准确率.  相似文献   

16.
王腾阳  赵小丹  胡林 《科学技术与工程》2023,23(27):11562-11569
马铃薯育种领域积累有大量尚未结构化处理的育种文献文本,人工整理文献内的种质资源数据费时费力。为了快速、准确地从育种文献中提取种植资源数据,使用基于词性标注规则和预设词的方法抽取文献数据。文献格式为PDF文档,对于不能直接获取文档文本的情况,使用游程平滑算法和光学字符识别(Optical Character Recognition, OCR)获取文本内容。采用用户可灵活建立的关键词库保存抽取项,通过正则表达式获取关键词所在语句,并利用自然语言处理工具对语句进行分词与词性标注,根据规则抽取目标词,同时采用基于关键词与预设词距离的信息抽取方法,实现将育种文献从自由文本转化为结构化数据。对115篇文献的1490个抽取项进行信息抽取,实验表明,该方法的准确率为82.97%,召回率为99.72%,F值为90.58%,能以较高的准确率和召回率对马铃薯育种文献种质资源进行抽取,可为构建马铃薯遗传育种数据库提供数据基础。  相似文献   

17.
基于领域本体的信息搜索模型   总被引:3,自引:0,他引:3  
针对目前的搜索模型局限于语法层次上关键词匹配的特点,以领域本体作为知识组织方式,提出了一种语义环境下基于本体的信息搜索模型.在此模型的基础上,分别提出了文档语义标注算法和搜索词语义扩展算法,两种算法分别对文档集语义分析和搜索词语义关系理解,实现双向语义信息搜索的目的.实验结果表明,提出的信息搜索方法能够克服关键词匹配搜索的不足,获得较好的搜索效果  相似文献   

18.
复杂数据类型验证是XML文档验证的主要内容,是检查XML文档结构是否符合模式规则的关键.根据Schema规范中复杂数据类型的描述和自动机理论,提出了一种称为模式自动机的数据结构,讨论了将XML复杂数据类型结构转换成模式自动机的方法,并设计了用来验证文档结构的算法.使用模式自动机验证算法可以全面地发现XML文档中的结构错误并准确地给出相应的错误信息,在实际应用中具有很高的效率.  相似文献   

19.
提出了一种基于 Schema 和微型数据块优化的XML方法(XTrim)。XTrim对 XML Schema 信息进行优化, 并提出了最小化结构信息方法, 即利用优化后的 XML Schema 信息对 XML 文档的结构进行压缩, 同时改进了分组存储策略来提高压缩率。此外, XTrim优化了微型数据块的存储, 进一步提高了压缩效果。实验数据表明, 与一些现有的方法相比,XTrim 取得了更好的压缩效果。  相似文献   

20.
关键词检索方法在科技查新中的应用研究   总被引:2,自引:0,他引:2  
主要论述了运用关键词检索在检索结果不理想的情况下,可考虑调整检索范围,对关键词进行适当的扩展.若检索结果还不满意,可采用分类号—关键词组合进行检索,以弥补使用关键词检索的不足,并对检索策略进行优化,从而提高文献的查全率和查准率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号