首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 496 毫秒
1.
针对XML文档半结构化的特点及传统tf\|idf方法仅考虑关键字在文档中出现的频率, 而未考虑XML文档中节点的语义信息问题, 利用向量空间模型, 设计一种基于XML关键字查询结果的相关度排序策略. 相关度计算充分考虑XML文档中各节点对文档的区分程度、 节点描述文档的明确程度及节点描述文档的直接程度, 以提高节点权重度量的准确性, 从而将最相关的信息提供给用户, 经DBLP数据集实验验证了该方法的有效性.  相似文献   

2.
讨论了基于XML文档的关键字查询技术,根据XML文档结构的特点,结合关键字查询的需求,提出查询文档中主题的概念;建立XML文档的主题索引,设计出基于主题的高效查询算法.该算法依据主题索引和输入的关键字判断用户的查询主题,再根据主题执行获取最终查询的结果.在查询过程中不仅排除了查询主题不相关的关键字节点,同时也避免生成不相关的查询结果,提高了查询效率和质量.实验结果证明了该算法在绝大多数情况下的高效性.  相似文献   

3.
研究了基于图结构XML文档的关键字检索方法。根据图结构XML文档的结构特点,结合用户输入的关键字及其类型,建立了用户查询语义模型;定义了拥有完整语义信息的查询结果模型,并从层次结构上分析来定义结果的语义相关性排序方案;提出基于语义的双层索引结构。实验结果表明,算法具有较高的准确率和效率。  相似文献   

4.
模糊XML关键字查询方法   总被引:1,自引:0,他引:1  
在实际应用中数据经常存在不确定性和模糊性,因而对模糊XML数据的关键字查询处理成为一种非专业用户的需求.针对模糊XML数据的关键字查询方法进行研究,对模糊XML的关键字查询语义进行分析,提出一种新的模糊XML文档的编码方法 CDewey,该编码方法能够有效地对节点类型进行区分.在此基础上,提出关键字查询算法FIndex Loop,该算法能够准确求解输入关键字的SLCA结果及结果的可能性值,最后通过实验表明此查询方法的有效性.  相似文献   

5.
为准确地推断XML关键字查询中用户的查询目标,提出一种基于结构耦合的目标节点推断方法.在获取目标节点时,考虑了某条路径下XML节点出现的频率,同时也考虑了该路径的长度对目标节点类型的影响.通过分析,引入XML文档树的结构耦合度的计算,进行目标节点的推断.结果表明,该方法可以得到更加准确的目标节点,提高查询查准率.  相似文献   

6.
由于用户查询信息不足而导致传统向量空间模型检索结果不够准确,针对此问题,提出了一种基于文档关系改进的向量空间模型.改进模型将初始检索结果中排名靠前的高相关文档组成基准集,通过计算初始检索结果集中每篇文档与基准集的相似度,来修正原模型中文档与查询的相似度,实现对检索结果的重排序,从而实现对向量空间模型的改进.实验结果表明:与传统向量空间模型相比,改进模型使得相关文档排名更合理,在保证召回率的条件下提高了准确率.  相似文献   

7.
XML作为交换资料的标准,广泛应用于分布式系统中,但是在使用XML DOM来处理大型XML文件时,会占用过多的存储器资源并需要更多的CPU时间.提出一种基于SAX模型的XML 文档更新算法,利用SAX模型占用时间和空间少的优点进行文档的更新.形式化地定义了XML文档的更新脚本,使用X-Path来表示所更新的文档节点,在XML文档的SAX扫描过程中,生成XML文档的节点的X-Path,从而判断文档节点是否需要更新,然后通过将更新脚本应用到需更新文档实现文档更新.  相似文献   

8.
采用Shared Inlining方法,提出基于函数依赖的XML到关系的无损映射算法,使得原XML文档的内容和结构信息及语义约束完整地映射到关系数据库中.在此基础上利用外键连接与路径映射规则,提出基于语义约束的关系模式向XML模式的转换算法,以重构出原XML文档.提出的新观点是:映射得到的关系或XML文档的范式不但与映射算法有关,而且与XML文档或关系的规范化程度有关.定义了XML范式,提出XML文档与关系的相互转换中XML范式与关系范式对应关系的相关命题,并给出了相应证明.  相似文献   

9.
针对XML(可扩展标记语言)文档提出的信息单元和信息特征的概念,利用信息单元作为候选查询结果,以信息特征表征标签信息,结合XML文档的结构语义,在TF*IDF模型的基础上,设计了查询结果的相关度排序策略.该策略同时涉及了查询结果的结构信息和内容信息,计算了信息特征的重要性,且能利用信息特征的重要性衡量不同信息特征下关键...  相似文献   

10.
细粒度语义网检索   总被引:6,自引:0,他引:6  
语义网的有向标记图数据模型决定其在内容检索方面与纯文本、超文本或半结构化文档检索存在较大差异.现有检索模型和相似度计算方法不能完全满足对语义网的检索和评价.该文以资源这种较细粒度作为检索单元,考虑查询关键字在资源内容中的频率和结构分布,提出一个细粒度语义网检索模型,并扩展了相似度计算公式和倒排索引结构.在语义网挖掘系统(semantic web aiding rich miningsystem,SWARMS)中实现了该模型及相关算法.在SourceForge和DBLP两个测试集上的实验表明,该模型能够结合语义网结构查询与基于关键字的内容查询,在相同查全率下查准率是单独应用结构或内容查询的两倍左右.  相似文献   

11.
一种改进的XML关键字查询算法   总被引:1,自引:0,他引:1  
为了使XML关键字查询中的查询结果更有意义,首先研究针对XML的各种经典关键字查询算法,然后根据XML文档的结构特征,定义几种结构类型,在此基础上,提出了一种改进的SLCA算法.该算法不仅解决了在XKSearch中存在的查询结果返回无意义信息的问题,而且与XSEEK中的返回有意义信息的算法相比,有效提高了查询效率.试验结果表明,该算法在查询质量和查询效率上都有较大提高.  相似文献   

12.
XML已经广泛的应用于多个领域。基于关键字检索的搜索引擎在商业上获得了巨大的成功。基于相关性进行XML信息检索,将相关性高的结果排在靠前的位置,直接关系到检索质量和用户的满意度。现有的ALCA算法效率较高,但未基于相关性对结果进行排序。在该算法的基础上增加相关性排序方法,先按根结点中是否包含关键字将所有结果分成相关性不同的两个等级,然后再分别对两个等级的结果排序。结果片段与用户信息需求的相关性是由其中的元素、属性和文本结点的总贡献决定的。实验结果表明改进后的算法取得了较好的排序有效性。  相似文献   

13.
概率数据模型研究已受到广泛关注,但对于多数据源情况下的概率数据管理却缺乏研究,在已有模型的基础上,提出了一种扩展的基于XML的概率数据模型,使概率查询操作不再局限于模型内部,而是充分利用各数据源自身的信用度及规模等信息,支持多个XML概率数据文档间的归并与查询,此外该模型还解决了用XML表示概率数据所引入的数据依赖问题.  相似文献   

14.
A new way of indexing and processing twig patterns in an XML documents is proposed in this paper. Every path in XML document can be transformed into a sequence of labels by Structure-Encoded that constructs a one-to-one correspondence between XML tree and sequence. Base on identifying characteristics of nodes in XML tree, the elements are classified and clustered. During query proceeding, the twig pattern is also transformed into its Structure-Encoded. By performing subsequence matching on the set of sequences in XML documents, all the occurrences of path in the XML documents are refined. Using the index, the numbers of elements retrieved are minimized. The search results with pertinent format provide more structure information without any false dismissals or false alarms. The index also supports keyword search Experiment results indicate the index has significantly efficiency with high precision.  相似文献   

15.
传统搜索引擎无法满足用户对社区网络中实时信息的需求。给出一种实时搜索引擎模型,利用经过算法优化的网络爬虫,实现制导式的数据抓取,同时利用社区网络提供的开放API获得更新数据。通过XML结构化数据,使用改进的向量空间模型对信息进行过滤和分类,并采用考虑时间因素的相关度算法对搜索结果进行排序。实验证明该模型能够实现搜索结果的实时性,并且能够保证搜索项与搜索结果之间比较高的相关度,为用户提供更好的搜索体验。  相似文献   

16.
基于领域本体的信息搜索模型   总被引:3,自引:0,他引:3  
针对目前的搜索模型局限于语法层次上关键词匹配的特点,以领域本体作为知识组织方式,提出了一种语义环境下基于本体的信息搜索模型.在此模型的基础上,分别提出了文档语义标注算法和搜索词语义扩展算法,两种算法分别对文档集语义分析和搜索词语义关系理解,实现双向语义信息搜索的目的.实验结果表明,提出的信息搜索方法能够克服关键词匹配搜索的不足,获得较好的搜索效果  相似文献   

17.
针对普通用户发出的面向XML文档的自然语言模糊查询,分析了模糊内容和结构检索(VCAS)的影响因素,充分利用预设答案结点的逻辑意义完整性,结合模糊抽取的查询表达式给出了如何找到模糊内容检索的最佳查找粒度.在此基础上,设计了VCAS检索的结果相关性排序模型,最后通过实验从不同角度对模型进行了验证.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号