首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
识别和抽取XML文档中的关系信息及其出现模式   总被引:3,自引:0,他引:3  
Web中存在着大量描述实体间相互关联的信息,而目前的搜索引擎缺乏知识的处理和理解能力,无法对Web中的关系信息进行识别.该文以XML作为研究对象,提出了一种XML文档中识别和抽取关系信息及其出现模式的方法.该方法按照用户的挖掘请求搜集XML文档;通过计算XML文档的相似度来识别目标文档;建立用户挖掘模式并与目标文档进行模式匹配实现关系数据的抽取.实验结果表明提出的XML相似度计算方法能较好的实现目标文档的识别,同时采用的模式表达和匹配方式也能较准确地从目标文档中抽取出用户所需的关系数据.  相似文献   

2.
抽取XML模式到关系模式   总被引:1,自引:0,他引:1  
提出一种XML建模技术,对多个XML文档构造共享模型.通过该模型构造的XML共享模式到关系模式的映射,实现将同源异构的XML片断抽取到相同的关系表中.试验表明,算法在同源异构XML片断的映射上具有比以往算法更好的映射结果.  相似文献   

3.
在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类。用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。  相似文献   

4.
中文关系抽取技术研究   总被引:1,自引:0,他引:1  
在网络数据杂乱繁多的今天,信息抽取越来越受到重视,而关系抽取作为信息抽取的一个重要研究方向也倍受学者们的关注.在对关系抽取的发展历史进行回顾的基础上,阐述了近五年里关系抽取研究中的主要方法和思路.根据关系抽取中所采用的不同技术,对比分析了他们在模型思路及技术实现上的异同,同时对优势和劣势比较了分析.最后,对关系抽取任务中存在的难点问题进行了阐述,并提出了未来可能的解决思路,旨在为关系抽取技术的进一步发展和应用提供有效的说明和借鉴.  相似文献   

5.
介绍了如何将概念化信息模型转换为XML文档的设计,分析了一些必要的设计决策:如何表示类型层次,使用元素或属性,以及如何将二进制属性编码。  相似文献   

6.
分析了P_schema存储方法存在的问题,提出了改进的P_schema存储方法;通过引入DOM树,使嵌套结构等价于DOM树节点的父子关系,用filiation表存储节点的父子关系;由于多次引用元素结构信息相同,所以存储在同一关系中,用其外键表示引用关系,解决了P_schema存储方法中的一些难题,如嵌套和多次引用元素存储问题.  相似文献   

7.
针对C程序提出一种生成标记字符串的方法,即用XML文本表示C程序.首先格式化源程序,从C语言全集中挑选出部分能代表程序结构的关键结构,并用正则表达式进行识别,然后将C程序中容易发生抄袭的结构信息存储到XML文本中,最后对实验系统进行了测试.测试结果表明,该方法能快速找到程序中发生抄袭的代码,从而提高相似度比较的速度和准确性.  相似文献   

8.
桂美坤 《科技信息》2009,(25):I0072-I0072,I0061
XML技术以其自身独特的优点,已是作为中介来实现异构系统之间数据交换的理想选择。在以XML为中介的数据处理过程中.需要进行关系数据库和XML之间相互转化,这就需要在XML和关系数据库之间建立一种映射关系,本文就是针对这种映射方法的研究。  相似文献   

9.
关系模式转换为XML模式是数据集成领域中的一个重要问题,是确保数据正确提取和转换的前提.在总结用Schema文档描述关系模式向XML模式转换的基础上,从结构转换、数据类型转换、约束转换三个方面提出了新的转换方法,完整的保留了关系模式的语义.此方法以较为简洁的结构保存了关系模式的结构、约束信息,实现了关系模式向XML模式的完全转换,完整地表达了关系模式的信息.  相似文献   

10.
越来越多的网上信息交换依附于XML文档,许多软件需要检索、存取、处理相关条件的XML文档并且返回近似值,因此XML文档的相似性评价受到越来越多的关注。本文对XML文档的相似性的几种常用的比较方法进行了总结和分析。  相似文献   

11.
一种基于仿生学原理的复杂彩色目标辨识方法   总被引:5,自引:1,他引:5  
根据仿生学原理,以生命科学对人类视觉系统的研究成果为基础,提出了一种满足目标辨识四要素(形状、颜色、大小、知识)原则的辨识复杂彩色目标的影射-特征-知识方法。此方法充分考虑了四要素对目标辨识过程的影响,实验证明了其有良好的准确性和速度优势。  相似文献   

12.
在线联机分析处理(OLAP)是一个分析商业信息趋势的重要工具。虽然OLAP用多维立方体模型来分析结构化的商业数据是理想的,但是它并不适合用来表现和分析复杂的半结构化数据,如:XML文档。因为在广泛的应用领域,XML都是表现数据的语言选择,所以分析XML文档是必需的和紧迫的。描述了一个用XML树模型来分析XML文档的想法。鉴于OLAP的多维聚合操作不能够表示XML文档上的、结构复杂的分析操作,提出了新的、扩展了的XQUERY来支持这种复杂的分析操作。  相似文献   

13.
XML文档在网页上的显示形态类似于树型结构,为了达到特定的网页显示效果,需要使用其他技术对其进行转换,本文讨论和比较了三种常见的转换技术:XSL、数据岛和CSS.  相似文献   

14.
XML文件可以利用树状结构来表示,于是把如何将XML文件做聚类看成如何对树状结构的数据作聚类.使用SOM聚类工具搭配上Jaccard 的距离测量公式来对XML 文件做聚类,然后在每个cluster 中利用GST(Graph Search Technique)算法从这些XML文件当中找出他们的最大序列,最后将这些最大序列融合起来成为共同的结构.  相似文献   

15.
复杂背景中字符图像的提取   总被引:1,自引:0,他引:1  
  相似文献   

16.
复杂背景中字符图像的提取   总被引:2,自引:0,他引:2  
在具有噪声及灰度不均匀的复杂背景中提取出待识别的字符, 是字符识别的关键一步。提出应用简单统计法及Roberts边缘检测相结合的方法, 对图像进行二值化处理, 并在此基础上利用H-S连同分析方法去掉了复杂的背景块。在586/AMDK6/200机器上, 对50余幅图像处理, 均正确提取出了待识别的字符且每幅的实现时间不到1 s。  相似文献   

17.
从数据库角度分析了XML文档中存在的间接函数依赖、传递函数依赖、多值依赖,阐述了间接函数依赖和传递函数依赖规范化所对应的第1范式、第2范式及多值依赖规范化所对应的第3范式,提出了4个文档规范化规则,这些规则分别消除了间接函数依赖、传递函数依赖、多值依赖,同时从文档规范化的性能因素方面探讨了反规范化的有用性.  相似文献   

18.
基于综合方法的文本主题句的自动抽取   总被引:2,自引:0,他引:2  
提出了基于综合方法的主题句的提取方法,并着重讨论了文本主题概念的提取以及相应的权值体系.根据概念间的相互关系,对同义概念进行语义归并,对上下位概念进行语义聚焦,模拟人工标引专家在分析文本主题时的“兼顾各个方面的主题,同时又有所侧重”的原则.在调整文本主题上下位概念的权值时,既考虑下位概念对上位概念的增强作用,同时又考虑到这种调整不影响整个文本主题的分布,从而更精确地抽取出文本的主题概念.采用多种权重度量方式,综合评估句子反映主题的价值.在此基础上,采用主题句选择算法将文本的主题数与所抽取的主题句的数量关联在一起,保证每一个主要的主题都有对应的主题句被选中,并解决主题句的去重问题,从而进一步提高所抽出主题句的主题覆盖性和概括性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号