期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

识别和抽取XML文档中的关系信息及其出现模式 总被引：3，自引：0，他引：3

雷庆吴扬扬《清华大学学报(自然科学版)》2005,45(9):1757-1761

Web中存在着大量描述实体间相互关联的信息,而目前的搜索引擎缺乏知识的处理和理解能力,无法对Web中的关系信息进行识别.该文以XML作为研究对象,提出了一种XML文档中识别和抽取关系信息及其出现模式的方法.该方法按照用户的挖掘请求搜集XML文档;通过计算XML文档的相似度来识别目标文档;建立用户挖掘模式并与目标文档进行模式匹配实现关系数据的抽取.实验结果表明提出的XML相似度计算方法能较好的实现目标文档的识别,同时采用的模式表达和匹配方式也能较准确地从目标文档中抽取出用户所需的关系数据. 相似文献

2.

抽取XML模式到关系模式 总被引：1，自引：0，他引：1

洪欣陈维斌杜吉祥《华侨大学学报(自然科学版)》2010,31(3)

提出一种XML建模技术,对多个XML文档构造共享模型.通过该模型构造的XML共享模式到关系模式的映射,实现将同源异构的XML片断抽取到相同的关系表中.试验表明,算法在同源异构XML片断的映射上具有比以往算法更好的映射结果. 相似文献

3.

基于加权余弦相似度的XML文档聚类研究

李巍孙涛陈建孝罗梓恒李雄飞《吉林大学学报(信息科学版)》2010,28(1):68-76

在实际应用中,XML（eXtensible Markup Language）文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类。用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。相似文献

4.

中文关系抽取技术研究 总被引：1，自引：0，他引：1

阳小华张硕望欧阳纯萍《南华大学学报(自然科学版)》2018,32(1):66-72

在网络数据杂乱繁多的今天,信息抽取越来越受到重视,而关系抽取作为信息抽取的一个重要研究方向也倍受学者们的关注.在对关系抽取的发展历史进行回顾的基础上,阐述了近五年里关系抽取研究中的主要方法和思路.根据关系抽取中所采用的不同技术,对比分析了他们在模型思路及技术实现上的异同,同时对优势和劣势比较了分析.最后,对关系抽取任务中存在的难点问题进行了阐述,并提出了未来可能的解决思路,旨在为关系抽取技术的进一步发展和应用提供有效的说明和借鉴. 相似文献

5.

XML文档设计的原则与方法

王江静《太原师范学院学报(自然科学版)》2005,4(3):60-62,74

介绍了如何将概念化信息模型转换为XML文档的设计，分析了一些必要的设计决策：如何表示类型层次，使用元素或属性，以及如何将二进制属性编码。相似文献

6.

基于XML schema的XML文档在关系数据库中的存储

赵尔平李浩雒伟群党红恩王聪华《西北师范大学学报(自然科学版)》2010,46(1):43-46

分析了P_schema存储方法存在的问题,提出了改进的P_schema存储方法;通过引入DOM树,使嵌套结构等价于DOM树节点的父子关系,用filiation表存储节点的父子关系;由于多次引用元素结构信息相同,所以存储在同一关系中,用其外键表示引用关系,解决了P_schema存储方法中的一些难题,如嵌套和多次引用元素存储问题. 相似文献

7.

从C程序到XML文本转换模型的设计与实现

钟美刘东升《内蒙古师范大学学报(自然科学版)》2011,40(3)

针对C程序提出一种生成标记字符串的方法,即用XML文本表示C程序.首先格式化源程序,从C语言全集中挑选出部分能代表程序结构的关键结构,并用正则表达式进行识别,然后将C程序中容易发生抄袭的结构信息存储到XML文本中,最后对实验系统进行了测试.测试结果表明,该方法能快速找到程序中发生抄袭的代码,从而提高相似度比较的速度和准确性. 相似文献

8.

关系模式到XML模式映射方法的研究

桂美坤《科技信息》2009,(25):I0072-I0072,I0061

XML技术以其自身独特的优点,已是作为中介来实现异构系统之间数据交换的理想选择。在以XML为中介的数据处理过程中．需要进行关系数据库和XML之间相互转化,这就需要在XML和关系数据库之间建立一种映射关系,本文就是针对这种映射方法的研究。相似文献

9.

保留语义约束的从关系模式到XML模式的转换

张峰邵秀丽《南开大学学报(自然科学版)》2008,41(6)

关系模式转换为XML模式是数据集成领域中的一个重要问题,是确保数据正确提取和转换的前提．在总结用Schema文档描述关系模式向XML模式转换的基础上,从结构转换、数据类型转换、约束转换三个方面提出了新的转换方法,完整的保留了关系模式的语义．此方法以较为简洁的结构保存了关系模式的结构、约束信息,实现了关系模式向XML模式的完全转换,完整地表达了关系模式的信息．相似文献

10.

XML文档相似性的常用方法比较

杜新林刘丹董妍《长春大学学报》2009,19(6):30-31

越来越多的网上信息交换依附于XML文档,许多软件需要检索、存取、处理相关条件的XML文档并且返回近似值,因此XML文档的相似性评价受到越来越多的关注。本文对XML文档的相似性的几种常用的比较方法进行了总结和分析。相似文献

11.

一种基于仿生学原理的复杂彩色目标辨识方法 总被引：5，自引：1，他引：5

屠文珂阎保定杨海涛李萍《河南科技大学学报(自然科学版)》2005,26(6):67-69

根据仿生学原理，以生命科学对人类视觉系统的研究成果为基础，提出了一种满足目标辨识四要素（形状、颜色、大小、知识）原则的辨识复杂彩色目标的影射-特征-知识方法。此方法充分考虑了四要素对目标辨识过程的影响，实验证明了其有良好的准确性和速度优势。相似文献

12.

分析处理XML文档学形态学方法

柯艳兵邓苏刘青宝《科学技术与工程》2007,7(3):320-324

在线联机分析处理(OLAP)是一个分析商业信息趋势的重要工具。虽然OLAP用多维立方体模型来分析结构化的商业数据是理想的,但是它并不适合用来表现和分析复杂的半结构化数据,如:XML文档。因为在广泛的应用领域,XML都是表现数据的语言选择,所以分析XML文档是必需的和紧迫的。描述了一个用XML树模型来分析XML文档的想法。鉴于OLAP的多维聚合操作不能够表示XML文档上的、结构复杂的分析操作,提出了新的、扩展了的XQUERY来支持这种复杂的分析操作。相似文献

13.

XML文档的显示技术

王震江《实验科学与技术》2005,3(1):39-42

XML文档在网页上的显示形态类似于树型结构,为了达到特定的网页显示效果,需要使用其他技术对其进行转换,本文讨论和比较了三种常见的转换技术:XSL、数据岛和CSS. 相似文献

14.

基于聚类技术的XML文件代表性结构获取

卓月明《吉首大学学报(自然科学版)》2011,32(6):55-58

XML文件可以利用树状结构来表示,于是把如何将XML文件做聚类看成如何对树状结构的数据作聚类.使用SOM聚类工具搭配上Jaccard 的距离测量公式来对XML 文件做聚类,然后在每个cluster 中利用GST(Graph Search Technique)算法从这些XML文件当中找出他们的最大序列,最后将这些最大序列融合起来成为共同的结构. 相似文献

15.

复杂背景中字符图像的提取 总被引：1，自引：0，他引：1

ZHANG Er-hu 《西安理工大学学报》1999

相似文献

16.

复杂背景中字符图像的提取 总被引：2，自引：0，他引：2

张二虎吴显金胡涛卞正中李玉成《西安理工大学学报》1999,15(3):50-53

在具有噪声及灰度不均匀的复杂背景中提取出待识别的字符, 是字符识别的关键一步。提出应用简单统计法及Ｒｏｂｅｒｔｓ边缘检测相结合的方法, 对图像进行二值化处理, 并在此基础上利用Ｈ－Ｓ连同分析方法去掉了复杂的背景块。在５８６／ＡＭＤＫ６／２００机器上, 对５０余幅图像处理, 均正确提取出了待识别的字符且每幅的实现时间不到１ｓ。相似文献

17.

XML文档规范化和反规范化

黄海燕《吉首大学学报(自然科学版)》2007,28(4):46-49

从数据库角度分析了XML文档中存在的间接函数依赖、传递函数依赖、多值依赖,阐述了间接函数依赖和传递函数依赖规范化所对应的第1范式、第2范式及多值依赖规范化所对应的第3范式,提出了4个文档规范化规则,这些规则分别消除了间接函数依赖、传递函数依赖、多值依赖,同时从文档规范化的性能因素方面探讨了反规范化的有用性. 相似文献

18.

基于综合方法的文本主题句的自动抽取 总被引：2，自引：0，他引：2

张云涛龚玲王永成《上海交通大学学报》2006,40(5):771-774,782

提出了基于综合方法的主题句的提取方法,并着重讨论了文本主题概念的提取以及相应的权值体系.根据概念间的相互关系,对同义概念进行语义归并,对上下位概念进行语义聚焦,模拟人工标引专家在分析文本主题时的“兼顾各个方面的主题,同时又有所侧重”的原则.在调整文本主题上下位概念的权值时,既考虑下位概念对上位概念的增强作用,同时又考虑到这种调整不影响整个文本主题的分布,从而更精确地抽取出文本的主题概念.采用多种权重度量方式,综合评估句子反映主题的价值.在此基础上,采用主题句选择算法将文本的主题数与所抽取的主题句的数量关联在一起,保证每一个主要的主题都有对应的主题句被选中,并解决主题句的去重问题,从而进一步提高所抽出主题句的主题覆盖性和概括性. 相似文献