首页 | 本学科首页   官方微博 | 高级检索  
     检索      

支持实体识别的XML编码方案
引用本文:李天辉,穆宝良.支持实体识别的XML编码方案[J].沈阳师范大学学报(自然科学版),2016(4):473-478.
作者姓名:李天辉  穆宝良
摘    要:提出了XML文档的一种start-end-type(SET)编码方法,SET编码基于起止编码的思想,并把起止编码的三元组(start,end,level)改进为四元组(start,end,level,type),增加了表示XML文档中结点类型的type值。对四元组中的前3个值提出了新的实现算法,而第4个元素type值由前3个元素的值自动计算出来。SET编码不仅可以快速判断出结点之间的祖先/后代、父亲/孩子关系,而且还可以根据type值快速判断出XML文档中各结点的类型。经过实验测试,SET编码不仅具有良好的编码性能,还能根据各结点类型对XML数据进行实体识别,为进一步研究根据实体类型对XML数据进行查询提供条件。

关 键 词:大数据  起止编码  SET编码  深度优先遍历  实体结点
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号