首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
A new way of indexing and processing twig patterns in an XML documents is proposed in this paper. Every path in XML document can be transformed into a sequence of labels by Structure-Encoded that constructs a one-to-one correspondence between XML tree and sequence. Base on identifying characteristics of nodes in XML tree, the elements are classified and clustered. During query proceeding, the twig pattern is also transformed into its Structure-Encoded. By performing subsequence matching on the set of sequences in XML documents, all the occurrences of path in the XML documents are refined. Using the index, the numbers of elements retrieved are minimized. The search results with pertinent format provide more structure information without any false dismissals or false alarms. The index also supports keyword search Experiment results indicate the index has significantly efficiency with high precision.  相似文献   

2.
基于位置的信息服务需要高效的索引方法来管理移动对象.针对PMR QUAD树索引路网空间时不平衡、部分路段重复存储且索引结构可调整性差的问题,用RQOP树对路网空间按照路段的空间分布进行划分,使树的高度尽可能低,改进基于路网的动态组合索引结构.对照实验表明,基于RQOP树的索引结构提高了查询效率.  相似文献   

3.
基于双树双索引结构的移动查询方法   总被引:1,自引:0,他引:1  
为实现对有限范围内海量移动对象的有效索引,构建通用的移动查询解决方案,针对移动对象在道路网格中的运动特点,提出了预测实时运动速度的速度积累模型和预测未来聚集位置的基于双树双索引结构的移动对象查询方法.双树双索引结构利用网格划分思想构建空间分割树,实现对现有GG TPR-tree查询结构的拓展,并结合GG TPR-tree索引及建立于内存中的Hash索引以满足各种类型的移动查询请求.仿真实验表明,在回答受限范围内海量移动对象的确定性查询和统计性查询时,与传统方法相比,双树双索引结构在查询结果准确率方面有明显的改善.  相似文献   

4.
Indexing large moving objects from past to future with PCFI   总被引:2,自引:1,他引:2  
In moving object database, the moving objects' current position must be kept in memory, also to the trajectory, in some case, as same as the future. But the current existing indexes such as SEB tree, SETI tree, 2+3R tree, 2 3RT tree and etc. can only provide the capability for past and current query, and the TPR Tree, TPR * Tree and etc. can only provide the capability for current and future query. None of them can provide a strategy for indexing the past, current and also the future information of moving objects. In this paper, we propose the past current future Index (PCFI Index) to index the past, current & future information of the moving objects. It is the combination of SETI tree and TPR * tree, the SETI liking index is used for indexing the historical trajectory segments except the front line structure, and the moving objects' current positions, velocities are indexed via the in memory frontline structure which mainly implemented with TPR * tree. Considering the large update operations on TPR tree of large population, a hash table considering cache sensitivity is also introduced. It works with the frontline part, leading a bottom up update of the tree. The performance analysis proves that the PCFI index can handle most of the query efficiently and provides a uniform solution for the trajectory query, time slice query, internal query and moving query.  相似文献   

5.
提出一种基于语义核函数的问题分类算法,该算法基于问题的语法结构构建支持向量机(SVM)核函数.首先,将给定的问题解析为语法树结构,用语法树的子树表示该问题;然后,从词法、语法、语义三个层面提取问题的特征,构成更加丰富的特征空间;接着,基于问题的语法树构建核函数;最后,使用潜在语义索引方法并结合问题的词法、语法以及语义特征,通过语义核函数将特征空间映射到更有效的空间中进行问题分类.TREC数据集上的实验结果表明,通过词法、语法以及语义增强的问题特征空间可以提高分类准确率.  相似文献   

6.
根据重复数据删除的特点,针对连续数据访问为主的应用,设计基于B+树的元数据索引结构;将元数据分为冷热两种,分别设计不同的元数据布局策略。研究结果表明,低能耗磁盘能够保持更长时间的待机状态以便节能,同时可以有效地减少重复数据删除时的随机磁盘访问次数。并且没有额外的硬件开销,实现仅在磁盘上存储索引,而不是之前研究中的在磁盘和内存中存储索引。   相似文献   

7.
面向对象XML数据索引技术   总被引:2,自引:2,他引:0  
提出了一种面向对象XML数据的索引模式路径仓,路径仓是紧凑地、准确地表示面向对象的XML数据的一棵树,是两级双向树:组级和元素级.在组级上,路径仓提供路径信息、类层次信息,类层次信息存储以索引类为根的类层次子树上特有的元素和属性的对象标识符,而继承的元素和属性的对象标识符存在较高的层次中,可以在查询早期阶段减少大量存储空间;在元素级,它保存从孩子元素到父亲元素的信息,快速存取元素的父亲,提高查询处理效率.不使用全局标志符而是用基于组的引用,可以按组区分不同类型的元素值聚簇相同类型元素值并且索引它们.  相似文献   

8.
为了提升传统随机森林算法的分类精度,本文首先对传统随机森林模型中的决策树根据分类性能评价指标AUC值进行降序排列,从中选取出AUC值高的决策树,计算这些决策树之间的相似度并生成相似度矩阵,然后根据相似度矩阵对这些决策树进行聚类,从每一类中选出一棵AUC最大的决策树组成新的随机森林模型,从而达到提升传统随机森林算法分类精度的目的。通过UCI数据集的实验表明,改进后的随机森林算法分类精度上最大提高了2.91%。  相似文献   

9.
基于B 树,并借鉴XB树的特点设计一种XM L文档的索引方法.索引关键字分为元素关键值和XM L编码的范围.利用元素编码的范围查询,不必在整XM L文档中搜索,提高了查询效率.对于复杂分支查询,提出了拆分成简单查询路径的规则.在结构化连接问题上,提出了不仅要进行祖孙(父子)关系的连接,还要进行兄弟关系的判断,以得到正确的匹配结果.  相似文献   

10.
提出了一种基于模式增长的频繁模式挖掘算法(简称为PGMiner算法).这种算法是一种深度挖掘的算法,不产生任选项集,便于发现较长的模式,避免了Apriori和FP-growth方法存在的问题.通过一种简单的索引结构在映射数据库中不断地增加模式长度.这种索引结构占用较少的内存,使得这种基于内存的算法有很高的执行效率.采用现实数据集以及IBM人工数据集对PGMiner算法进行测试.试验结果显示,对于一般类型的特别是较为稀疏的数据集,PGMiner算法比Apriori和FP-growth方法有更好的性能.  相似文献   

11.
金沟岭天然和半天然混交林林分空间结构比较   总被引:2,自引:0,他引:2  
使用角尺度、混交度和大小比数3个林分空间结构参数,对长白山过伐林区特有的半天然落叶松(Larix olgensis)-云杉(Picea jazoensis)-冷杉(Abies nephrolepis)混交林和未受人为干扰的原始天然混交林进行了空间结构分析和比较。结果表明,两种林分具有相同的平均角尺度0.52,林木皆为团状分布;半天然落叶松云冷杉混交林的平均混交度为0.64,呈现中度混交特征;从胸径大小比数来看,林分中针叶树种具有胸径优势,尤其是云杉的胸径优势最突出,红松(Pinus koraiensis)则分化严重,生长处于劣势。原始天然混交林的平均混交度为0.83,高于半天然落叶松云冷杉混交林,呈现强度混交特征;从胸径大小比数看,阔叶树种胸径优势明显,针叶树种中只有冷杉处于优势,红松和云杉都处于劣势。  相似文献   

12.
The explosive increase in the number of images on the Internet has brought with it the great challenge of how to effectively index, retrieve, and organize these resources. Assigning proper tags to the visual content is key to the success of many applications such as image retrieval and content mining. Although recent years have witnessed many advances in image tagging, these methods have limitations when applied to high-quality and large-scale training data that are expensive to obtain. In this paper, we propose a novel semantic neighbor learning method based on user-contributed social image datasets that can be acquired from the Web's inexhaustible social image content. In contrast to existing image tagging approaches that rely on high-quality image-tag supervision, we acquire weak supervision of our neighbor learning method by progressive neighborhood retrieval from noisy and diverse user-contributed image collections. The retrieved neighbor images are not only visually alike and partially correlated but also semantically related. We offer a step-by-step and easy-to-use implementation for the proposed method. Extensive experimentation on several datasets demonstrates that the performance of the proposed method significantly outperforms others.  相似文献   

13.
海量和高维大数据集的聚类对计算机性能提出了很高的要求.基于具有层次聚类特性的RSOM树方法提供了一种有效的手段以实现对高维大数据集的聚类索引,这种RSOM树可支持最近邻搜索且不需要对数据进行线性搜索.注意到RSOM模型具有内在的层次化、分布式结构特点,并可进行增量的训练,研究了基于高效并行集群的增量、分布式RSOM并行算法,并通过视频图像特征集实例证实了算法的可行性.  相似文献   

14.
Clustering is one of the major exploratory techniques for gene expression data analysis. Only with suitable similarity metrics and when datasets are properly preprocessed, can results of high quality be obtained in cluster analysis. In this study, gene expression datasets with external evaluation criteria were preprocessed as normalization by line, normalization by column or logarithm transformation by base-2, and were subsequently clustered by hierarchical clustering, k-means clustering and self-organizing maps (SOMs) with Pearson correlation coefficient or Euclidean distance as similarity metric. Finally, the quality of clusters was evaluated by adjusted Rand index. The results illustrate that k-means clustering and SOMs have distinct advantages over hierarchical clustering in gene clustering, and SOMs are a bit better than k-means when randomly initialized. It also shows that hierarchical clustering prefers Pearson correlation coefficient as similarity metric and dataset normalized by line. Meanwhile, k-means clustering and SOMs can produce better clusters with Euclidean distance and logarithm transformed datasets. These results will afford valuable reference to the implementation of gene expression cluster analysis.  相似文献   

15.
内存数据库查询优化   总被引:1,自引:0,他引:1  
基于一种广泛接受的内存数据库系统基本概念及内存数据库中的SB-树索引结构,提出了更方便关系代数操作的SB^*-树.在此基础上,提出了优化的关系代数操作的实现算法.根据这些算法和关系代数等价定理,给出了对关系代数查询树进行逻辑优化的规则,并证明了逻辑优化的正确性.最后给出了代价评估模型,实验表明提出的内存数据库查询优化算法相对于传统的优化算法具有更好的时间及空间性能.  相似文献   

16.
对 XML 数据建立有效的索引,是左右 XML 数据处理性能的重要因素.对 XML 的索引技术进行研究,提出一种XML 数据结构索引,结合 Schema 的数据字典提出 OB(Orthogonal B tree)树的存储方武,可快速的确立元素间关系.与 XISS 相比明显减少元素访问及路径连接次数,从而缩短路径查询的响应时间.  相似文献   

17.
人脸在视频节目中代表了重要语义信息 ,提出使用支持向量机和隐马尔可夫链混合模型对人脸进行识别 ,然后把识别结果进行高斯聚类 ,实现视频节目的内容标注 .具体步骤如下 :首先建立人脸肤色模型 ,对视频图像中可能的人脸区域进行定位 ;从定位区域提取人脸各个器官的独立基特征 ,然后使用支持向量机和隐马尔可夫链混合模型对定位区域进行人脸识别 ,最后由高斯聚类完成视频节目的语义标注  相似文献   

18.
提出一种改进随机子空间与C4.5决策树算法相结合的分类算法.以C4.5算法构建决策树作为集成学习的基分类器,每次迭代初始,将SMOTE采样技术与随机子空间方法相结合,生成在特征空间和数据分布上差异明显的合成样例,为基分类器提供多样化的平衡训练数据集,采用绝大多数投票方法进行最终决策的融合输出.实验结果表明,该方法对少数类和多数类均具有较高的识别率.  相似文献   

19.
聚类金字塔树:一种新的高维空间数据索引方法   总被引:6,自引:0,他引:6  
提出了一种新的有效的高维空间数据索引方法-聚类金字塔树,它先对不均匀分布数据进行聚类处理,然后对聚类的结果实施金字塔分割和存储,由此建立一种有效的索引结构。文中给出聚类金字塔树的几种查询算法。实验证明:处理不均匀分布数据时,聚类金字塔树无论在页面访问次数,还是在CPU总占时间上都优于金字塔树。  相似文献   

20.
针对传统索引算法在数字数据索引应用中存在的索引建立时间开销较大问题, 提出一种将B+树理论和算法应用于索引的设计方案. 在对B+树索引基础上, 建立了索引存储模型, 结合位图存储方式将B+树节点存储在存储介质上, 实现索引存储. 实验结果表明, 使用B+树, 可按路径读取, 节省了建立索引时间, 同时提高了B+树的稳定性, 在B+树节点存储的情况下访问键值信息, 索引速度得到较大提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号