首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
高性能网页索引器JU_Indexer的实现   总被引:4,自引:1,他引:3  
高性能网页索引器JU_Indexer用倒排索引表存储网页索引数据, 以多线程并行的方式对网页建立索引数据, 采用经过优化的检索算法实现用户的查询. 首先给出了JU_Indexer的系统框架, 然后描述了索引数据在JU_Indexer中的存储结构、 建立网页索引的算法、 以及实现用户查询的检索算法. 实验结果表明, JU_Indexer能在毫秒级的时间内完成用户的查询, 它采用的经过优化的词组检索算法缩短了词组的检索时间.  相似文献   

2.
为了使用可扩展哈希表进行快速的数据访问,需要高效地更新索引以维护哈希表.文中提出了一种基于GPU的可扩展哈希算法g EHT.该算法充分利用GPU的并行计算能力,并采用表重用、预分裂技术,无锁地扩展和收缩表、插入和删除数据,实现了高并发地创建哈希表、更新索引和检索数据.实验结果表明,该算法的查询数据、维护哈希表和更新索引性能优于其他多核CPU的线性哈希及可扩展哈希算法,尤其是在高负载的情况下.  相似文献   

3.
为了减少重删环境下磁盘访问次数,提高重删系统的读取性能,提出了一种基于双B-树的索引结构DBIS(Double B-tree Index Structure).DBIS由两种结构不同的B-树构成,B-tree-1通过优化B-树结构,提高检索效率;Btree-2则在B-树的基础上,结合改进的LRU算法构成优化的索引结构,提高了检索命中率.实验验证了DBIS的有效性和优越性,达到了对重复数据删除系统读性能优化的目的.  相似文献   

4.
基于快速聚类索引的图像检索系统   总被引:5,自引:0,他引:5  
为了提高基于内容的图像检索系统的检索速度,提出了一个基于快速聚类索引的图像检索算法,并将其应用于视频新闻检索系统中.该算法采用Fastmap算法实现图像高维特征向量降维,并用改进后的模糊C均值聚类算法对降维后的图像进行聚类,生成图像索引.该算法用于图像检索,检索时间不会随着图像数据库中图像数量、特征向量维数的增加而增加,极大地提高了系统的检索效率,有效地解决了聚类中心初试值的选取问题.同时利用该算法构成的系统还具有动态删除、分裂、合并、插入等功能.实验结果表明,与顺序扫描算法相比,该系统不仅大大提高了检索速度,而且在图像数目和特征向量空间维数增大的条件下,仍能够获得良好的检索性能.  相似文献   

5.
提出了一种基于独立特征的并行索引体系结构以检索符合正态分布的高维数据.通过分析并行搜索的多维数据及其复杂度,结合用户设定的维度权重返回待核实的结果,最后通过加权相似度计算函数合并检索结果以完成kNN查询.针对高维数据的异构性特点,给出了规范情景上下文信息数据的算法.通过联合香港大学的2个社区和深圳先进研究院的CNGrid社区进行的测试,证明基于并行检索机制的100NN查询准确率可达93%,在千万个高维数据中的检索时间小于0.7s,结果表明所提出的并行索引机制能有效提高查询效率,尤其适合海量高维数据的有偏组合特征查询.  相似文献   

6.
时序数据是工业新发展的关键,其中针对时序数据的聚合操作成为主要的应用场景之一。传统关系型数据库不足以支撑海量的时序数据,而现有的NoSQL数据库对时序数据的聚合操作显得低效耗时。该文提出了一种结合概要表和线段树思想的支持时序数据聚合操作的高效索引机制,并实现了基于这种索引机制的查询算法。该查询算法将概要表的思想引入NoSQL中,缩小了待查询数据集,并通过在概要表上建立概要森林的形式,将最坏情况下的待查询数据集进一步缩小为索引个数的lbn倍。此外,该算法通过计算直接定位出待查询的一系列索引数据,有效避免了一般树形结构的递归遍历操作,减少了大量的磁盘开销。最后,通过与一般索引机制的查询对比实验,验证了该索引机制的可用性和高效性。  相似文献   

7.
基于DICOM标准的PACS系统是世界医学信息技术发展的潮流.文章具体分析元数据检索、文本检索和基于内容的图像检索的优缺点,认为有必要在牙科PACS中综合使用三种检索方式以提高信息检索效率和准确度.在基于内容的图像检索中,为了提高在庞大的特征库中进行相似性检索的效率,需要研究快速索引结构.文章通过分析R树、四叉树和聚类索引等几种快速索引结构,初步设计出适合牙科PACS系统的索引机制.  相似文献   

8.
为解决快速成形中原有层面数据文件格式(如CLI和SLC)的存储信息不完备、存取效率不高且不具备扩展性的缺点,提出了一种新型的快速成形层面数据文件格式———ZIF格式.它基于树状信息块结构,能存储快速成形加工过程中所需要的全部层面数据与工艺参数信息,并且具备实时随机检索文件中任意一层的层面数据的能力,该格式能内嵌STL文件信息来满足加工过程中通过浏览实体模型优化工艺参数的需要,并通过自定义参数的方式来传输各种特定工艺专有的加工参数,此外,该格式能不断扩展新的信息块以支持未来工艺的新要求.同时叙述了ZIF文件的格式规范、存取方法及其应用.  相似文献   

9.
针对含有大量数据的大数据存储系统,提出了一种基于编码技术的面向大数据备份的优化算法(BDCode).该算法通过对不同编解码服务器设置不同的虚拟节点存储组来保证系统的可用性,节点和数据块的并行解码计算提高了系统中数据损坏时的恢复效率.实验表明,所提出基于编码的大数据系统备份机制可以提高系统的存储利用率,并行解码方式的引入能加速减少数据损坏时的恢复时间,并能达到零号的系统负载均衡;此外不同的用户设置不同的编码参数,增加了大数据系统的鲁棒性.实验通过设置不同的数据块m和校验块k的比例来提升利用率,并行解码速度相比以前的串行提高近两倍.使用BDCode比CRS编码效率平均高36.1%,解码效率平均高19.3%;比RS码编码效率平均高58.2%,解码效率平均高33.1%.  相似文献   

10.
数据去重是云存储系统提高存储率的主要手段之一,为解决查重过程中因数据量大而导致的索引I/O瓶颈和数据块指纹冲突问题,从而提高查重效率和去重准确度,提出了一种快速且安全的数据去重方法。该方法采用客户-服务器端双重检测框架,基于滑动窗口技术和Rabin指纹算法并根据文件内容确定数据块边界,摒弃传统的MD5和SHA1算法,应用第3代安全哈希函数SHA3来计算数据块的指纹。提出两级索引策略,基于数据相似性原理来加快索引查找和比对速度。试验结果表明,客户-服务器双重检测框架能有效提高系统查重效率,基于SHA3的数据块指纹计算更加精确,能有效提高去重准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号