首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
为保障用户免遭侵犯隐私的风险,提出了一种特别支持基因数据的可搜索加密方法.针对目前密文搜索方案大多数仅支持通过关键字进行搜索,而无法用于不含关键字的基因数据的问题,利用后缀树和伪随机函数等密码学原语构建安全索引,实现对密文基因数据的任意子字符串搜索.安全性证明该方法满足动态自适应安全,利用理论分析和真实数据对效率进行测评.该方法可以对基因数据进行高效安全的任意子字符串搜索,保护数据完整性和隐私性,在个性化医疗大众化的环境下具备广阔的应用前景.  相似文献   

2.
为提高Web 搜索精度和检准率, 在后缀树聚类算法基本模型的基础上, 提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型与后缀树聚类相结合, 改善了基类合并的效果, 综合基类节点对应文本数、短语包含词语长度、短语权重及是否包含查询词作为聚类标签的筛选条件, 改进了聚类标签的合理性和可读性。以搜狗语料库中的文本分类语料库为数据源进行的实验结果表明, 该方法在一定程度上提高了聚类结果的准确率。  相似文献   

3.
提出一种基于消息传递模式的分布式后缀树构造算法(DPSTG)及相应的并行匹配算法.DPSTG算法按不同的字符将原始字符串的后缀树分解成若干个子后缀树后由多个处理器并行构造.处理器间通过消息传递方式连接各个子后缀树,匹配时首先将要查找的字符串分割成若干不同首字符的子字符串,然后在构造相应首字符子后缀树的处理器上实现多个子字符串的并行匹配.理论分析表明DPSTG算法的时间复杂度要优于现有的大多数后缀树并行生成算法.模拟实验结果表明DPSTG算法的并行加速比随着待处理字符串的长度增加而提高.  相似文献   

4.
在搜索技术和各种流行的排序算法优缺点比较的基础上,给出了一种基于后缀数组的新的快速排序算法,该算法在时间和空间性能上均优于传统的快速排序算法;并在同等的条件下,用该方法与快速排序算法对相同的内容进行排序,结果表明:该算法特别适用于大文本的排序问题,可用于搜索技术和数据压缩中.  相似文献   

5.
在对XML文档建立索引机制的基础上,采用基于后缀数组的快速排序算法产生有序索引,并以实验证明了该方法的有效性,为开发基于XML文档的WEB搜索引擎提供了一种可行的方法.  相似文献   

6.
分析了后缀树在一维和二维字符串处理方面的优势.以后缀树为索引,将后缀树和最低公共祖先问题相结合,提出了一个在仅考虑平移变换操作的条件下.进行图像精确识别的算法,并从时间复杂度上证明了其优于传统的二:维精确模式匹配算法。  相似文献   

7.
并行后缀树的构造及查询算法   总被引:2,自引:0,他引:2  
针对生物信息领域中传统后缀树构造算法在时间和空间上的限制,从结构并行的角度提出了一种新颖的、适用于生物信息学应用的并行后缀树结构和相应的构造算法·该算法首先将给定字符串分成若干连续的片段,并在各个处理机上分别构造这些片段的后缀树,形成了一种分布于多个处理机上的并行后缀树结构·该并行算法不仅大大缩短了后缀树的构造时间,而且避免了主存大小的限制·经分析,其性能优于现有的任何一种并行算法·在此基础上,提出了一种高效的基于这种并行后缀树的字符串匹配算法,解决了传统后缀树的基本查询问题·  相似文献   

8.
一种基于后缀树的中文网页层次聚类方法   总被引:1,自引:3,他引:1  
为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比。聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。  相似文献   

9.
网页聚类技术是快速定位搜索引擎返回结果中用户最需要资料的方法。基于后缀树聚类算法是利用网页集中共享的短语来对网页集进行聚类。本文研究怎样充分利用后缀中的共享短语之间的关系提高后缀树性能的方法。  相似文献   

10.
为一个巨大的文本集合构造后缀数组是目前搜索引擎领域中的一个热点问题.对已存在的后缀数组的外存构造算法加以优化.优化后的算法仍然遵循原有方法的基本原则,但采用不同的实现策略,保证了算法在最坏情况下的较好的时间复杂度。  相似文献   

11.
In this paper, an improved algorithm, named STC-I. is proposed for Chinese Web page clustering based on Chinese language characteristics, which adopts a new unit choice principle and a novel suffix tree construction policy. The experimental results show that the new algorithm keeps advantages of STC, and is better than STC in precision and speed when they are used to cluster Chinese Web page.  相似文献   

12.
一种基于后缀数组的无词典分词方法   总被引:6,自引:3,他引:6  
提出一种基于后缀数组的无词典分词算法. 该算法通过后缀数组和利用散列表获得汉字的结合模式, 通过置信度筛选词. 实验表明, 在无需词典和语料库的前提下, 该算法能够快速准确地抽取文档中的中、 高频词. 适用于对词条频度敏感、 对计算速度要求高的中文信息处理.  相似文献   

13.
基于模拟退火机制的网络蜘蛛搜索策略   总被引:2,自引:0,他引:2  
在分析传统网络蜘蛛搜索机制特点的基础上,将模拟退火机制引入网络蜘蛛的链接选择策略。提出了一种基于模拟退火机制的启发式网络蜘蛛搜索算法。针对国外四所著名大学计算机系网站中计算机论文资源的搜索实验表明,新算法可以有效提高搜索效率。  相似文献   

14.
后缀树和后缀数组广泛用于生物信息学领域中,特别是通过启发式算法在对DNA基因片段进行匹配的阶段.本文提出了在GPU的平台下,利用多核和超多核体系构成的后缀树以及后缀数组并行匹配大规模基因片段,从而加速基因搜索匹配过程.相对于后缀树,后缀数组二分搜素算法具有内存占用少,缓存使用率高等优点.在GPU的性能评估中,后缀数组执行效率明显超过后缀树,后缀数组占用的空间仅为后缀树的20%~30%.相对于CPU的串行实现,后缀树组达到了约99倍的加速比.实验结果表明在基因片段匹配的过程中,基于GPU的后缀数组二分搜索是一种高效且实用的方法.  相似文献   

15.
针对现有的RFID(radio frequency identification)搜索树防冲突方案由于查询命令过长,会产生大量的冗余数据,增加通信开销的问题,提出一种基于搜索树的轻量级防冲突方案。该方案设计了一种新颖的查询-响应模式(即单查询双响应),该方法能够使冲突标签分别根据2个后续时隙中的最大有效冲突位对下一个查询作出响应,将查询总数减少一半;该方案用计数器代替了标签中的前缀匹配电路,可消除前缀作为查询命令的参考参数。此外,该方案提出了一种预测识别方法以减少所需时隙总数。最后,该方案还提出了一种避免识别标签与未识别标签冲突的锁定技术,提高了标签的识别效率。实验结果表明,采用双应答模式和计数器触发的单次查询方式,通信开销总体上降低了42%;采用预测识别方式,吞吐量随着标签数量的增加而提高。  相似文献   

16.
针对从模板生成的网页中自动抽取web数据的问题,提出了一种新的树对齐算法.该算法能够确定输入网页的最大匹配结构.经过一系列的对齐操作之后,多棵树被合并成为一棵记录着合并前多个网页上的统计信息的合并树,树对齐算法可以发现合并树中的重复模式,在最可能内容块上构建包装器,并按照重复模式从网页上抽取数据.实验结果表明,该算法的抽取结果具有较高的准确性和良好的稳定性.  相似文献   

17.
针对异构或异质环境下保持数据一致性的问题,给出一个在分布式异质数据库中,通过Web Service技术,对数据库更新事务进行捕捉、存储后转发.进而实现数据同步更新的系统模型。然后依据模型的设计,应用Java语言进行了具体代码的实现。最后,将该系统作为DBA的工具,应用于大学计算中心学生管理系统,成功地解决了分布式异质数据库的同步更新问题。  相似文献   

18.
为了提高相似最近邻搜索(ANN)算法的精度,提出了一种在度量空间下基于距离的相似最近邻搜索算法-优化的VP森林(OVF)算法。在传统VP树(VT)算法的基础上,首先采用改进的选择优势点的方法,通过从数据集采样优势点候选集,对其进行评估,选取其中区分度大的点作为优势点;然后提出构建多棵VP树的新方法,改进距离优势点远的子树中最近邻不紧凑问题;接着提出使用优先队列与剪枝搜索方法结合的新搜索方法查找最近邻,减少了很多不必要的距离计算。最后通过实验结果表明,本文方法在数据维度、数据集大小、返回不同邻居个数、不同的距离函数及建树个数方面精度有了很大的提高。  相似文献   

19.
陈远斌 《应用科技》2009,36(8):52-55
Web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法.在此提出一种研究思路,首先将Web页面的DOM树进行扩展,添加视觉特征和链接特征.然后计算多个相似页面的扩展DOM树中节点和子树的新颖度,接着由新颖度识别对象数据并且依据数据项角色抽取出数据,最后将对象数据保存为XML文档.通过实验分析,验证了这个方法具有较好的抽取效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号