首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 296 毫秒
1.
针对Web上的公共生物学数据资源,提出一种适合于在线搜索生物学数据的数据模型.该模型基于后缀树思想,通过建立生物体的DNA、RNA、蛋白质序列数据的后缀树结构,并将之转化为更加空间有效的后缀数组,然后搜索数组以找到查询序列的近似匹配.结果表明,这种数据模型比常规的线性搜索模型在时间和空间开销上更加高效.  相似文献   

2.
并行后缀树的构造及查询算法   总被引:2,自引:0,他引:2  
针对生物信息领域中传统后缀树构造算法在时间和空间上的限制,从结构并行的角度提出了一种新颖的、适用于生物信息学应用的并行后缀树结构和相应的构造算法·该算法首先将给定字符串分成若干连续的片段,并在各个处理机上分别构造这些片段的后缀树,形成了一种分布于多个处理机上的并行后缀树结构·该并行算法不仅大大缩短了后缀树的构造时间,而且避免了主存大小的限制·经分析,其性能优于现有的任何一种并行算法·在此基础上,提出了一种高效的基于这种并行后缀树的字符串匹配算法,解决了传统后缀树的基本查询问题·  相似文献   

3.
提出一种基于消息传递模式的分布式后缀树构造算法(DPSTG)及相应的并行匹配算法.DPSTG算法按不同的字符将原始字符串的后缀树分解成若干个子后缀树后由多个处理器并行构造.处理器间通过消息传递方式连接各个子后缀树,匹配时首先将要查找的字符串分割成若干不同首字符的子字符串,然后在构造相应首字符子后缀树的处理器上实现多个子字符串的并行匹配.理论分析表明DPSTG算法的时间复杂度要优于现有的大多数后缀树并行生成算法.模拟实验结果表明DPSTG算法的并行加速比随着待处理字符串的长度增加而提高.  相似文献   

4.
在搜索技术和各种流行的排序算法优缺点比较的基础上,给出了一种基于后缀数组的新的快速排序算法,该算法在时间和空间性能上均优于传统的快速排序算法;并在同等的条件下,用该方法与快速排序算法对相同的内容进行排序,结果表明:该算法特别适用于大文本的排序问题,可用于搜索技术和数据压缩中.  相似文献   

5.
为了提高在海量的信息中进行多重复模式查找算法的效率,提出了算法Epattern_searcher.该算法运用过滤算法的思想而设计,同时又采用能节省空间占用的后缀数组来实现,从而提高了算法的运行速度.针对英文小说中高频词的查找问题,对算法进行了实验测试,得到此算法的时间复杂度为O(d+g)/(g)· n2· |σ|-q的实验结果.  相似文献   

6.
在对XML文档建立索引机制的基础上,采用基于后缀数组的快速排序算法产生有序索引,并以实验证明了该方法的有效性,为开发基于XML文档的WEB搜索引擎提供了一种可行的方法.  相似文献   

7.
一种基于后缀数组的无词典分词方法   总被引:9,自引:3,他引:6  
提出一种基于后缀数组的无词典分词算法. 该算法通过后缀数组和利用散列表获得汉字的结合模式, 通过置信度筛选词. 实验表明, 在无需词典和语料库的前提下, 该算法能够快速准确地抽取文档中的中、 高频词. 适用于对词条频度敏感、 对计算速度要求高的中文信息处理.  相似文献   

8.
利用水平分割法计算给定串中的所有Maximal(NE/SNE) Repeats   总被引:1,自引:0,他引:1  
提出一种利用给定符号串x[1…n]的后缀数组和最 长公共前缀数组求x所有最大重复的新方法〖CD2〗水平分割法. 通过对x的最大不可扩展重复和最大超级不可扩展重复所有可能出现的位置以及判定条件的提炼, 分别给出仅由x的后缀数组和最长公共前缀数组求x的所有最大重复、 最大不可扩展重复和最大超级不可扩展重复的算法. 该算法克服了除后缀数组和最长公共前缀数组外, 还需利用其他辅助数组的缺陷, 降低了空间开销, 且时间复杂度没有增加, 并可以在对最长公共前缀数组仅进行一次扫描的情况下求出给定串的所有最大重复、 最大不可扩展重复和最大超级不可扩展重复.  相似文献   

9.
提出了扩展的Kuhn-Munkres算法,可解决带下界约束的局部匹配存在性问题,即在匹配全集的给定子集中,搜索得到一个二分图匹配满足其边权和大于给定阈值.扩展Kuhn-Munkres算法构造了一棵以Kuhn-Munkres算法中间过程为节点的搜索树,利用搜索优先级和剪枝,将算法时间复杂度降低至二分图匹配全集与给定子集差集规模的多项式函数.   相似文献   

10.
为提高Web 搜索精度和检准率, 在后缀树聚类算法基本模型的基础上, 提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型与后缀树聚类相结合, 改善了基类合并的效果, 综合基类节点对应文本数、短语包含词语长度、短语权重及是否包含查询词作为聚类标签的筛选条件, 改进了聚类标签的合理性和可读性。以搜狗语料库中的文本分类语料库为数据源进行的实验结果表明, 该方法在一定程度上提高了聚类结果的准确率。  相似文献   

11.
为在网络数据中搜索到所需相关数据, 通过对基于后缀数组的全文索引结构的改进研究, 设计和实现一种降低空间占用率并有效提高索引速度的全文索引结构加权有向词图。通过实验证明, 加权有向词图在相同问题规模下能降低存储空间, 同时不影响检索的效率, 是一种更为高效的全文索引结构。  相似文献   

12.
上古汉语后缀*[-s]的语法意义极其复杂。前人已经讨论过,它起码是一个名谓化、名物化后缀。此外,依据我们的研究,上古汉语的*[-s]也是一个受格动词后缀。  相似文献   

13.
临沂方言含有丰富的后缀,同一个后缀可以附着在不同词性的词根后表示词的意义或某种语法作用,这体现出临沂方言后缀成词的能产性.对临沂方言中的名词后缀、动词后缀、形容词后缀进行探究,可以很好地展现出临沂方言后缀的语言面貌.  相似文献   

14.
日语词语后缀词的分类研究,是学习日语后缀词的方法之一。按其特点和基本用法,日语后缀词可分为十一大类。每一类中的后缀词既有联系,又有区别,还有一定的使用规律。要在使用的过程中,注意掌握后缀词的规律,增强语言能力提高语言素质。  相似文献   

15.
提出了一种在双向键表中将字符串型的关键码分为前缀和后缀两个部分.来加速顺序检索的方法,并介绍了实现的算法。  相似文献   

16.
就叠音后缀的构成、语义形成的理据性、构词能力以及叠音后缀产生的原因等进行探讨,力求对叠音后缀作出较全面的阐释。  相似文献   

17.
In this paper, an improved algorithm, named STC-I. is proposed for Chinese Web page clustering based on Chinese language characteristics, which adopts a new unit choice principle and a novel suffix tree construction policy. The experimental results show that the new algorithm keeps advantages of STC, and is better than STC in precision and speed when they are used to cluster Chinese Web page.  相似文献   

18.
英语后缀的添加与拼写有其特点与规则,某种情况下,词根部分要发生变化,某种情况下,后缀部分要发生变化,这就需要学习者一一掌握,才能准确、有效地掌握词汇,从而达到举一反三的效果.  相似文献   

19.
表示"人"概念的英语名词后缀分析   总被引:1,自引:0,他引:1  
在表示"人"的意义的英语名词后缀中,源于英语本族的后缀是这类后缀的主体.然而,源于拉丁语、希腊语和法语的后缀极大地丰富了英语,为构成大量英语词汇做出了贡献.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号