首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
结合二项分布和小概率原理进行理论推导,提出了Minwise Hash的动态双重阈值过滤器,将比对过程划分为多个比对点,并设置各比对点的动态阈值,过滤相似度低于下界阈值TL(k)的文档,输出相似度高于上界阈值TU(k)的文档.该提前过滤的方法减少了后续的比对次数,降低了工作量,并设计了多组实验,结果显示过滤器在选取了适当的参数时,计算时间仅为原Minwise Hash的31%或原b位Minwise Hash的36%,较大地提升了原算法的时间效率.动态双重阈值过滤器不仅能应用于Minwise Hash,也能用于它的变种算法(如b位Minwise Hash),乃至所有符合二项分布的估计子.  相似文献   

2.
数据流重组中Hash-Splay查找算法   总被引:1,自引:0,他引:1  
针对高速网络取证目前所面临的问题,围绕提高网络数据流重组效率,在数据流重组算法中分析比较了几种典型的查找算法,并将Hash表和Splay树组合成Hash-Splay查找算法.该算法首先建立Hash表,然后将所有的TCP连接结点分配到各个表项,每个表项用Splay树将该表项的所有连接结点组织起来.查找时,根据连接标识通过Hash函数计算出Hash地址,再对该Hash地址对应的Splay树进行查找,找到后按照Splay树的操作规则进行查找、插入和删除等操作.由于根据连接标识找到对应Splay树的时间开销很小,可以忽略不计,因此Hash-Splay算法的复杂度可以看作是每棵Splay树操作的平均复杂度,算法同时具有Hash表和Splay树的优点,查找效率比Hash表和Splay树的都高.  相似文献   

3.
通过分析中文短文本的特征,提出了一种基于语法语义的短文本相似度算法.该算法结合中文语句语义的相似性以及语句语法的相似性,即计算具有相同句法结构的短文本的相似度以及考虑语句词组顺序对相似度的贡献,对中文短文本相似度进行计算.实验表明,本文提出的算法在中文短文本相似度计算结果上更加接近人们的主观判断并且拥有比较好的精确率与召回率.  相似文献   

4.
针对电子资源短缺少数民族语言自然语言处理问题,提出了借助于大语言大数据,着重语言的相似性交叉处理的方法.该文在本次试验中利用维哈柯语及蒙古语多文种文本7 854条平行语料,分词单位和短句子单位考查分析了同语族语言以及不同族语言之间、同语系不同语族语言之间的相似程度.引用动态规划(DP)算法定量地获取了语言之间的相似性.实验结果显示:在句子阶段,维哈柯语言其相似度为84.3%,蒙族类语言为81.3%;在词阶段,维哈柯语言相似度可达到91.6%,而蒙族类语言相似度可达到87.8%.另外,同语系而不同语族多语言的相似性较低,在词级单位考查其相似程度不超过10%.  相似文献   

5.
提出一种新的蛋白质结构相似度算法,目的在于通过比对蛋白质的结构寻找功能上的相似性.收集约1 000对蛋白质的PDB结构文件,采用RCSB PDB结构比对工具获取每一对蛋白的结构匹配相似度,并计算每一对蛋白质的9个参数的相似度.采用线性神经网络建立总体相似度和9个参数之间的数学模型.计算模型的仿真误差,并选取若干蛋白质对该算法模型进行应用验证.所建立模型仿真误差为8.76%,验证结果与已有工具结果基本相同,但个别有一定差异.该算法可用于比较蛋白质的结构相似度,且比对结果可以对蛋白质功能的相似性进行提示.  相似文献   

6.
为在图像模糊核估计中充分利用图像的区域特征和结构信息作为先验知识,提出一种基于马尔科夫随机场学习模型的模糊核估计方法.首先,由滑动的子窗口构成马尔科夫随机场的节点集,以每个子窗口的曲率方向能量滤波器的响应和边缘分布组成的特征向量作为模型的输入;然后,利用对数伪似然优化算法估计模型参数,在模型训练阶段,采用交叉熵相似性度量模糊核的相似性以标记训练样本;最后,利用置信度传播算法推测最优图像子块.运用所提方法对仿真和实际模糊图像进行实验,结果表明,该学习模型可以精确地估计模糊核,在主观视觉对比和客观评价方面均具有较好的效果,同时也具有较好的自适应性.与其他3种方法相比,模糊核相似度分别提高了1.55%,5.64%和7.02%.  相似文献   

7.
提出基于二部网络连接预测的推荐算法.将用户-项目的评分矩阵用带权的二部网络来表达,根据推荐问题和带权二部网络连接预测问题的相似性将推荐问题抽象为二部网络上的链接预测问题,采用基于相似度的连接预测算法进行项目推荐.算法综合考虑了顶点间的拓扑关系,以及用户之间、项目之间的相似性,找出用户对其尚未表达的项目的潜在兴趣度,应用二部网络连接预测的算法来解决推荐问题.实验结果表明,算法能够有效地提高推荐的精度.  相似文献   

8.
K-Modes算法是一种经典的字符型数据聚类算法,在处理对象属性值距离时,采用简单的0-1匹配,不能体现出属性值之间潜在的相似关系.通过图形聚类理论中的连接度来度量字符型属性值之间的相似性,改进了传统的K-Modes算法.实验结果表明该方法较传统的K-Modes算法有一定的改善.  相似文献   

9.
提出一种利用关系数据库系统在一般图结构的半结构化数据上进行近似查询的途径.根据嵌套结构和文本值的相似性来度量路径的相似性;根据路径的相似性得到查询目标节点与数据源节点的相似性.为返回数据源中与查询目标节点相似的节点,首先提取出数据源中长度在固定范围内的所有路径,然后利用关系数据库系统将其与查询路径进行相似性连接,并按相似度从大到小返回所有结果.为提高相似性连接的效率,引入q窗口概念,并利用若干路径相似的必要条件来减少计算相似性函数的次数.试验证明了其有效性.  相似文献   

10.
研究了基因序列分析中的DNA序列相似性重复片段的查找问题.在对重复片段的相似性衡量进行分析之后,基于海明距离提出了新的相似度衡量标准模式相似度和片段相似度,并在此基础上提出了一个新的相似性重复片段的定义SATR(segment-similarity based approximate tandem repeats).在进行SATR的查找时,采用了一个轻量级的索引后继数组,并设计出在后继数组上进行SATR查找的算法.实验评估和性能分析表明,基于后继数组的SATR查找算法在查找结果和查找时间上都要优于其他同类方法.  相似文献   

11.
基于混沌映射的单向Hash函数构造   总被引:31,自引:0,他引:31  
为提高 Hash函数性能 ,尝试新的 Hash函数构造方法 ,提出一种基于混沌映射的 Hash函数构造思想 ,给出利用两个不同的混沌模型构造的单向 Hash函数 ,并初步分析了其作为单向 Hash函数的不可逆性 ,防伪造性 ,初值敏感性和混沌映射应用于单向 Hash函数构造的优点与潜力。实现了任意长原始文本单向 hash为 1 2 8bit Hash值的算法。实验结果表明 ,这种构造方法实现简单 ,对初值有高度敏感性 ,具有很好的单向 Hash性能。同时 ,该方法也易于改造为并行实现 ,并且迭代的步数与原始文本成正比 ,有成为一种快速实用的单向 Hash算法的潜力。  相似文献   

12.
随着网络应用层内容检测技术的速度提高到10Gb/s的数量级,底层的TCP/IP协议栈已经成为制约网络入侵检测系统的检测速度的新瓶颈。该文的前期工作采用64位指令、并行计算指令和操作系统内核数据映射等软件硬件系统特性来优化TCP校验码计算、TCP连接表Hash值计算和内核态到用户态的数据复制等性能瓶颈。在此基础上,该文进一步研究了连接表Hash值计算、半开连接过滤和并行化问题,采用通用Hash(universal Hash)函数作为TCP连接表查找的Hash函数,以避免算法复杂度攻击,并利用SSE(streaming SIMD extensions)指令集中的并行指令来提高计算速度;采用Bloom过滤器过滤TCP半开连接;使用多次加载动态链接库(DLL)的方法,利用并行化获得更高的吞吐率。实验表明:经过上述改进后,使用3个处理器核心的TCP/IP协议栈,对平均包长110 B的攻击流量能达到4.4 Gb/s的吞吐率,对平均包长501 B的正常流量能达到15.2 Gb/s的吞吐率,达到原始系统的4倍以上,比该文前期工作的结果提高了50%到70%。  相似文献   

13.
基于小波变换的块匹配运动估计方法   总被引:2,自引:0,他引:2  
将小波变换引入低码率视频图像序列的运动估计研究中,提出了基于小波变换的块匹配搜索方法.该方法的特点是可根据运动物体的大小和运动程度,用可变宏块进行运动估计,统一了匹配块和匹配点的搜索,发展了一种改进的三步搜索算法.实验结果表明,该算法比三步法有更高的精度,更适应低码率和多细节视频图像传输中的运动估计.  相似文献   

14.
针对嵌入式设备上难以兼顾人脸抓拍的速度和准确率的问题,基于轻量化神经网络和哈希(Hash)跟踪算法设计了一种快速精准的嵌入式人脸抓拍系统.首先,对轻量化网络MobileNet固态硬盘(solid state disk,SSD)剪枝和优化网络结构构建人脸检测网络;其次,人脸对齐后基于均值哈希(average Hash,a...  相似文献   

15.
从手写文档图像中提取出文本行是文档分析的一个重要预处理步骤,但是由于手写文本行之间通常行方向不平行,甚至存在着交叠和弯曲,所以它仍然是一个具有挑战性的问题. 针对该问题,提出了一种基于高阶相关聚类的脱机中文手写文本行的分割算法.首先,使用连通部件构成一个文档超图,然后,在学习所得的相似性度量准则的约束下,通过高阶相关聚类算法将连通部件对标记为属于或者不属于同一文本行;最后,使用union­find算法将连通部件连接成为不同的文本行.该算法在HIT­MW脱机手写数据库上的803幅文档上取得了较好的效果,召回率99.05%,错误率为1.96%.  相似文献   

16.
分布式环境下改进的Bloom Filter过滤技术   总被引:1,自引:0,他引:1  
分析了Bloom Filter技术在特殊的分布式系统———P2P系统中的应用.基于Bloom Filter提出了一种新的Division Bloom Filter(DBF)技术,DBF技术采用了一组相互独立的哈希函数来计算数据对象的地址序列,然后使用这组地址序列将数据对象存储到一个分片的位向量中,所以DBF技术可以有效减少数据对象的存储空间.实验证明,DBF不仅可以解决Bloom Filter在分布式环境下的动态更新问题,还可以有效减少BloomFilter的错误率以及改善其稳定性.最后还使用数据压缩技术进一步减少在P2P系统中使用DBF技术的结点间通信代价.  相似文献   

17.
基于CT血管造影(computed tomography angiography,CTA)图像的冠状动脉自动分割的挑战在于冠状动脉结构复杂、前背景分布严重不平衡,分割时易受冠状静脉和其他组织的干扰.提出了一种两阶段的冠状动脉分割算法,第一阶段采用具有密集特征提取和残差特征修正能力的3D DRU-Net进行分割,保证分割的召回率;在第二阶段提出2D双编码多特征融合U-Net(2D DEMFU-Net)进行细分割,先对原始图像和第一阶段分割结果分别进行特征提取,再采用密集跳跃连接融合两个分支上的多层次语义特征,进一步提高分割准确性.实验结果表明,提出的两阶段分割算法在CortArt2020数据集上的Dice相似系数、召回率和精确度分别优于3D U-Net网络3.83%,5.31%和2.23%.  相似文献   

18.
一种基于VSM文本分类系统的设计与实现   总被引:10,自引:0,他引:10  
阐述了一个基于改进向量空间模型的中文文本分类系统的设计与实现 ,包括对该系统的结构、预处理、特征提取、训练算法 ,分类算法等关键技术的介绍 .通过引入结构层次权重系数来改进文本特征项权重 ,同时提出一种新的训练算法和文本相似度域值计算方法 .实验结果证明 :该分类系统能有效地提高文本分类效果 ,开放性测试的平均准确率在 80 %以上 ,且平均查全率达到了 86 % .  相似文献   

19.
介绍英汉机译中识别未登词的一种新方法,首先通过相似性测量,寻找与未登录词最相似单词;然后通过手工制作 的猜测规划,正确标注未登录词、测试结果说明,标注未登录词的三种性能指标分别为;大约93.8%的查全率,76.3%的查准率及94.1%覆盖率。在以大约91.7%的标注精确率识别未登录词的同时,获得增加至大约97.3%的整体标注精确率,从而改善英语分析性能,促进英汉机译质量提高。  相似文献   

20.
提出一种利用哈希函数和随机数特性并结合PPCT和排列图的混合软件水印方案. 利用随机数和哈希函数进行预处理隐藏真实的版权信息,通过修改PPCT的叶节点的左、右指针来创建排列图.在发生版权纠纷时,PPCT或排列图任何一个被提取即可证明版权.利用排列图或随机数可重构嵌入程序中的水印拓扑图,而且,即使在水印被攻击而部分提取的情况下,根据重构的PPCT与提取的PPCT的相似度为证明版权提供证据,进一步增强软件水印的鲁棒性.仿真实验的提取结果表明,混合软件水印方案在删除、修改、增加指针后仍能证明版权,明显增强水印的抗攻击性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号