共查询到20条相似文献,搜索用时 171 毫秒
1.
在研究了多种分词词典机制的基础上,提出一种改进的词典机制在传统的首字哈希表中增加拼音首字母和次字哈希标志项,在首字哈希表中查询次字的拼音首字母,根据双字以上词的数量决定是否按次字拼音首字母散列到次字首字母哈希表中,以此决定次字的查询方式在兼顾空间复杂度的同时,缩小次字查询范围能较大幅度地提升高频词的次字的整体查询效率第3字及其后的字串的匹配仍然采用目前成熟的词典机制通过实验测试,该机制在增加少量的存储空间情况下,时间效率可提升26% 相似文献
2.
3.
多媒体数据内容检测系统关键技术研究 总被引:1,自引:1,他引:0
采用感知哈希技术来实现基于多媒体数据库(MMDBMS)的内容查询是目前多媒体数据库管理的主要处理方法之一.该文在感知哈希计算过程中加入哈希表快速匹配,并利用改进的Sobel算子去除边缘特征点,在保证计算结果精度基本不变的前提下,过滤掉大量边缘特征点,提高了系统的整体效率.大量实验结果表明,该方法可对多媒体数据内容进行有效检测. 相似文献
4.
提高P2P网络资源快速定位效率是Chord协议的应用之一.提出了一种基于DHT的轻量级Chord资源快速定位算法.该算法根据节点自身资源被访问次数建立资源管理表并利用哈希函数对资源号有序序列实现相同资源搜索时减少遍历次数,也就加快了热度资源查询与定位速度.仿真实验表明,该算法在小型P2P网络中用来提高资源定位效率是可行的. 相似文献
5.
布隆过滤器常用于联盟链Hyperledger Fabric状态数据库LevelDB的读性能优化,但布隆过滤器本身存在误报现象,且LevelDB只能对布隆过滤器进行统一配置而无法自适应调整。为此,提出一种单元化的部分计数式布隆过滤器(partial counting Bloom filter,PCBF)构造方案,设计可并行计算的元素插入与查询机制并结合双重哈希及非加密哈希来实现快速插入与查询;基于开启过滤器单元与访问次数构建排序字符串表优先级,使用时间片轮询算法对过滤器单元进行自适应调整,实现了资源的合理分配。实验结果表明: PCBF具有较高的插入效率,并能减少20%左右的误报数量,适用于联盟链的高并发场景。 相似文献
6.
为提高拷贝检测系统的鲁棒性和效率,提出一种鲁棒图像哈希算法. 用Gabor变换系数构建图像内容结构图,将它从笛卡尔坐标系变换到极坐标系进行归一化. 将归一化的结构子图加权,求得特征向量,最后通过量化得到二值哈希码. 基于Gabor系数的内容结构图有很强的鲁棒性和独特性,量化中采用的失真哈希码融合和双密钥进一步提升了算法的鲁棒性、独特性、紧凑性. 利用公开数据库分别对所提出的算法和多种代表性算法进行对比实验,比较对象包括非负矩阵分解哈希、形状上下文哈希、圆环分割与不变向量距离哈希. 实验表明,该算法在查准率和查全率方面均表现突出,匹配效率也有大幅提升,整体性能优于对比算法. 相似文献
7.
为了提高图像的拷贝检测效率和识别性能,提出一种基于小波分解的统计特征哈希.对图像预处理后通过三级小波分解提取图像的近似图像,再提取第3次小波分解所得近似图像的行与列的统计特征;将行与列统计特征的L2距离作为图像的不变特征,并将所有不变特征联合作为图像的最终哈希.实验结果表明,所提出的哈希算法的拷贝检测识别性能较好,效率较高. 相似文献
8.
词霸2001即将问世,其最突出的特点就是实现了四向查询,包括英英、英汉、汉英、汉语。在金山词霸.net2001中,共收录了 2亿6千万字,700多万条专业词汇。权威词典达到12部,专业词库达到32套。新增了2000多幅精美图片,让查词过程更加生动。在TTS发音的基础上,首先进行了语音语速的自由调节。新增加了辅助学习的生词本,会自动收录所有查过的单词,标明查询次数,提供详细解释及相关习题。它具有全球领先的国际内核,支持多种语言同屏显示,可挂接日语德语等其他语种词库后成为多语言词典。.net色彩保证… 相似文献
9.
10.
一种基于精确欧氏位置敏感哈希的目标检索方法 总被引:1,自引:0,他引:1
针对目标检索问题,常用方案是视觉词典法(bag of visual words,BoVW),但传统的BoVW方法具有时间效率低、内存消耗大以及视觉单词同义性和歧义性的问题. 针对这些问题,该文提出一种基于精确欧氏位置敏感哈希(exact Euclidean locality sensitive Hashing,E2LSH)的目标检索方法. 首先,采用E2LSH 对训练图像库
的局部特征点进行聚类,生成1 组支持动态扩充的随机化视觉词典组;然后,基于这组词典构建视觉词汇直方图和索引文件,并由tf-idf 算法对词频向量重新分配权重;最后,将目标直方图特征与索引文件进行相似性匹配,完成目标检索. 实验结果表明,相比于传统方法,该方法较大地提高了检索精度,对大规模数据库有较好的适用性. 相似文献
11.
中文自动分词一直是中文信息处理、Web文档挖掘等处理文档类研究的基础技术之一,传统的中文分词技术研究,主要集中在算法的改进研究上,对实验的平台,有关软件的实现涉及很少.本文通过探讨中文自动分词的重要性和不可或缺性,给出了基于VC++/MFC自动分词软件的开发技术,最后对软件实现的四种基于词典的机械匹配的算法进行了实验分析,实验证明该系统能够高效的给中文信息处理提供一个平台. 相似文献
12.
13.
本文提出多组耦合字典及其交替学习算法,实现图像超分辨率重建. 在字典学习阶段将训练图像视为高分辨率图像,将它先缩小再放大得到低分辨率图像. 两图像之差为残差图像. 从残差图像块和低分辨率图像块特征的联合数据中学习耦合字典,得到残差图像和低分辨率图像间的映射关系. 针对图像块具有不同纹理和结构以及
字典学习效率的问题,提出多组耦合字典和字典交替学习算法. 在重建阶段先将输入图像插值放大,视为低分辨率图像. 求出低分辨率图像块对于每组耦合字典中低分辨率部分的稀疏表示误差,取表示误差最小的耦合字典中残差部分重建残差图像,与低分辨率图像融合得到高分辨率图像. 实验结果表明该方法具有良好的重建效果. 相似文献
14.
挺出了一种隐式分词的中文输入法,并应用分词技术和输入法技术实现了这种隐式分词的中文输入法,该输入法在用户输入中文文本的同时进行分词,并形成包含分词信息的计算机文本以作为中文信息处理的标准文本。这为解决长期困扰中文信息处理的分词此问题找到了一个可行的办法。 相似文献
15.
16.
17.
中文命名实体识别(named entity recognition, NER)字符级别模型会忽略句子中词语的信息,为此提出了一种基于知识图谱中实体类别信息增强的中文NER方法。首先,使用分词工具对训练集进行分词,选出所有可能的词语构建词表;其次,利用通用知识图谱检索词表中实体的类别信息,并以简单有效的方式构建与字符相关的词集,根据词集中实体对应的类别信息生成实体类别信息集合;最后,采用词嵌入的方法将类别信息的集合转换成嵌入与字符嵌入拼接,以此丰富嵌入层生成的特征。所提出的方法可以作为嵌入层扩充特征多样性的模块使用,也可与多种编码器-解码器的模型结合使用。在微软亚洲研究院提出的中文NER数据集上的实验展现了该模型的优越性,相较于双向长短期记忆网络与双向长短期记忆网络+条件随机场模型,在评价指标F1上分别提升了11.00%与3.09%,从而验证了知识图谱中实体的类别信息对中文NER增强的有效性。 相似文献
18.
随着互联网的普及和网上电子文本信息的爆炸式的增加,自然语言处理技术面向动态的、变化的文本显得越来越必要.针对无切分语言的分词处理的主要难点是切分歧义和未知词的处理.基于归纳学习的分词方法,仅利用文本的表层信息,因此具有完全不依赖于某特定语言的优点.通过引入包含上下文信息的消歧处理规则,对基于归纳学习的分词方法进行改进.以归纳学习方法对未知词进行推测,抽出的规则用于歧义切分的消歧处理,提高了对切分歧义的处理精度.通过实验对规则的有效性进行了考察,并给出了改进方法的分词效果. 相似文献
19.
上下文相关汉语自动分词及词法预处理算法 总被引:8,自引:0,他引:8
提出了一种适合于汉英机器翻译的上下文相关汉语自动分词及词法预处理算法.该算法采用正向多路径匹配算法和基于上下文相关知识的歧义切分消解算法,充分利用汉英机译系统词典库中的大量语法和语义等知识进行上下文相关的规则推导消歧,使自动分词的准确率达到了99%以上.同时,该算法还对汉语中意义冗余的重叠词和可以与中心词离合的虚词等进行了词法预处理,从而一方面可以减少系统词典的收词量,另一方面方便于对句子的分析处理. 相似文献
20.
针对汉语语音文档检索中最优识别单元和检索单元不一致的问题,提出一种基于子词(position specific posterior lattices, PSPL)的语音文档索引方法;该方法以词为识别单元对语音文档进行解码,得到PSPL;然后对PSPL进行子词切分,并根据子词弧与原始词弧的后验概率关系,将PSPL转换为相应的子词PSPL,以子词PSPL为索引进行查询项检索. 实验结果表明,所提出的方法在利用丰富语言信息的同时,解决了词解码器存在的边界分割不正确的问题,检索性能明显优于目前普遍使用的识别单元和检索单元均为词的PSPL索引方法. 相似文献