共查询到20条相似文献,搜索用时 125 毫秒
1.
针对以往算法在学习哈希函数过程引入随机性,导致得到的哈希码存在很大的差异性。该文以集成学习理论和并行计算方法为支撑,提出了一种非监督集成哈希学习 (UEH)算法。首先,对于一些经典哈希算法,例如SKLSH和ITQ,并不能获得唯一的汉明排序,因为在不同时刻学习得到的哈希函数并不唯一,亦即存在差异性;然后,运用集成学习算法去平衡哈希码之间的差异性,达到减少量化误差的效果;特别地,当基学习器满足高精度和较大差异性条件时,集成性能越高,因此,我们采用自举法,通过随机产生多组训练子集来增大差异性,从而进一步提高算法的泛化能力。在图像库CIFAR10和MINIST上,运用该文算法进行图像检索,实验结果表明,该文算法的性能高于其他相关算法6%~15%。 相似文献
2.
《广西师范大学学报(自然科学版)》2016,(4)
本文将主成分分析(PCA)应用于图像哈希,设计基于特征距离的感知哈希算法。该算法从规范化图像中构造适合于数据降维的二次图像,接着对其进行PCA处理,用PCA降维特征的距离生成哈希序列。实验结果表明本文算法的接收机操作特性曲线的分类性能优于现有的3种哈希算法。大规模图像库的拷贝检测显示,本文算法有较好的拷贝检测性能。 相似文献
3.
提出了一种基于柬汉双语词对齐语料构建柬埔寨语依存树库的方法。首先构建柬汉词对齐语料库,在该过程中不仅使用GIZA++模型进行词对齐,还利用词典模糊匹配和词向量相似性比较的方法进行双语词对齐语料库的构建;其次根据哈工大LTP平台构建中文依存树库;最后结合柬汉词对齐语料库和中文依存树库通过映射的方式构建柬语依存树库,再经过人工调整得到最终的柬语依存树库。实验表明,该方法简化了人工标注柬埔寨语句子依存关系的过程,减少了昂贵的人工标注工作,有效地提高了依存树库的构建效率。 相似文献
4.
论述了哈希技术在中国象棋人机博弈系统的搜索引擎和开局库中的应用以及实现原理,论证了基于哈希技术的编码方式的开局库的优越性,对基于哈希技术的置换表算法分析了使用单一的置换表所存在的缺陷,并通过数据证明了一种双置换表的优越性,使置换表这一启发式搜索算法在搜索引擎中的作用更加合理。 相似文献
5.
基于IP流本地性的状态检测性能优化方法 总被引:5,自引:0,他引:5
提出了一种哈希表优化算法(MTH)以提高状态检测的速度.该算法根据IP流本地性,即最近访问过的会话节点很有可能被再次访问的特点,将刚访问的节点放置在Bucket链表头部,以减少哈希表的整体内存访问次数,提高会话表的速度.历史流量驱动的性能仿真实验表明,MTH算法的性能明显优于原哈希表算法,能够满足高速状态检测防火墙的速度要求. 相似文献
6.
基于哈希技术的流测量算法是网络测量领域的一种关键技术,对网络管理、规划和发展都有重要意义.本文对目前网络测量应用中常用的几种基于哈希技术的流测量算法进行研究比较,主要介绍了标准BF、CBF、MF、Sample and Hold、MGCBF和TCBF等几种哈希技术的工作原理、应用以及优缺点,并根据分析结果提出综合多种技术相结合的研究方向。 相似文献
7.
针对现有中文自然语言处理研究多以词或者字符为单位,忽视了中文词的内部层次结构的问题,提出一种新的中文词内部层次结构定义标准.该标准定义了内部结构的节点类型和节点内部关系.在此基础上,进一步提出了中文词内部层次结构的标注规范,并且人工标注了含有带内部层次结构的53 918个中文词的词料库.该研究有望为后续的细粒度中文自然语言处理提供新思路. 相似文献
8.
本文对Lucene中文切词算法进行改进,提出将基于网络有向图的双向匹配分词算法应用于Lucene的中文切词器,提高了检索的准确性和检索性能。 相似文献
9.
10.
视频哈希是从视频中提取到的基于视觉内容的短小数字序列,在实际应用中,用视频哈希来表示视频,能降低视频的存储代价和视频相似计算的复杂度。目前,视频哈希已被广泛应用于拷贝检测、篡改取证、视频索引、视频检索等方面。近年,视频哈希研究取得许多重要进展,研究人员设计和开发出多种手工特征提取技术,并建立一系列视频哈希算法。本文将基于手工特征的视频哈希算法分为空域计算和时空域计算2个大类,其中基于空域计算的哈希算法又分为逐帧计算和关键帧计算2类,而基于时空域计算的哈希算法则分为正交变换、统计特征、视觉特征点、数据降维和其他技术5类。根据这些分类,本文先分析每类算法的代表性研究成果并总结其性能;然后介绍常用的哈希度量方法、性能评价指标和视频数据集;最后列出未来研究工作可重点关注的内容,包括面向篡改取证的视频哈希、基于深度学习的高效视频哈希和面向移动应用的轻量级视频哈希等。 相似文献
11.
基于互信息的宋史语料库词表的提取 总被引:2,自引:0,他引:2
基于统计语言模型,对《续资治通鉴长编》进行了统计分析.根据互信息特征抽取候选字串,通过人机交互确定其是否构成词,然后动态修正相关字串的互信息值,逐步建立宋史语料库词表.实验中据互信息阈值抽取候选字串6 500个,根据汉语大词典确定是词的有3 694个,占56.8%.结果表明互信息法是建立古汉语语料库词表的有效辅助手段. 相似文献
12.
徐飞 《贵州大学学报(自然科学版)》2008,25(5)
利用词法分析的良好识别性,在中草药数据库系统中较好地解决了非结构化的文本库到结构化的关系数据库的关键词库的建立问题,同时提供了一个较好的提高中草药著录数据的规范化存储效率的解决方法. 相似文献
13.
几种常用文本分类算法性能比较与分析 总被引:9,自引:0,他引:9
分析了几种典型的文本分类算法的特点,并基于中文文本数据集和英文文本数据集对算法性能进行了综合评价.实验结果表明:对于英文文本数据,支持向量机具有最优的性能,但时间开销最大,贝叶斯算法速度较快;对于中文文本数据,由于分词的困难,使得算法性能普遍低于同等规模下在英文数据集上的性能.几种算法性能均随训练集规模的增大而有改善. 相似文献
14.
中文密文数据库正则查询的研究与实现 总被引:1,自引:1,他引:0
为提高中文密文数据库查询的灵活性、便捷性、高效性,设计了一种新的密文索引结构.它通过登记汉字所在记录的记录标识以及汉字在属性值中的位置,来提供对中文正则查询的支持.在这种索引的基础上,提出了一系列正则查询处理算法,这些算法利用索引登记的汉字位置信息来筛选符合查询条件的记录.仿真实验证明,利用这种索引和算法,能够在中文密... 相似文献
15.
对数据库受限汉语自然语言查询语句进行分渊处理.分词算法分为两个部分,第一部分对最大匹配法进行改进,改进的核心思想足体现整句长词优先的原则,改进后的算法能够减少切分歧义;第二部分根据实例数据库的查询需要处理姓名和不稳定的属性值两类未登录词,未登录词的识别对后续句子的理解起着至关重要的作用. 相似文献
16.
马世杰 《科技情报开发与经济》2014,(17):154-157
以中国期刊全文数据库(CNKI)中法家经典论文文摘为数据分析来源,借助计算机应用系统,对论文文摘进行了词语与词组的挖掘、整理,建成了法家高频词词库,采用词频分析软件及词频分析方法,对高频词语进行了多途径、广角度的系统性、综合性比较研究,探讨了法家思想精髓及异同点,开拓了我国法家经典及古典文献研究的新途径。 相似文献
17.
鲁程 《科技情报开发与经济》2006,16(23):74-75
介绍了中国专利数据库、欧洲专利局专利数据库、美国专利商标局专利数据库、日本特许厅政府网站专利数据库、印度国家信息中心专利数据库的主要内容,并对它们的检索界面、检索字段、布尔逻辑算符等进行了分析研究。 相似文献
18.
汉语耳语音库的建立与听觉实验研究 总被引:6,自引:1,他引:6
耳语音的识别和转换是个全新的课题,可应用于公共场合下的通讯和公安司法工作的某些特殊需要等方面.首先建立了一个包含1172个字和98个近音词的单人女声的汉语耳语音库.通过对两个听觉测试实验数据的统计分析,研究了人耳对汉语耳语音字和近音词声调的辨认率特征,得出人耳对孤立字四个声调的辨认率由高到低的排序为三声>四声>二声>一声.同时也得出人耳对词声调的辨认能力比字要强得多.幅值包络和音长这两个特征参量能够反映出汉语耳语音声调的特性,基于此参数对汉语耳语音字进行声调识别实验,其声调识别率已达到了人耳的平均辨认率,为连续耳语音声调识别研究打下了基础. 相似文献
19.
对于基于词的搜索引擎等中文处理系统,分词速度要求较高。设计了一种高效的中文电子词表的数据结构,它支持首字和词的Hash查找。提出了一种Hash高速分词算法,理论分析表明,其平均匹配次数低于1.08,优于目前的同类算法。 相似文献
20.
设计并构建了一种记录书写者民族信息的手写体汉字数据库———大连民族学院DNU-Ⅰ型多民族脱机手写体汉字数据库。包括单字库、行文本库和段文本库3个子库。为少数民族汉字书写特征分析、中文文档的行切分、汉字的切分识别、中文文本的无切分识别、笔迹鉴别和签名验证等方面的研究奠定基础,并提供算法的验证平台。同时介绍了字符识别数据库的一般构建流程和数据库图像二值化、归一化、行分割等预处理算法,为少数民族文字数据库的构建提供了技术支撑。 相似文献