首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 515 毫秒
1.
针对目前垃圾短信的识别算法存在的关键字及频次的规则死板,易于被不法分子探测和规避等问题,提出将局部敏感哈希的K邻近算法应用于垃圾短信分类识别;首先定义特征,然后采用局部敏感哈希算法计算向量距离,通过得到的距离衡量矩阵的相似性,量化矩阵相似程度,对本文中提出的优化模型进行实现和训练;基于短信文本内容,运用词频-逆向文本频率算法生成矩阵,利用局部敏感哈希算法求解最相似样本,记录样本类别,将训练结果导入K邻近算法分类器得到最优近邻,在测试集或验证集上对优化模型垃圾短信分类识别准确率进行评测。结果表明,经过K邻近算法分类器后,优化模型垃圾短信分类识别准确率达到98.7%。  相似文献   

2.
为了提高图像检索精度,文章在谱哈希的基础上引入最小量化误差的思想,提出了一种基于改进谱哈希的大规模图像检索算法,该算法避免了谱哈希中要求的数据服从均匀分布的假设,并且能够保持数据在原始空间的相似性;引入Boosting算法来确定阈值,使得该算法具有更强的适应性和更广泛的应用;在公开的图像数据集上做了实验,实验结果表明该方法优于谱哈希、局部敏感哈希和迭代量化等哈希算法。  相似文献   

3.
在大规模文档中进行快速的相似搜索对绝大多数信息检索应用程序是至关重要的.基于局部敏感哈希的检索方法将高维的空间数据映射到低维的二进制海明空间,从而实现了快速搜索.本文给出了一个基于核化局部敏感哈希的快速文档检索方法,可以在保证时间效率下允许算法使用不同的相似函数进行快速检索.实验结果表明该方法在大规模文档集合检索中具有较好的效率和准确率.  相似文献   

4.
针对密度峰值聚类算法(DPC)中存在的截断距离难以确定、局部密度定义单一的问题,本文提出了一种基于密度万有引力改进的引力峰值聚类算法(DG-DPC算法)。该算法使用相互K近邻的方法对相似性度量和局部密度进行了重新定义,然后将引力参数引入到DPC算法中,并通过新的相对局部密度与引力参数的倒数作出决策图选取簇中心,对数据集中的点进行分配。仿真实验表明,DG-DPC算法对于人工合成数据集和UCI数据集都有效,且准确率相对于基于相对密度优化的密度峰值聚类算法(RE-DPC算法)、DPC算法、基于间隙自动中心检测的密度峰值聚类算法(GAP-DPC算法)分别平均提高了31.07%、21.60%、17.20%。  相似文献   

5.
针对传统K近邻法的缺陷,改进的K近邻法首先对训练样本进行聚类,将样本的特征空间划分成若干满足一定条件的小超球体,然后依据最近间隔值在这些小超球体内搜索待分类样本的K个近邻点.算法通过特征选取,选出反映样本模式重要信息的特征,从而确保了聚类的质量.同时K近邻算法中引入的最近间隔值,既确定了近邻点的搜索半径,又保障了搜索的准确性.通过实验证实,该方法不但节省时间,还有较高的识别率.  相似文献   

6.
基于局部信息的加权孪生支持向量机(WLTSVM)借用类内及类间近邻图分别表示类内样本的紧凑性和类间样本的分散性,克服孪生支持向量机(TWSVM)欠考虑训练样本间相似性的缺陷,并且在一定程度上降低二次规划求解的计算复杂度。然而,WLTSVM仍不能充分刻画类内样本潜在的局部几何结构,并且存在对噪声点敏感的风险。基于以上不足,提出一种鲁棒的加权孪生支持向量机(RWTSVM)。与WLTSVM相比,RWTSVM的优势在于:选用热核函数定义类内近邻图权值矩阵,可以更好地刻画类内样本潜在的局部几何结构及蕴含的鉴别信息;用类间近邻图选取边界点,同时结合类内近邻图使得超平面远离边界点中权重较大的样本,降低算法对噪声点敏感的风险。人造数据集和真实数据集上的测试结果验证算法RWTSVM的有效性。  相似文献   

7.
图像搜索时需要尽可能地保留图像语义相似性,传统的哈希图像检索方法大多是基于人工视觉特征的,它的性能已经满足不了现在图像搜索的要求.为了解决这个问题,我们将哈希编码和卷积神经网络结合起来,旨在研究出一个更好的检索方法.本文使用卷积神经网络中的AlexNet模型和哈希编码结合,改进了传统的图像搜索算法,缩短了神经网络的训练时间,提高了哈希算法的效果.我们选用CIFAR-10数据集来进行相关实验.实验结果表明,该方法相比于传统的图像检索方法具有多方面的优越性.  相似文献   

8.
信息采集技术日益发展导致的高维、大规模数据,给数据挖掘带来了巨大挑战,针对K近邻分类算法在高维数据分类中存在效率低、时间成本高的问题,提出基于权重搜索树改进K近邻(K-nearest neighbor algorithm based on weight search tree,KNN-WST)的高维分类算法,该算法根据特征属性权重的大小,选取部分属性作为结点构建搜索树,通过搜索树将数据集划分为不同的矩阵区域,未知样本需查找搜索树获得最"相似"矩阵区域,仅与矩阵区域中的数据距离度量,从而降低数据规模,以减少时间复杂度.并研究和讨论最适合高维数据距离度量的闵式距离.6个标准高维数据仿真实验表明,KNN-WST算法对比K近邻分类算法、决策树和支持向量机(support vector machine,SVM)算法,分类时间显著减少,同时分类准确率也优于其他算法,具有更好的性能,有望为解决高维数据相关问题提供一定参考.  相似文献   

9.
为了缓解光照变化、部分遮挡和背景干扰等场景对于目标跟踪算法的影响并实现实时跟踪,提出了基于全局和局部哈希特征的建模方法.这种建模方法能够有效地提取目标全局和局部特征并进行融合,从而获得更加鲁棒的目标表达.为了提升算法的运行效率,采用倒金字塔候选框搜索策略,以去除大量的冗余候选框;另外,使用汉明距离来度量候选框与目标框之间的相似性,并结合哈希特征和汉明距离的特点,将位操作嵌入到了哈希特征的提取与存储及汉明距离计算的过程中.最后,通过在一些复杂场景中与多个经典跟踪算法进行对比实验,验证了本文算法在稳定性、鲁棒性和时效性等方面的优势.  相似文献   

10.
蚁群算法是一种新型仿生算法,但存在搜索时间长,收敛速度慢,易陷入局部最优等缺点.提出了一种改进蚁群算法,利用象限近邻表构造候选集和对偶象限近邻的方法初始化信息素,可以克服上述缺陷.TSP的仿真结果表明新算法大大缩小了其搜索范围,提高了搜索精确度并减少了搜索时间.  相似文献   

11.
针对 W.Litwin提出的 Trie Hashing结构的路径长度分析问题,研究并揭示 了该结构所具有的某些新的性质;建立了必要的分析前提.从而给出了 Trie Hashing 结构平均路径长度的分析方法。所得估计式仅与外部结点数目有关,理论分析与模拟 实验的结果表明,对于 Trie Hashing 结构,文中的分析方法明显优于 Klein 和 wood的类似结果。  相似文献   

12.
宋传超  王庚 《山东科学》2013,26(2):92-97
本文将位置敏感哈希算法(LSH)应用于图聚类,提出了概率化的图聚类法(PGC)。利用LSH技术比较图中各结点邻居集的相似度,并结合贝叶斯统计推断进行验证,在线性时间内找到图中最紧密的、非精确聚类。测试结果表明,随着图尺寸的增大PGC扩展性更强,在现实世界数据集上PGC比PageRank Cluster 聚类速度快约1倍,是一种有效的解决方案。  相似文献   

13.
利用尺度不变特征点的提取方法提取特征点,并对SIFT方法提取出的特征点用最近邻算法进行配准,在搜索最近邻特征点和次近邻特征点时使用了在K-D树搜索算法基础上进行改进的搜索算法BBF(Best Bin First)算法。实验证明该算法具有配准精度高,鲁棒性好的特点。  相似文献   

14.
协同过滤推荐算法是目前个性化推荐系统中应用比较广泛的一种算法,但也同样面临着数据稀疏性、冷启动、可扩展性等问题.本文主要针对数据稀疏性问题和冷启动问题导致的推荐效果不精确,提出了一种改进的数据填充方式和相似度计算方法.首先根据用户评分习惯对用户进行层次聚类,其次利用用户基本信息如年龄初步计算用户之间的相似度,并将共同评分项所占比值作为权重得到用户相似度,最后利用Slope-one算法计算前K个相似用户的填充值,加入相似度的权重以获得最终填充值.计算相似度寻找近邻集时,将用户基本属性作为相似度权重,并且引入Sigmoid函数来添加时间戳对相似度的影响,并得到最终的相似度计算方法. 实验结果表明,推荐精度得到了显著提高,数据稀疏性问题和冷启动问题得到了改善.  相似文献   

15.
为实现视频纹理的有效识别, 提出一种基于 LBP(Local Binary Patterns)和 KNN(k-Nearest Neighbor)的视频纹理识别算法。 该算法将视频纹理视为一个图像纹理集合, 通过多个图像纹理集合的方式表示。 由于可计算任意两幅纹理图像的相似度, 对于两个视频纹理, 可以计算两个图像纹理集合中所有元素之间的相似度, 将这些相似度中的最小值作为这两个视频纹理的相似度, 若要实现视频纹理的识别, 则可通过 KNN 算法实现分类与匹配。 通过在 DynTex 动态纹理数据库中的相关实验, 证明了该算法的有效性。  相似文献   

16.
针对文本分类存在的高维文本问题,提出文档频率(DF)-卡方统计量特征提取方式,对特征项进行有效约减,降低文本维度,提高分类精度.在K最近邻(KNN)算法的基础上,针对待分类文本需要和大量训练集样本进行相似度计算的问题,提出一种基于分组中心向量的KNN算法,对类别内的样本集分组求出各组中心向量,使其重新代表训练库计算相似度,降低计算复杂度,提升算法的分类性能.通过实验表明:相较传统KNN算法,改进的算法在准确率、召回率及F值方面都有提升,与其他分类算法相比,具有一定的优势.  相似文献   

17.
在空间网络数据库(SNDB)中,最近邻查询(NN)在基于位置的服务(LBS)中尤为关键.现有的查询处理方法大多依赖于路网的稀疏程度,其他处理方法如UNICONS等改进了该不足,但可能存在过计算的问题.针对后者,本文提出并证明了基于非交叉点路径中的预计算理论,同时基于该理论提出一种通用的基于SNDB的NN查询处理方法,该方法通过跳跃式查询交叉点的最近邻来降低预计算的代价.通过实验,验证了本文提出的处理方法在最近邻查询中的正确性和有效性,特别是在交叉点分布稀疏的路径上,性能优势尤为明显.  相似文献   

18.
一种提高文本聚类算法质量的方法   总被引:1,自引:0,他引:1  
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题.  相似文献   

19.
研究了基因序列分析中的DNA序列相似性重复片段的查找问题.在对重复片段的相似性衡量进行分析之后,基于海明距离提出了新的相似度衡量标准模式相似度和片段相似度,并在此基础上提出了一个新的相似性重复片段的定义SATR(segment-similarity based approximate tandem repeats).在进行SATR的查找时,采用了一个轻量级的索引后继数组,并设计出在后继数组上进行SATR查找的算法.实验评估和性能分析表明,基于后继数组的SATR查找算法在查找结果和查找时间上都要优于其他同类方法.  相似文献   

20.
基于置乱和灰度扩散的图象置乱算法研究   总被引:2,自引:0,他引:2  
置乱和灰度扩散是置乱图象的两种手段,其目的都是达到图象的不可认识.作者重点研究扩散算法,提出了传递扩散与局域扩散的概念,并详细分析了传递扩散算法在受到干扰或攻击时所引起的图象失真性.在此基础上,提出了局域单点扩散概念,产生了单点扩散与置乱相结合的图象置乱算法.实验证明,该算法具有很好的置乱效果和较高的鲁棒性,可广泛应用于数字图象的置乱操作.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号