首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 437 毫秒
1.
选取EMD(earth mover's distance)作为度量概率数据相似性的标准.EMD具有抗噪性好,对概率分布间的微小偏移不敏感等优良特性,但却具有三次方的复杂度.针对此问题,提出EMD-κJon算法,在相似性搜索方面,基于线性规划的对偶理论为概率数据构建索引,避免不必要的EMD求精计算;在处理流程方面,以复杂度较低的范围查询为主要操作,并逐步缩小搜索阈值.通过使用真实数据集对EMD-κJoin进行测试,证明EMD-κJoin极大提高了基于EMD的概率数据top-κ相似性连接操作的执行效率.  相似文献   

2.
为验证Eros距离对MTS数据集相似性度量的有效性,针对不同MTS数据集进行了相似性搜索实验研究.结果表明:相对于其他的传统多元时间序列相似性度量,基于Eros距离的相似性度量方法比传统的方法在查全率-查准率上具有更大的优越性.  相似文献   

3.
随着新型分布式系统的使用范围越来越广,应用不再满足于仅使用主键访问方式来读取数据,如何在这些系统中高效实现Join等复杂操作成为研究的热点.本文介绍了如何基于Semi-Join算法在分布式系统中实现Join操作,提出了两种获取右表数据的方法,并通过实验分析了该算法的性能.  相似文献   

4.
等值连接作为数据分析中最常用、代价最高的操作之一,在Spark上的实现和优化与传统并行数据库有很大的差别,传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现,而目前被广泛采用的Broadcast Join和Repartition Join性能较差,如何提高连接性能成为基于Spark的海量数据分析的关键.本研究将Simi-Join与Partition Join的优势相结合,并基于Spark上的特性提出了一种优化的等值连接算法.代价分析和实验表明本算法比现有基于Spark的数据分析系统中的连接算法性能提升1~2倍.  相似文献   

5.
针对不确定数据频繁项集挖掘效率低和准确度不高的问题,提出了一种基于改进的频繁模式树(FPtree)和遗传算法(GA)挖掘不确定数据概率频繁项集的方法,即UFPGA(基于频繁模式树和遗传的挖掘算法).该算法根据不确定数据的构成特征,改进频繁模式树方法挖掘不确定数据频繁项集,采用缩小变异空间和增加育种算子的遗传算法搜索最大频繁项集,收缩了搜索范围,提高了挖掘效率.实验结果表明:该方法在时间复杂度方面有很好的优越性,对大规模的不确定数据挖掘提供了一种有效的技术手段.  相似文献   

6.
水文时间序列的相似性搜索研究   总被引:1,自引:0,他引:1  
将时间序列相似性搜索的数据挖掘方法应用于水文时间序列数据中,挖掘相似的水文过程.在分析欧氏距离和动态时间扭曲距离两种相似性距离度量方法特点的基础上,采用对时间轴的伸缩和弯曲具有较好适应性的动态时间扭曲距离法对塔里木河流域源流区出山口水文站沙里桂兰克站1961—2000年共220场洪水流量过程进行相似性搜索,基于相似性距离度量矩阵,挖掘出相似的洪水流量过程.结果表明,沙里桂兰克站洪水过程虽形态多样,但也表现出一定的相似性,基于动态时间扭曲法的相似性搜索能有效挖掘出相似的水文过程.  相似文献   

7.
针对旋转机械故障识别率偏低的问题,提出一种基于EEMD与模糊信息熵的旋转机械故障诊断方法.该方法结合EEMD分解和模糊信息熵在特征提取方面的优势,构造出一种能够精细度量不同类别振动信号故障概率复杂度的特征集合.首先将原振动信号进行EEMD分解,获得若干个本征模态函数(IMFs);计算出前5个高频IMF分量的模糊信息熵组成高维特征集;利用LPP对高维特征集进行维数约简剔除冗余不相关特征;最后将约简后的样本集输入到KNN分类器中进行故障识别.用双跨转子实验台采集的数据对所述方法进行验证,并与EMD模糊熵、EMD模糊信息熵、EEMD模糊熵方法进行故障识别率对比,结果表明该方法能够有效提取转子振动信号的故障特征,并且具有更高的故障识别率.  相似文献   

8.
点击率预测可以提高用户对所展示互联网广告的满意度,支持广告的有效投放,是针对用户进行广告的个性化推荐的重要依据.对于没有历史点击记录的用户,仍需对其推荐广告,预测所推荐广告的点击率.针对这类用户,以贝叶斯网这一重要的概率图模型,作为不同用户之间广告搜索行为的相似性及其不确定性的表示和推理框架,通过对用户搜索广告的历史记录进行统计计算,构建反映用户间相似关系的贝叶斯网,进而基于概率推理机制,定量度量没有历史点击记录的用户与存在历史点击记录的用户之间的相似性,从而预测没有历史点击记录的用户对广告的点击率,为广告推荐提供依据.通过建立在KDD Cup 2012-Track 2的Tencent CA训练数据集上的实验,测试了方法的有效性.  相似文献   

9.
为解决算法生成纹理地图时时间耗费量大的问题,提出采用KD-tree算法对数据结构进行划分、减小KNN算法搜索复杂度、提高搜索速度的方法.针对基于纹理基元的分类算法无法准确检测室外某些纹理相似性较高的自然场景,提出加入颜色特征、设置相应权值构建混合模型的方法.实验结果表明,基于KD-tree的KNN算法可缩短分类时间、满足实时性的要求,基于纹理基元与颜色的分类算法在室外自然场景中能够获得较高的分类精确度.  相似文献   

10.
为高效率地生成概念,提出一种基于增量更新内涵的概念生成算法IUICG(Incremental Updating Intension based Concepts Generation)。首先将背景中的属性逐个设定为任务属性,以任务属性将概念搜索空间划分为先行概念集合和新增概念集合,提高了搜索效率。其次提出了概念操作规则,其中外延过滤规则避免了无效外延对概念空间的搜索,内涵更新规则和新增概念规则提升了概念生成速度。实验结果表明,在不同类型的数据集上,IUICG算法的时间性能都优于对比算法。在对象数量远大于属性数量的数据集上,IUICG算法具有接近线性的时间复杂度。  相似文献   

11.
首先简单描述了决策环境模型的思想,然后着重讨论了DSS框架控制部件的设计与实现。该部件不仅建立了决策环境模型的计算机实现机制,为决策环境模型思想的推广和应用提供了方便;而且可以作为一般DSS系统的主控系统。本文阐明了该部件在DSSs设计与实现中的应用思想。  相似文献   

12.
In this paper, constrained K closest pairs query is introduced, wbich retrieves the K closest pairs satisfying the given spatial constraint from two datasets. For data sets indexed by R trees in spatial databases, three algorithms are presented for answering this kind of query. Among of them, two-phase Range+Join and Join+Range algorithms adopt the strategy that changes the execution order of range and closest pairs queries, and constrained heap-based algorithm utilizes extended distance functions to prune search space and minimize the pruning distance. Experimental results show that constrained heap-base algorithm has better applicability and performance than two-phase algorithms.  相似文献   

13.
结合经验模态分解(EMD)与核主成分分析(KPCA)方法,针对SAR图像提出一种改进的相干斑抑制算法。首先将SAR图像进行对数变换和均值调整后进行经验模态分解;然后利用KPCA进一步去除各层本征模态函数(IMF)中的噪声,具体方法是根据斑点噪声的统计特性和零均值高斯白噪声IMF的能量分布模型,近似计算各层IMF中噪声能量所占比例,据此选择合适数量的主成分重构IMF;最后对经过KPCA处理的IMF进行累加重构得到去噪SAR图像。实验结果表明,与另外两种EMD图像去噪算法相比,本文提出的方法在相干斑抑制效果和图像细节信息保持能力两方面都有较好的提高。  相似文献   

14.
目前检测网络欺诈均采用人工的方式。该文提出了一种基于EMD(earth move distance)算法的视觉相似度欺诈网页检测算法,算法将网页在像素级别的相似度比较结果作为依据,判断某网页是否为欺诈网页。在2个实际系统中应用和实践了该算法,通过对9280个网站进行检测,检测出欺诈的正确率为90.90%,结果显示该算法具有较高的欺诈检测精度以及较低的时间性能开销。  相似文献   

15.
目前检测网络欺诈均采用人工的方式。该文提出了一种基于EMD(earth move distance)算法的视觉相似度欺诈网页检测算法,算法将网页在像素级别的相似度比较结果作为依据,判断某网页是否为欺诈网页。在2个实际系统中应用和实践了该算法,通过对9280个网站进行检测,检测出欺诈的正确率为90.90%,结果显示该算法具有较高的欺诈检测精度以及较低的时间性能开销。  相似文献   

16.
在对现有的概率矩阵分解算法研究的基础上,针对其中只使用评分信息来做预测存在较大误差的问题,提出了一种结合用户相似度的社会化推荐算法(SRUS).首先,以概率矩阵分解算法(PMF)为基础,结合用户相似度信息进行建模;其次,使用潜在特征空间将评分矩阵和相似度矩阵关联到一个统一的框架中;最后,对这2个矩阵进行矩阵分解,实现算法的优化推荐.将这一算法与PMF算法进行比较,实验表明,SRUS算法在数据稀疏性、冷启动和精确性方面具有更优的效果.  相似文献   

17.
探讨了针对概率XML文档集中与内容相关的关键字检索结果的排序问题,针对概率XML文档的特征提出了一种新的排序模式.与仅取决于检索结果概率的检索排序算法不同,本文提出的排序算法充分考虑了节点对文档的区分程度、节点描述文档的程度,以及XML文档本身的结构特性,设计了满足以上特征的检索结果排序模型,并针对排序模型提出了新的倒排索引结构.新的排序算法可以快速完成关键字检索,并将最相关的信息提供给用户.模拟数据集实验验证了该方法的有效性.  相似文献   

18.
针对海量web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型.对一篇新入库的网页文档,利用所包含的关键词迅速缩小进行相似度计算的网页范围,提高计算效率.实验结果表明该算法是有效的,小规模评测结果得到较好的效果.  相似文献   

19.
为充分利用汉字结构、轮廓、笔画、书写顺序等特征识别相似汉字,提出基于特征向量和笔顺编码的字形相似算法,用以解决形近字检索中准确度不高的问题。算法采用图像处理方法及五笔编码规则将汉字转化为特征向量形式和笔顺编码字符串,引入二值化差值算法和改进后的Jaro-Winkler Distance算法分别对其进行相似度计算,2个相似度分别从不同方面反映汉字的相似程度,吸取2种方法的优势对其进行融合,得到最终字形相似度。实验结果表明,该算法在字形检索中较3元组递归算法准确率提高27.8%,较模板匹配算法、结构方法、神经网络算法执行效率平均提高约66.7%,该算法不仅可以有效解决形近字检索中的准确性问题,同时效率也得以优化。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号