首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
QENNI:一种缺失值填充的新方法   总被引:1,自引:0,他引:1  
针对k最近邻填充算法(kNNI)在缺失数据的k个最近邻的选择上可能存在偏好,提出一种新的缺失填充算法:象限近邻填充算法QENNI(quadrant-encapsidated-nearest-neighbor-based imputation),它仅仅使用缺失数据象限方向的最近邻数据填充该缺失值,避免了kNNI中选取的k个最近邻点有偏好这一情况。另外,此算法对于低维数据集可以是无参的,即消除了对参数的依赖。实验结果表明,QENNI算法的填充准确性要优于kNNI算法。  相似文献   

2.
提出一种基于局部均值的监督降维算法.找出与每一个样本点同类最远的k1个近邻的均值和异类最近的k2个近邻的均值,构造反映类内散布和类间散布的矩阵,由特征值分解确定特征提取变换.该方法使不同类别样本点之间的边界在投影子空间尽可能扩大,保留了数据的邻域结构,具有较强的模式可分离性.通过在ORL和YALE两个标准人脸数据库上与其他降维算法的对比识别实验,证实了算法的有效性.  相似文献   

3.
作为一种有效的非线性降维方法,流形学习在众多领域吸引了广泛的关注并取得了长足的发展。但当样本点较为稀疏时,样本点的局部邻域很难满足流形学习局部同胚的前提条件,此时流形学习算法往往效果变差甚至失效。一种有效的解决方法是增加一些新的插值点。但已有的插值方法选取的插值点与原样本点均存在线性关系。从线性代数的理论来说,由插值点和原有邻域点张成的线性子空间与原有邻域点张成的子空间是一样的,因此,不会改善线性逼近的误差。而且,插值点没有反应出流形的本质结构和特征,从理论上背离了数据降维的目的。为此,提出了一种基于Biharmonic非线性插值技术的流形学习算法BbMLA。由于是从高维曲面逼近的角度非线性的选择插值点,插值出的样本点不会被原有邻域点线性表示,从而能更好的重构原样本点。将BbMLA应用到多个数据集后,图示说明了插值点能够有效的改善邻域内的样本点结构,同时插值后的流形学习算法具有较好的有效性和稳定性。  相似文献   

4.
对密度峰值聚类算法进行有效改进,计算各样本点之间的距离和各样本点局部密度,选择两者中较大的样本点作为聚类中心点,根据其余样本点与各中心点的距离设定样本点所属类别;引入K近邻算法对密度峰值聚类算法进行优化,求解各样本点的距离时只需要考虑其周围由邻近值决定的若干样本点,实现距离阈值的自动选取;根据距离矩阵计算样本点的密度,绘制决策图并选择簇内中心点,将剩余点根据密度值分配给离中心点距离最近的类;最后将K近邻-密度峰值聚类算法部署至Hadoop云计算平台,用于解决大规模数据聚类的问题。仿真结果表明,通过合理设置K近邻算法的近邻值k,K近邻-密度峰值聚类算法具有较好的大数据样本聚类性能,与常用聚类算法相比,该算法具有更高的聚类准确率和聚类效率,适用于大数据样本聚类。  相似文献   

5.
 在邻域风险最小化原则中提出一种新的定义邻域半径的方法,即对任意训练样本点,首先利用最佳距离度量近邻法定义一个距离度量,并根据这个距离度量来寻找该样本点的最近邻,然后依据它们之间的距离来定义邻域半径,最后在原有邻域风险最小化算法的基础上建立基于最佳距离度量近邻法的邻域风险最小化算法.实例表明新提出的算法是正确的、有效的.  相似文献   

6.
随着信息技术的快速发展,数据资源的结构越来越复杂,离群点挖掘受到越来越多人关注.基于高斯核函数,考虑数据对象的k个最近邻居,反向k近邻居和共享最近邻居三种邻居关系,估计数据对象的密度,提出了一种基于高斯核函数的局部离群点检测算法.该算法通过KNN图存储每个数据对象的最近邻,包括k最近邻,反向k近邻和共享最近邻,构成数据对象的邻居集合S;通过核密度估计KDE方法估计数据对象的密度;通过相对密度离群因子RDOF来估计数据对象偏离邻域的程度,进而判定数据对象是否为离群点,并在真实和合成的数据集上证明了该算法的有效性.  相似文献   

7.
范围最近邻(RNN)查询检索到一个区域内每个点的最近邻(NN),它是点和连续最近邻查询的推广.本文将范围看作矩形,分析了二维空间中范围最近邻查询的性质,描述了算法处理过程,并对提出的算法进行了性能分析.  相似文献   

8.
本文提出一种基于内容和最近邻(k-近邻)的多臂老虎机推荐算法:把推荐问题转化成多臂老虎机问题,把冷启动问题转化成EE(explore exploit)问题;通过观察用户特征,以用户特征为内容,计算用户之间的相似度并得出用户的最近邻;最近邻用户基于内容对推荐池物品进行预期评价,根据用户最近邻的预期评价情况,选择综合最优的物品推荐给用户. 并通过采用来自Movielens和Jester的真实数据集进行实验,实验结果表明:结合内容和最近邻算法的推荐算法更优且更具实用性,尤其在解决冷启动问题上效果显著.  相似文献   

9.
提出一种基于自适应邻域参数的拉普拉斯特征映射算法,该算法首先依据采样密度确定每个样本点的自适应邻域参数,然后根据流形弯曲度调整优化邻域参数.实验结果表明,改进后的算法能够取得比拉普拉斯特征映射算法更好的降维效果.  相似文献   

10.
针对基于颜色特征的图像检索中的图像特征降维问题,提出了自适应局部保持映射(ALPP:Adaptive Locality Preserving Projection)的图像特征降维算法.在考虑了每个特征向量与其近邻关系的基础上,通过研究贝叶斯准则在图像分类中的作用,将聚类引入降维算法中,解决特征空间维数的自适应确定问题.使降维结果既保证了最大化地消除高维向量间的相关性和冗余度,又不破坏原始数据近邻间的拓扑结构.实验结果表明,对Coral图像库,应用HSV直方图特征,在查询返回图像为50幅的情况下,基于ALPP算法图像检索的查准率为67.7%,查全率为57.3%.相对PCA(Principal Component Analysis)算法的查准率(45.8%)和查全率(49.2%),具有较高的检索精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号