首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
针对传统的基于密度的局部离群点检测算法对原始数据集没有进行预处理导致该算法在面对未知数据集时检测效果不理想,又由于其需要计算每一个数据点的离群因子,在数据量过多时,计算量大大增加的问题,通过对局部离群点检测算法的分析,提出了一种基于目标函数的局部离群点检测方法FOLOF(FCM objective function-based LOF).首先,使用肘部法则确定数据集的最佳聚类个数;然后,通过FCM的目标函数对数据集进行剪枝,得到离群点候选集;最后,利用加权局部离群因子检测算法计算候选集中每个点的离群程度.利用该方法在人工数据集和UCI数据集上进行了相关实验,并与其他相关方法进行了对比,结果显示,该算法能够提高离群点检测精度,减少计算量,有效提高离群点检测性能.  相似文献   

2.
为了提高高维数据集合离群数据挖掘效率,提出了一种基于流形学习的离群点检测算法。局部线 性嵌入( locally linear embedding, LLE)算法是流形学习中有效的非线性降维方法,它的优势在于只定义唯一的 参数,即邻域数。根据LLE算法的思想寻找样本数据的内在嵌入分布,并通过邻域数选取和降维后数据点之 间的距离调整,提高了数据集中离群点发现效率,同时利用离群点权值判别式进行权值数据判定,根据权值 的大小标识出数据集中的离群点,仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。 与此同时,该算法具有参数估计简单、参数影响不大等优点,该算法为离群点检测问题的机器学习提供了一 条新的途径。  相似文献   

3.
离群点检测是数据挖掘的一个重要研究方向,大多数离群数据挖掘算法在应用到高维数据集时效率较低。给出了一种基于属性熵和加权余弦相似度的离群数据挖掘算法LEAWCD.该算法首先根据局部属性熵分析每个对象在其k-邻域内的局部离群属性,并依据各离群属性的属性偏离度自动设置属性权向量;其次使用对高维数据有效的余弦相似度经加权后度量各对象在k-邻域内的离群程度,实现高维局部离群点检测;最后采用国家天文台提供的天体光谱数据作为数据集,实验验证了LEAWCD算法具有伸缩性强和检测精度高等优点。  相似文献   

4.
针对基于栈式自编码器的离群点(SAE)检测算法和基于密度的离群点(LOF)检测算法检测精度不高的问题,提出了将SAE算法和LOF算法相结合的SAE-LOF算法.该算法的核心是对单独的SAE算法和LOF算法加入"投票"思想,通过神经网络训练权重,计算SAE算法和LOF算法加权投票结果,进而检测离群点.首先,训练并测试SAE,得到SAE的重构误差;其次,通过LOF算法得到局部离群因子;再次,将SAE算法的重构误差和LOF算法的局部离群因子作为新的特征输入到神经网络,进行有监督的训练;最后,将测试集分别经过SAE算法和LOF算法,再输入到神经网络,输出值最高的若干样本被预测为离群点.将SAE-LOF算法与SAE算法、LOF算法、KNN算法、孤立森林算法进行了比较,结果表明:SAE-LOF算法的预测结果具有更高的精度、更低的错误率以及更高的AUC值.该算法显著提高了分类器的性能.  相似文献   

5.
离群数据挖掘是数据挖掘中的重要内容.本文针对时间序列数据进行离群数据挖掘方法的研究.在引入了基于局部离群点因子的离群数据挖掘方法与时间序列上滑动窗口基础上,将二者相结合,提出了基于滑动窗口的时间序列离群数据挖掘算法,并将算法应用于海表温度数据得到海表温度的异常之处.  相似文献   

6.
基于nested-loop的大数据集快速离群点检测算法   总被引:1,自引:0,他引:1  
针对已有的多数离群点检测算法存在扩展性差,不能有效应用于大数据集的问题,在已有的基于距离的离群点检测算法的基础上,设计模信息表存储结构,利用向量内积不等式关系以及合理的存储分配和调度策略,提出一种高效离群点检测算法DBoda.该算法通过在预处理中存储每个点的模信息,减少点间距离的计算量,并对嵌套循环方法进行优化,进一步减少I/O的开销.理论分析和试验结果表明,所提算法具有时间消耗小和适用于处理大数据集的特点,可以有效地解决离群点检测中的算法时间复杂性和算法扩展性问题.  相似文献   

7.
使用滑动窗口的统计方法进行数据流离群点检测,是一种有效的在低纬度下进行离群点查找的方法,但是该法无法处理数据密度不均匀的数据流.据此提出一种自适应的基于统计的数据流动态检测算法.首先利用局部数据欧式空间中距离的数学期望和方差找到一个合适的k阶邻域,然后对这个k阶邻域内数据点的欧式距离和进行基于统计的离群点检测,实现自动适应数据流中稀疏段和稠密段的密度变化.理论和实验结果均表明,该算法可以有效地解决数据流离群点检测问题.  相似文献   

8.
一种改进的离群点检测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
现有的离群点检测算法运用于规模较大的数据集时,其时间效率和检测效果通常不够理想.通过对离群点分布特征的分析,在计算每个数据点到其kth最近邻对象距离的同时,结合其k最近邻的分布情况,给出一种改进的离群点度量方法.基于上述思想构造的离群点检测算法DokOF能够处理混合属性数据.实验表明,该算法具有良好的适用性和有效性.  相似文献   

9.
离群点检测是数据挖掘领域研究的热点之一,主要目的是识别出数据集中异常但有价值的数据点. 随着数据规模不断扩大,使得处理海量数据的效率降低,随即引入分布式算法. 目前现有的分布式算法大都用于解决同构分布式的处理环境,但在实际应用中,由于参与分布式计算的处理机配置的差异,现有的分布式离群点检测算法不能很好地适用于异构分布式环境. 针对上述问题,本文提出一种面向异构分布式环境的离群点检测算法. 首先提出基于网格的动态数据划分方法(Gird-based Dynamic Data Partitioning,GDDP),充分利用各处理机的计算资源,同时根据数据点的空间位置信息进行数据划分,可有效减少网络通信. 其次基于GDDP算法,提出了异构分布式环境中并行的离群点检测算法(GDDP-based Outlier Detection Algorithm,GODA). 该算法包括2个阶段:在每个处理机本地,按照索引中数据点的顺序进行过滤,通过2次扫描得到离群点候选集;判断候选离群点需要进行网络通信的处理机,使用较低网络开销得出全局离群点. 最后,通过大量实验验证了本文提出的GDDP和GODA算法的有效性.  相似文献   

10.
GDLOF:基于网格和稠密单元的快速局部离群点探测算法   总被引:1,自引:0,他引:1  
为了适应高维大规模数据集的稀疏性,解决现有离群点探测算法在运用于高维大规模数据集时计算量以及时间效率均无法令人满意的现状,区别于以往文献中以点的数量作为判断稠密的阈值,在基于密度的局部异常检测算法LOF的基础上,以通过数据集中每一点周围的邻近点的状况作为判别依据,提出了稠密单元和稠密区域的概念以及基于网格和稠密单元的快速局部离群点探测算法.通过证明稠密单元和稠密区域中的点不可能成为离群点,使得算法减少了LOF值的计算量并显著提高效率.实验表明,该算法对于高维大规模数据集具有良好的适用性和有效性.  相似文献   

11.
针对信用评价数据存在离群点和噪声问题, 提出一种基于离群点剔除的支持向量机(SVM)信用风险评价模型. 该模型利用模糊c-均值聚类算法剔除样本离群点, 采用粒子群算法优化支持向量机分类参数, 进而提高支持向量机的分类性能. 将该方法应用于信用风险评价中的结果表明, 相比于其他模型, 该方法分类精度更高.  相似文献   

12.
基于知识发现中的局部异常因子思想, 提出一种基于局部密度比的模糊隶属度设置算法, 该算法根据样本的邻域密度比设置样本的隶属度, 并采用一种单参数选择策略. 数值实验表明, 所提出的算法在带噪声的非线性函数估计方面具有很好的鲁棒性, 有效地解决了模糊支持向量机中的模糊隶属度设置问题, 对处理带噪声的分类和非线性函数估计问题具有重要的意义.  相似文献   

13.
边排序贝叶斯网络结构学习算法应用于基因调控网络构建   总被引:1,自引:0,他引:1  
提出一种基于多数据源融合思想的贝叶斯网络结构学习算法.该方法在现有贝叶斯网络结构学习算法的基础上,进行网络结构再学习,能有效处理不同数据源无法简单合并的问题.实验结果表明:在现有基因芯片数据节点数过多但数据量过少的前提下,该算法能有效提高建网精度;基于酿酒酵母细胞周期对不同实验条件下的表达数据进行融合,可以将正确率提高约12%.  相似文献   

14.
提出一种新的基于WordNet和文本集语义参数IC的计算方法,通过综合考虑概念在WordNet中语义信息以及数据集中的概率信息,即概念的自信息,同时利用新的参数考虑概念对在WordNet中的共享信息,设计了一种通用的概念语义相似性计算方法,该方法简化了传统语义相似性算法,并解决了语义相似性计算领域的相关问题,可以应用在信息抽取、信息检索、文档分类及本体学习中.领域通用的数据集RB数据实验结果表明,该方法在计算语义相似度问题上有效。  相似文献   

15.
一种改进的RBF神经网络混合学习算法   总被引:3,自引:0,他引:3  
提出一种基于粒子群优化算法、K-means算法及减聚类算法的径向基函数(RBF)神经网络混合学习算法.该算法使用减聚类方法确定隐层节点数,具有自适应确定隐层节点的能力,避免了调整隐层节点的人为干预.通过K-means算法形成粒子群优化(PSO)算法初始粒子群,避免了初始粒子群的随机性,提高了粒子群优化算法的优选能力;采用PSO算法训练RBF神经网络中的所有参数.数值结果表明,改进的混合算法具有更高的分类准确率。  相似文献   

16.
为了减少基于密度的异常点检测算法邻域查询操作的次数,同时避免ODBSN(Outlier Detection Based onSquare Neighborhood)中有意义异常点的丢失和稀疏聚类中的对象靠近稠密聚类时导致错误的异常点判断,提出了一种基于邻域和密度的异常点检测算法NDOD(Neighborhood and Density based Outlier Detection)。NDOD吸收基于网格方法的思想,以广度优先扩张方形邻域,成倍地减少了邻域查询的次数,从而快速排除聚类点并克服基于网格方法中的"维灾"。新引入的基于邻域的局部异常因子代表候选异常点的异常程度,用于对候选异常点的精选,可避免ODBSN的缺陷,发现更多有意义的异常点。大规模和任意形状的二维空间数据的测试结果表明,该算法是可行有效的。  相似文献   

17.
针对电力系统中影响负荷预测精度的众多因素如何选择问题,提出一种概念格属性约简算法,采用该算法挖掘出与待预测负荷量相关性较大的各属性作为神经网络预测模型的输入参数,降低了输入参数规模,确保了负荷预测模型输入参数的合理性,解决了神经网络模型输入参数的确定问题.通过对重庆市某区实际日最大负荷数据的计算分析,结果表明该算法提高...  相似文献   

18.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用。然而传统K-means算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高。针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子。然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中。算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率。实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性。  相似文献   

19.
采用进化计算的方法, 实现了在共表达基因上游非编码区寻找转录因子的结合位点. 将此方法应用在已知的受同一种转录因子调控的基因上游启动子序列集合, 结果显示, 该算法能正确识别具有单一保守序列的调控位点; 与经典的Gibbs采样方法比较显示, 本文算法在识别较短的结合位点时更有效.  相似文献   

20.
田地    顾滨兵    孙吉贵    孟葳    刘金明   《吉林大学学报(理学版)》2006,44(6):59-62
结合GIS技术、 无向图的分析和Dijkstra算法的基本思想, 研究了基于TGIS系统的旅游路线分析算法. 该算法通过一定的假设和简化建立旅游路线分析模型, 利用旅游景点信息和公路信息生成旅游路线分析无向加权连通图. 在此基础上采用限定条件的穷举法并结合Dijkstra算法, 综合研究了基于TGIS系统的旅游路线分析算法, 该算法可以帮助游客进行最佳旅游路线分析.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号