首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
混合属性数据聚类融合算法   总被引:5,自引:0,他引:5  
混合属性数据集是现实世界特别是商业金融数据库中最普遍的数据集类型,但适用于这类数据集的聚类算法极少。该文根据聚类融合的方法体系,针对混合属性数据集的特点,提出了基于聚类融合的混合属性特征聚类算法(CEM C),建立了算法框架,列出了算法目标函数和算法主要步骤,并分析了算法复杂度。该算法可以有效处理混合属性海量数据集。用真实数据集验证了算法,并将此算法应用于实际的客户关系管理数据分析中,得到了较好效果。  相似文献   

2.
基于信息熵的相对离群点的检测方法:ENBROD   总被引:3,自引:0,他引:3  
提出一种检测离散属性数据集中相对离群点的算法.目前已有的关于离群点的检测方法大多关注连续属性的数据集,由于离散属性值之间并没有类似于连续属性值之间那样固有的距离度量关系,故不能简单的把用于连续属性数据集的检测算法应用到离散属性数据集中来.本文首先引入了一种新的信息熵增量的概念--去一划分信息熵增量,通过形式化分析得到了其性质.然后,在去一划分信息熵增量的基础上,给出了每个对象所对应的相对离点群因子(ROF)的定义.每个对象的ROF是相对的,因为其只取决于这一对象的邻域.接着,提出了ENBROD算法来实现对ROF的计算.最后,通过实验说明当邻域大小较小时,ENBROD算法可以找到已存在的方法所找不到的相对离群点;而当邻域的大小足够大时,ENBROD算法寻找全局离群点的能力也与其他的一些离群点检测算法的能力相近.  相似文献   

3.
对于混合属性相关度的计算,现有方法的做法是将连续属性离散化后,用基于频率的计算方法来计算.而连续属性离散化可能会丢失部分信息,为属性评估带来不确定因素.在此提出一种直接计算混合属性相关度的方法:将一个连续属性中的所有数据,根据一个离散属性的属性值分组,以分组连续属性前后数据方差的关系确定两个属性的相关度.在两个真实数据集及常用机器学习数据集上的实验结果表明:该方法可以有效度量混合属性数据之间的相关程度.  相似文献   

4.
针对现有的无监督异常检测技术的不足之处,提出了一种基于样本分布异常数据实例度量方法;将主成分分析方法应用到异常检测中解决数据集高维数据的降维问题.提出一种新的无监督异常检测算法μ-UAD,并对该算法进了性能评估.实验表明,该算法具有较好的检测性能.  相似文献   

5.
一种改进的离群点检测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
现有的离群点检测算法运用于规模较大的数据集时,其时间效率和检测效果通常不够理想.通过对离群点分布特征的分析,在计算每个数据点到其kth最近邻对象距离的同时,结合其k最近邻的分布情况,给出一种改进的离群点度量方法.基于上述思想构造的离群点检测算法DokOF能够处理混合属性数据.实验表明,该算法具有良好的适用性和有效性.  相似文献   

6.
借助于近似极大值函数的凝聚函数,将传统数据聚类问题转化为无约束优化问题求解.首先利用一阶必要条件,推导出数值属性下数据聚共中心的计算格式;其次采用类属性分解方法,提出计算类属性数据对象之间距离的新方法,井在此基础上给出混合属性下数据聚类中心的计算格式和一个能处理数值型和分类型混合数据集的凝聚聚类算法;最后选取不同初始聚类中心,使用凝聚聚类算法对英语借词进行了聚类实验和分析.结果表明,凝聚聚类算法在计算效率和计算效果方面均优于模糊k-prototypes聚类算法.  相似文献   

7.
针对混合属性数据聚类难度高的问题,提出一种基于广义线性模型的混合属性数据聚类方法.首先,构建低阶多元广义线性模型处理海量数据聚类问题,考虑数据属性的时间特性,获取属性时间序列矩阵;然后,基于优化K-prototypes聚类方法处理混合属性数据时,考虑属性的时间序列矩阵;最后,在考虑样本同聚类中心距离基础上兼顾已知样本信息内容,采用优化方法计算数据相异度、样本与聚类集间距离,当聚类结果趋于平稳时终止运算,输出聚类结果.为验证基于广义线性模型的混合属性数据聚类方法的有效性展开实验分析.结果显示,该方法经过较少次迭代即可优化划分混合属性数据聚类集,聚类适应度值为0.88~0.94,适应度优,可准确体现样本间差异,是一种准确度高的混合属性数据聚类方法.  相似文献   

8.
受物理学中量子机制特性的启发,结合层次凝聚思想,通过引入新的相异性度量测度以及聚类度量尺度步长sβtep概念,重新定义以紧致性指标AIAD和离散性指标AIED为基础的聚类有效性函数CVF,提出一种针对分类属性数据的基于量子机制层次聚类算法CQHC.该算法首先在不同粒度水平上划分数据样本产生初始类(簇),然后以聚类有效性函数CVF为评价标准,动态地合并初始类(簇)完成聚类.仿真实验采用2个真实数据集,即:线性可分的大豆疾病样本数据集和线性不可分的动物园数据集.实验结果表明,该算法与已有的其他几个算法相比,不仅具有更高的聚类准确率,而且能够准确地检测出最佳类别数,是有效且可行的.  相似文献   

9.
为了优化对于Web日志记录的用户异常行为的检测能力,提出一种基于决策树算法的Web用户异常行为检测算法.从给定已有标签的数据集中,根据Relief-F算法来度量特征,引进混淆矩阵的概念选择合适的阈值 ε,选取比阈值大的统计量分量,其所对应的的特征组成用来训练学习器的特征集.将划分后的相关特征集利用C4.5算法构建模型,...  相似文献   

10.
提出了一种基于光流块统计特征的视频异常行为检测算法.该算法首先对训练集视频序列的光流场进行分块及预处理,而后提取光流块的统计特征,所提取的块统计特征同时包括了光流块的幅度信息和相位信息,通过训练集得到的光流块统计特征训练出对应的正常行为的高斯混合模型(GMM).测试集通过同样的方式提取光流块统计特征,通过计算所提取统计特征以多大的概率属于GMM判定所检测光流块的异常程度.实验结果表明,该算法能够在一定程度上解决运动物体一致性和部分遮挡问题,并提高了异常行为检测的准确率.  相似文献   

11.
互补决策约简是一种多标记数据属性约简方法,当数据规模较大时,其启发式算法的计算耗时较大。基于粗糙集理论,对互补决策约简启发式算法的加速算法进行了研究。当粒度由粗变细时,在逐步去掉正域的数据集上,首先研究互补决策约简中属性外部重要度的保序性质;基于此,通过逐步缩小数据规模来降低计算约简的耗时,提出了互补决策约简加速算法。加速算法不仅减少了属性约简的计算时间,而且能够保持原始算法的约简结果。  相似文献   

12.
代价敏感属性约简问题作为经典属性约简问题的自然扩展,将代价引入数据,使得属性约简问题更加具有现实意义。文章基于分治思想,先按列将数据集拆分为若干个互不相交的子数据集,然后对各子数据集进行约简,并把约简后的子数据集多路合并。依次继续执行约简和合并操作,最终得到最小测试代价约简。每个子数据集的大小及子数据集的总个数自适应于各个数据集的规模而非固定不变。为验证算法的有效性,选择四个UCI标准数据集进行实验,并与其他算法进行结果对比。实验结果表明,该算法能在较短时间内获得可接受的结果,更适应实际问题的需要。  相似文献   

13.
分类算法的现有评价指标存在一些问题,主要是评测数值在不同的数据集上呈现剧烈波动。为解决这一问题,通过考察数据集对分类结果的影响,提出了一种对分类算法的新评测指标new-macro-F1。这一新评测指标将数据集的因素从评测过程中独立了出来,使得new-macro-F1表示的仅仅是分类算法本身。实验结果表明使用新评测指标,同一分类器在不同数据集上的表现波动较小;通过分类器在一个数据集上的表现,可以近似的估计该分类器在另一数据集上的分类质量。  相似文献   

14.
针对目前在火灾预警方面还存在火焰烟雾检测效果差、误报率高等问题,在YOLOX框架下提出改进YOLOX_S目标检测算法。首先在数据集建立方面,采用的数据集包括Bilkent University公开的数据集和部分自建数据集,共计9 621张图片。并且通过对数据集采用Mosaic数据增强的方式,增加数据的多样性。其次对backbone部分采用swin-T骨干网络来代替原来的CSPDarkNet骨干网络,能够更好的捕捉不同尺度下的特征,有效地提升了目标检测的精度。然后对网络模型引入加权双向特征金字塔网络(bidirectional feature pyramid network, BiFPN)特征融合网络,提高检测的效率和网络模型的适应性,在复杂背景下同样可以保持较高的检测精度。最后引入CA注意力机制来加强此算法的特征提取能力。经过对比实验表明,改进后的YOLOX_S的火焰烟雾检测算法具有较高准确性,其mAP@0.5(预测框与真实框重合程度的阈值为0.5时的平均检测精度)达到81.5%,相比原网络提高了5.3%。改进后的YOLOX_S网络模型在火焰烟雾检测方面具有更高准确性和更低的误报率。  相似文献   

15.
<正>This paper proposes,from the viewpoint of relation matrix,a new algorithm of attribute reduction for decision systems.Two new and relative reasonable indices are first defined to measure significance of the attributes in decision systems and then a heuristic algorithm of attribute reduction is formulated.Moreover,the time complexity of the algorithm is analyzed and it is proved to be complete.Some numerical experiments are also conducted to access the performance of the presented algorithm and the results demonstrate that it is not only effective but also efficient.  相似文献   

16.
复杂网络中内部的社区结构是复杂网络结构特征和属性特征的具体体现。首先依据模块度最大化理论计算网络的模块度矩阵的最大k特征向量矩阵;然后提出聚类中心方法,并用于求出k个社团的重要结点作为k聚类中心,利用欧几里得距离计算每一个结点到k个聚类中心的距离,将结点分配到距离聚类中心最近的社区中;最后对网络应用k-means方法进行迭代计算,得到k个社区的划分。分别在Karate Club Network和American College Football数据集上对算法进行了实验验证,实验结果表明该算法可以有效发现潜在社区,其纯度与模块度比已有的社区发现算法都有一定的提高,并且迭代次数较少,效率较高。  相似文献   

17.
指出了入侵检测系统中的常见约束条件,即关键属性约束、挖掘范围约束、个数约束.在分析这些约束条件性质的基础上提出了3种剪枝策略,对基于"支持度-可信度"度量机制的FP_tree算法进行了扩展.实验结果表明:新的算法提高了挖掘效率,删除了许多无意义的模式.  相似文献   

18.
首先分析了粗糙集理论中现有属性依赖性定义的不合理性,然后给出一种新的属性依赖性度量.根据这种依赖性度量,给出属性重要性的定义,再以这种属性重要性为权重,给出一种基于加权综合的样本分类算法。由于属性的重要性是由条件属性相对于决策属性的依赖性决定的,它的数值相对比较客观,这样解决了常用的定权方法的弱点,它们一般是凭经验或由专家给出,具有相当的主观性。  相似文献   

19.
实际中收集的数据类型具有多样性,如何从这些复杂数据中获取有用的知识是人们进行数据挖掘的目标。由于覆盖粗糙集可以处理复杂的数据,基于此对覆盖决策系统的属性约简和规则提取已有不少的研究。已有的覆盖决策系统规则提取的研究只考虑唯一的置信度评估度量,然而提取的高置信度规则覆盖的样例可能较少而具有欺骗性,由此本文又引入了一个评估规则覆盖能力的度量,从而可以消除数据中的偶然因素,获取泛化能力强的高置信度规则。在此基础上,为了提取紧凑的规则,给出了一个规则置信度保持的属性约简启发式算法。  相似文献   

20.
针对校园监控视频环境下的人脸检测中人流量大、侧面视频多、低清晰度等问题,提出了一种基于分层结构的脸部形态模板方法,该方法通过综合肤色标定方法、阴影检测算法和脸部分层次的形态特征检测算法,得出了人脸结构信息的4个控制参数.通过在Caltech人脸数据库、ORL人脸数据库和本实验室仿真人脸库的实验结果表明,本文所提出的基于分层结构的脸部形态模板方法能准确高效地检测出人脸,适合应用到校园视频系统中.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号