首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
条件偏好网(Conditional Preference networks,CP-nets)是描述属性间条件偏好的图模型,多值无环CP-nets学习是重要的研究方向之一.区别于传统的CP-nets学习方法,提出基于贝叶斯方法和遗传算法的多值无环CP-nets学习.在偏好处理上以多值属性的完整偏序关系作为条件偏好,进行相关性关系判定.随后,基于贝叶斯方法,以单一父属性推出多父属性下的相关性关系,进行CP-nets结构学习.采用遗传算法在CP-nets结构搜索空间中进行搜索,求解最优结构.通过Delink算法进行去环,完成无环CP-nets学习.在寿司数据集上验证算法的有效性,实验结果表明,基于贝叶斯-遗传算法的CP-nets学习算法能够在有限时间内学习得到局部最优无环CP-nets.  相似文献   

2.
提出一种基于反向矩阵结构在数据流上挖掘条件偏好和学习CP-nets的方法。利用反向矩阵的事务布局,减少了扫描数据库的次数,并且通过随机访问,在不到一次完整扫描的情况下得到频繁的偏好项。此外,通过建立频繁模式树FP-Tree,减少了候选项的生成。实验结果表明,与其他学习CP-nets结构的方法相比,该方法可以较快获得准确的CP-nets,在大型事务数据库方面表现出良好的性能,减少了内存需求。  相似文献   

3.
作为描述多属性之间定性条件偏好的一种图模型,条件偏好网(Conditional Preference networks,CP-nets)的结构学习问题在CP-nets的研究中起着重要的作用.不同于传统的CP-nets学习方法,提出基于信息论和特征选择的方法来研究偏好数据库上的CP-nets的结构学习问题.首先建立了偏好数据库上的互信息和条件互信息的求解方法,并将互信息看作一个属性和它的可行父亲之间的相关性,条件互信息看作可行父亲集中属性之间的冗余性,从而构造出极大相关极小冗余(Maximal Relevance Minimal Redundancy,mRMR)的目标函数,同时指出,一个属性的父亲集是由属性之间冗余度小,但对孩子属性的偏好却影响极大的属性子集组成的.随后基于特征选择中的mRMR方法来实现CP-nets的结构学习,并设计相应的算法来完成从偏好数据中学习CP-nets的结构.最后在电影推荐数据集上验证了算法的有效性.研究结果表明,基于mRMR的特征选择方法可有效获取变量之间的因果关系,从而求取出每个属性的父亲集合,进而获得CP-nets的结构.  相似文献   

4.
在数据流闭频繁项集挖掘过程中,常忽略历史模式对挖掘结果的影响,并采用一种结构来标记闭频繁项集的类型,导致算法的效率不高.为此提出一种挖掘数据流时间窗口中闭频繁项集的方法NEWT-moment.该方法能在单遍扫描数据流事务的条件下完整地记录模式信息.同时,NEWT-moment提出的剪枝方法能很好地降低滑动窗口树F-tr...  相似文献   

5.
作为一种简单直观的图形表示工具,条件偏好网(conditional preference networks,CP-nets)可表示ceteris paribus(其他条件都不变)的偏好关系.学习无环CP-nets是人工智能领域中的一个重要的研究内容,它可广泛使用在推荐系统、信息检索和群体抉择中.特别是有效地学习无环CP-nets的结构,即获取变量之间的因果关系,是当前最主要的研究任务.传统的算法利用不同的方式对CP-nets的结构进行学习,但很多方法学习得到的并不是无环CP-nets.采用精确P值计算学习方法,根据Dijkstra算法原理,设计了新的算法——PALA,并通过该算法学习无环CP-nets结构.随后证明了算法的时间复杂度是O(n3·2n).作为一种精确学习方法,精确P值计算方法可有效衡量变量之间的依赖程度,确定变量之间的因果关系,进而学习得到无环CP-nets结构.实验结果表明,与其他算法相比,PALA算法通常能够发现高质量的、结构最优的无环CP-nets.研究结果还表明,无环CP-nets学习问题的解决显著地提高了PALA算法的效率.  相似文献   

6.
提出了一种在单独数据流中挖掘近期频繁项的算法MRFI。该算法采用基于对时间敏感的滑动窗口的模式,保证了挖掘结果的时效性,并利用循环队列和二叉排序树实现了简单高效的数据存储和处理,该方法是一种近似算法,它可以消除历史数据对挖掘结果的影响。实验采用IBM数据发生器产生合成数据,证明了该算法的有效性。  相似文献   

7.
针对不同时间段的数据流对当前数据流分类影响程度不同,在滑动窗口技术基础上提出了时间窗口权值的频繁模式(TWWFP)分类算法.首先,对滑动窗口中的每个基本窗口赋予一个与时间有关的窗口权值;然后,采用TWWFP-Tree结构存储当前滑动窗口中每个基本窗口中的频繁数据属性,实时更新TWWFP-Tree结构;最后,检测相邻3个滑动窗口中权值属性的平均分类误差,发现突变后及时减少下一个滑动窗口的长度可适应数据流的变化.实验证明该分类算法比没有时间窗口权值分类算法的精确度最大提高3%.  相似文献   

8.
由于能反映用户的偏好,可以弥补传统频繁项集挖掘仅由支持度来衡量项集重要性的不足,高效用项集正在成为当前数据挖掘研究的热点.为使高效用项集挖掘更好地适应数据流环境,提出了一种基于事务型滑动窗口的数据流中高效用项集挖掘算法MHUIDS.首先在二进制向量的基础上,提出了高事务加权效用项集树(HTWUI-树)的结构.进而分别给出了事务型滑动窗口初始化与滑动的算法描述.最后,提出了高效用项集的剪枝策略与挖掘算法.实验结果表明,MHUIDS算法具有较高的挖掘效率及较低的存储开销.  相似文献   

9.
传统的偏好推理使用权衡增强的条件偏好网络(Tradeoff-Enhanced Conditional Preference Networks,TCP-nets)进行用户的偏好推理,不仅能高效地表示对元组的定性偏好关系并优化用户偏好结果,还能描述每个属性之间的偏好关系,其主要聚焦于关系元组中的单个属性的偏好.但把对条件偏好查询的技术推广到数据流的条件提取却是一个挑战,面临的技术困难主要是对数据流中序列的提取,对提取的序列进行占优查找等.首先,针对偏好数据流,提出一种时间条件查询语言Stream Pref来处理数据流;其次,在Stream Pref中加入时间索引来推理和规范数据流提取序列的时间条件偏好,提出提取对象序列算法、占优对象及占优序列查找算法和数据流序列间占优对比的算法;最后,在数据集上分析验证提出的算法的有效性.实验结果证明,提出的算法与min Top-k,Partition和Incpartition算法相比,得到的结果更准确.  相似文献   

10.
计算机网络入侵通常具有高频度特性,因此,识别是否正常访问,对数据流中重复元素的挖掘,给出频度指标,是一种重要的依据.提出一种基于数据流频繁模式的改进型AFP算法,该算法采用滑动窗口树技术,单遍扫描数据流及时捕获网络上的最新模式信息,并将该算法应用在入侵检测模型中正常数据和异常数据的在线挖掘.解决了有限存储和无限数据流的矛盾.实验结果表明,该模型有较高的报警率和较低的误报率.  相似文献   

11.
许颖梅 《河南科学》2014,(5):777-780
数据流聚类算法是当前数据流研究领域里的重要分支,而滑动窗口是数据流中一种关注近期数据的近似方法,提出一种采用滑动窗口处理数据的优化算法SWStream.算法采用双层架构思想,在线阶段利用滑动窗口树存储概要结构,动态调整窗口大小.而在离线阶段对上一阶段的结果进行宏聚类,得到最后的结果.实验验证本算法有更高的处理效率,也相对节约内存.  相似文献   

12.
针对数据流的无限性和流动性特点,提出了一种基于前缀树的数据流频繁模式挖掘算法(Prefix-stream).该算法将对数倾斜时间窗口划分为若干个子窗口,以子窗口为单位,利用提出的数据结构Prefix-tree进行挖掘,在整个数据流的频繁模式挖掘中,使得频繁模式挖掘和更新能在Prefix-tree中同时进行.该算法应用对数倾斜时间窗口逐步降低历史事务的权重,从而区分最近事务与历史事务.实验结果表明Prefix-stream具有较高的效率与较好的可扩展性.  相似文献   

13.
使用滑动窗口的统计方法进行数据流离群点检测,是一种有效的在低纬度下进行离群点查找的方法,但是该法无法处理数据密度不均匀的数据流.据此提出一种自适应的基于统计的数据流动态检测算法.首先利用局部数据欧式空间中距离的数学期望和方差找到一个合适的k阶邻域,然后对这个k阶邻域内数据点的欧式距离和进行基于统计的离群点检测,实现自动适应数据流中稀疏段和稠密段的密度变化.理论和实验结果均表明,该算法可以有效地解决数据流离群点检测问题.  相似文献   

14.
基于嵌套滑动窗口的数据流缺失数据填充算法   总被引:1,自引:0,他引:1  
提出了一种基于嵌套滑动窗口的缺失数据填充算法.考虑到传感器数据流的时效特性,采用嵌套滑动窗口选取空间相关度高且距离最近的数据作为样本数据,之后分两种情况对缺失数据进行填充.算法首先通过皮尔逊相关计算对数据的空间性进行分析,应用嵌套滑动窗口对缺失数据相关的数据进行采样,得到强相关数据,之后采用MKNN算法进行精确填充.通过皮尔逊相关分析和嵌套窗口采样,极大地降低了数据样本大小,提高了缺失数据处理实时性;对于不具有强的空间相关的缺失数据,考虑到短时间内采集数据间强的时间相关性,采用线性相关法对数据进行填充,降低算法复杂度.实验表明,该算法能够实时、精确地对数据流缺失数据进行填充.  相似文献   

15.
一种基于可变滑动窗口的数据流分段聚类算法   总被引:2,自引:2,他引:0  
数据流的应用越来越广泛,数据流挖掘成为数据挖掘的重点研究方向之一。在分析各种数据流聚类算法的基础上,提出了一种基于可变滑动窗口的数据流分段聚类算法。算法以时间序列数据流模式表示技术为参考,以去除噪音和压缩数据为目的,实现了数据流的特征提取和概要存储。实验表明,算法具有低时空复杂度、自适应等特点。  相似文献   

16.
张长胜 《科学技术与工程》2013,13(23):6739-6745
提出一个数据流环境下的基于概念格和滑动窗口的频繁项集挖掘算法DSFMCL。算法在滑动窗口内分批挖掘新流入的基本窗口频繁概念后,生成概念格的Hasse图。引入最小支持度ζ和误差因子ε对非频繁概念节点进行剪枝操作。Hasse图中各节点包含频繁项集及其支持度信息。随着新基本窗口的Hasse图的生成与滑动窗口进行概念格纵向合并,最终通过对全部Hasse图节点的扫描可以输出所有频繁项集。实验结果表明,该算法具有良好的性能。  相似文献   

17.
不同于传统的条件偏好网络(conditional preference networks,CP-nets)结构学习方法,本文提出一种基于MapReduce框架的相关系数并行算法。首先建立了偏好数据库上的相关系数评分函数,对候选父亲结构并行地进行"评分+搜索",随后基于序空间搜索得到各节点的局部最优,继而得到全局最优。同时指出,一个属性的父亲集是由属性之间冗余度小且偏好影响大的属性集所构成。实验结果表明,所提出的相关系数算法不仅能够快速有效地获取变量之间的因果关系,而且能求取出每个属性的可行父亲集,得到CP-nets的拓扑结构。  相似文献   

18.
针对异常模式挖掘中的情境离群点检测问题,提出一种基于图的检测方法.首先对数据实例构建一个实例图,然后采用一个滑动窗口穿越数据实例,对处于滑动窗口内的数据实例,计算结点之间的闵可夫斯基距离作为边权值,然后采用最小生成树聚类算法对实例图进行聚类,再采用第二个滑动窗口穿越数据实例,根据窗口内的数据实例是否属于主趋势聚类赋予不同的离群值评分,不属于主趋势聚类的数据实例被认为是潜在的离群点.仿真实验和实际数据分析表明该方法在一元序列数据检测中是切实可行的,该方法具有较好的适用性和扩展性.  相似文献   

19.
为了有效地预测聚集查询的未来聚集值,提出了一种基于混沌理论的数据流连续聚集查询预测未来聚集值算法——CSPA算法.数据流看作是以数据到达时间为序的一个时间序列,借鉴传统时间序列分析技术探讨了连续聚集查询的未来聚集值预测问题,但由于数据流序列与传统时间序列在时间间隔和数据集的处理上存在很大差别,于是采用流滑动窗口技术加以处理.其次,针对目前数据流聚集查询预测领域已有的一些研究结果都未考虑流数据内在的复杂非线性动力学特征对预测的影响问题,该算法又利用了混沌理论中的局域预测思想解决了这一不足.实验结果表明,利用该算法进行预测具有很好的准确性.  相似文献   

20.
在海量的动态数据流中发现有价值的知识,是数据挖掘技术研究的重要问题.研究数据流聚类,根据数据流的特点,提出了一种基于滑动窗口的一趟数据流挖掘的算法,对原有的一趟数据流聚类算法进行了改进,增强了一趟数据流聚类算法的扩展性,改进了数据流聚类的质量.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号