首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
集合枚举树是最大频繁项集挖据算法中常采用的数据结构。在此算法中,最大频繁项集的挖掘过程也可以看作对集合枚举树的搜索过程。为缩小对集合枚举树的搜索空间,本文提出了一种新颖而高效的剪枝方法:根据已挖掘得到的最大频繁模式动态排列枚举树节点的顺序,最大限度的施行剪枝,从而缩小搜索空间。该算法采用位图的数据格式与深度优先的搜索策略。实验结果表明,该算法能有效提高最大频繁项集的挖掘效率,在采用相同的测试数据情况下,效率优于FPMax。  相似文献   

2.
基于Smith-Waterman算法的并行分而治之生物序列比对算法   总被引:3,自引:0,他引:3  
生物序列比对是生物信息学中最常见的问题之一, 基于动态规划思想的Smith-Waterman算法是序列比对中最基本的算法. 然而现有的并行Smith-Waterman算法都需要庞大的内存, 且无法处理大规模的数据串, 随着生物数据的急剧增长, 这些并行算法对内存空间的需求已成为需要迫切解决的问题. 由此提出一种并行生物序列比对算法, PSW-DC算法, 该算法采用分而治之的方法把query序列划分为若干片段, 并分配给相应的各个处理器, 而后并行地按Smith-Waterman算法与目标(subject)序列进行比对, 再通过按一定规则的扩展过程求取序列的优化匹配. 与其他并行算法相比, 该算法有效地降低了内存空间的需求, 并实现了对大规模数据串的并行处理. 为实现该算法, 给出了一种称作C&;E的拓展规则及实现方法. 且该方法已经在实际系统中得到实现.  相似文献   

3.
随着信息技术和互联网的发展,各种信息呈现爆炸性增长,且包含丰富的知识.从海量数据信息中挖掘得到有用的知识仍然是一个挑战性的课题.近几十年来,数据挖掘技术,作为从海量数据信息中挖掘有用信息的关键技术已经引起了广泛的兴趣和研究.但是由于数据规模的增长,以往的很多研究工作并不能有效地处理大规模数据,因此,开发设计或者扩展已有算法使之能处理大规模数据集,已经成为数据挖掘中非常重要的研究课题.近年来,基于云计算的数据挖掘技术研究已经成为一个热点话题,本文中我们研究开发一个基于大规模数据处理平台Hadoop的并行分布式数据挖掘工具平台PDMiner.在PDMiner中,开发实现了各种并行数据挖掘算法,比如数据预处理、关联规则分析以及分类、聚类等算法.实验结果表明,并行分布式数据挖掘工具平台PDMiner中实现的并行算法:1)能够处理大规模数据集,达到TB级别;2)具有很好的加速比性能;3)大大整合利用已有的计算资源,因为这些算法可以在由这些商用机器构建的并行平台上稳定运行,提高了计算资源的利用效率;4)可以有效地应用到实际海量数据挖掘中.此外,在PDMiner中还开发了工作流子系统,提供友好统一的接口界面方便用户定义数据挖掘任务.更重要的是,我们开放了灵活的接口方便用户开发集成新的并行数据挖掘算法.  相似文献   

4.
在高速骨干网环境中,由于受到计算和存储资源的限制,准确、及时地识别大流量对象对于检测大规模网络安全事件具有重要意义.文中使用相对流量大小定义大流,即对于一个给定的阈值φ(0<φ<1),将所有与链路实际传输总流量的比值超过φ的流定义为大流.在该定义下,大流量对象的识别问题等价于带权值数据流中的频繁项挖掘问题.由于骨干网链路速度快,对单个数据包的处理必须在纳秒级完成,因此对算法的实时性要求更高.在带权值数据流的频繁项挖掘中,目前没有对单数据项最坏处理时间为O(1)的算法.文中提出一个新的带权值数据流频繁项挖掘算法WLC,能够提供单数据项最坏处理时间为O(1)的处理速度.WLC采用一个部分排序的数据结构POSS,能够在保证处理速度的同时,尽量降低算法的存储开销.通过实际的互联网数据进行对比实验,结果表明:与现有的算法相比,WLC具有更快的处理速度,同时算法的实际存储开销远小于其理论上界.  相似文献   

5.
本文主要研究通过引入滑动窗口模型,提出了面向XML查询数据流的频繁查询子树在线挖掘算法。算法以全局Trie树为数据缓存结构管理和维护缓存池的数据流,采用自下而上、基于前缀等价类的遍历方式快速产生所有带根查询子树和标准查询子树。实验结果表明该算法具有挖掘速度快、内存消耗稳定等特点,可以有效、平稳地处理XML查询数据流。  相似文献   

6.
基于广义能量函数的快速自适应主分量提取   总被引:2,自引:0,他引:2  
通过引入一个任意对角矩阵, 提出了一种广义能量函数(GEF)来优化一个两层线性神经网络的连接权矢量, 推导出一种递归最小二乘(RLS)算法, 不需要设计非对称电路, 即能并行提取一个输入协方差矩阵的多个主分量. 分析了算法在平衡点的局部稳定性能. 实验结果表明该算法具有收敛快、稳健性好等优点.  相似文献   

7.
本文提出一种新颖、有效的稠密三维场景重建算法.在城市建筑场景的重建中,为了快速恢复稠密、准确的深度信息,本文算法首先在视图中对建筑区域进行了语义分割以降低非重建区域(如天空、地面等)的干扰,在提高整体重建速度的同时也增强了采用平面模型对其进行重建的可靠性;然后,在通过基于DAISY特征的空间点扩散方法获取的初始深度图的基础上,针对传统算法难以重建的弱纹理、倾斜表面等区域,本文算法依据场景分段平滑的假设,在超像素级MRF能量优化框架中对其相应的空间平面进行了推断.由于能量函数融合了初始深度图的约束、空间平面先验及空间平面间的几何关系等信息,而且候选平面集通过平面拟合和已知平面约束下的多方向平面扫描两种方法构造,使得相应的两阶段迭代Graph Cuts对能量函数的求解更快速和精确.在标准数据集和真实数据上的实验表明,本文算法能有效克服光照变化、透视畸变、弱纹理区域等因素的影响,快速恢复建筑区域完整的深度图.  相似文献   

8.
近年来,基于主题建模技术的代码理解方法成为研究热点之一.该类方法期望利用主题建模技术从软件代码中挖掘功能性主题,进而利用功能性主题帮助开发人员理解软件功能及其代码实现.然而,从代码挖掘出的主题中,功能性主题与其他类型主题(如横切性主题)混杂在一起,需要人工识别功能性主题;由于现有工作大多仅提供主题关联的词等基本信息,导致识别及应用功能性主题的过程费时费力.针对以上问题,本文提出了一种基于主题建模和静态分析技术的软件代码功能性主题获取方法.该方法在利用一组启发式过滤规则对代码进行预处理的基础上,基于主题建模技术从代码中挖掘原始主题;进而,基于代码静态分析获得的代码间结构关系,提出了一种名为主题内聚度的技术从原始主题中自动识别功能性主题;最后,定位主题关联的代码片段,并利用代码及其注释为主题生成自然语言描述文本,进一步帮助开发人员理解主题所体现的软件功能及其代码实现细节.本文基于一组开源软件代码进行了方法评估,评估结果表明本文方法能够有效获取功能性主题及其关联信息,进而帮助开发人员更好地理解软件功能及其代码实现.  相似文献   

9.
基于自然梯度的递归最小二乘盲信号分离   总被引:9,自引:1,他引:9  
研究在线盲信号分离问题. 先提出一种递归最小二乘(RLS)白化算法, 然后与一种基于自然梯度的RLS信号分离算法相结合, 并经合理近似, 得到一种新的RLS盲信号分离算法, 它不需要对观测数据进行白化预处理. RLS白化算法和RLS信号分离 算法的平衡点分析表明, 这两种算法具有所期望的收敛性. 理论证明了提出的RLS盲信号分离算法具有等变化性和分离矩阵的非奇异性这两个关键性能. 仿真实验验证了新算法的有效性.  相似文献   

10.
视频和音频是流媒体传输的主要数据,各个媒体流在时间上彼此关联,互相约束.针对多媒体业务传输中出现的音视频不同步问题,提出一种将RTP时间戳映射到RTCP绝对时间NTP轴的方法,建立音视频之间的同步点和同步检测判决准则.通过仿真实验,该算法能够实现音视频的基本同步.  相似文献   

11.
为了对煤矿井下瓦斯涌出量进行预测,采用粗糙集与改进极限学习机相结合的方法,在样本数据的筛选上吸取粗糙集数据约简的优点,充分利用极限学习机训练速度快、具有良好泛化性能的特点,并结合遗传算法选择最优的输入权值矩阵和隐含层偏差,避免随机产生所造成的误差。利用编写程序确定隐含层神经元个数,比依靠经验更为准确。在实际应用中选取煤层瓦斯含量、煤层埋藏深度、煤层厚度、煤层间距、工作面日产量五个因素作为预测的影响参数。研究结果表明:该预测模型预测的最大相对误差为5687 1%,最小相对误差为0,平均相对误差为2582 7%,相比改进前的预测模型具有更强的泛化能力和更高的预测精度。  相似文献   

12.
本文提出一种基于音乐基因的乐谱存储模型S-MusicXML.将乐谱的存储和处理的基本单位由音阶提升到基因,有利于通过数据挖掘技术对音乐内涵的挖掘和存储.定义了旋律基因等概念,并通过实验进一步分析了挖掘音乐基因比挖掘音乐频繁模式更有优势.  相似文献   

13.
扫描树结构能够有效地减少集成电路的测试数据量和测试时间,降低电路的测试成本.为减少三维电路中扫描树的叶子节点和硅通孔数量,首先得出了扫描树中叶子节点的最小数量为最大相容组中所含扫描单元数量的结论,然后进一步得到了叶子节点取得最小值的充分必要条件.并在此基础上,提出了一种启发式算法来确定扫描树中相容组的连接顺序,使得叶子节点数量取得最小值的同时能够优化硅通孔的数量.实验结果表明了所提方法的有效性.  相似文献   

14.
FoodMart超市市场部想提高客户满意度和客户保有率,于是计划对会员卡方案重新定义,以便更好地为客户提供服务并且使提供的服务能够更加密切地满足客户的期望。本文基于对FoodMart超市客户数据的分析,适当选取某些客户类型特征作为决策属性,并利用ID3算法从FoodMart超市客户数据中挖掘客户分类规则。并利用java语言编程实现了ID3算法。仿真的结果不仅为FoodMart超市会员卡重新定义制定最佳的指导策略,而且在理论研究和工程实践中都具有重要的意义。  相似文献   

15.
针对非圆信号测向中方位依赖幅相误差的校正问题,本文根据非圆信号的非圆特性和辅助阵元能够自校正的特点,对协方差匹配估计技术(covariancematchingestimationtechnique,COMET)进行改进,提出一种适用于信源时域统计特性未知和统计独立特性先验已知两种情况的改进算法:NC—COMET算法.该算法利用非圆信号扩展协方差数据,使其校正精度较常规的基于辅助阵元的最大似然类算法(未利用非圆特性)有明显提升,且降低了最小辅助阵元数要求.从理论上证明了参数估计的统计一致性,采用一阶误差分析方法推导了有限采样影响下参数估计的均方误差表达式,并提出算法的cc数据利用率”定义,定量比较获得了NC.COMET算法的数据利用率较常规的最大似然类算法的提升幅度.仿真结果亦表明NC—COMET算法性能较常规的最大似然类算法更优:低信噪比下具有更强的鲁棒性;信源时域统计独立特性先验已知或者大非圆率的情况下,该算法对校正精度的提升尤为明显.  相似文献   

16.
Consider a time series transformed by an instantaneous power function of the Box-Cox type. For a wide range of fractional powers, this paper gives the relative bias in original metric forecasts due to use of the simple inverse retransformation when minimum mean squared error (conditional mean) forecasts are optimal. This bias varies widely according to the characteristics of the data. A fast algorithm is given to find this bias, or to find minimum mean squared error forecasts in the original metric. The results depend on the assumption that the forecast errors in the transformed metric are Gaussian. An example using real data is given.  相似文献   

17.
针对厚煤层采煤方法选择多目标非线性的问题,在影响因素分析的基础上,建立了预测仿真模型,利用神经网络改进算法训练网络,通过早停的方式解决网络过拟合问题。通过计算机仿真结合现场应用表明,该模型给出了最优方案,可为厚煤层采煤方法的合理选择和工作面主要经济技术指标的预测提供一种新的研究思路,在煤矿开采中具有广阔的应用前景。  相似文献   

18.
针对单通道同调制方式、同调制参数时频重叠信号的盲分离问题,基于MSK信号的恒模特性,及对MSK混合信号分量幅度的准确估计,构建了单通道信号盲分离欠定方程组.为解决该方程组的解模糊问题,根据MSK信号相位连续特性,提出了相位方差最小模糊解消除准则.但相位对噪声较为敏感,该准则可能会产生严重的误判现象,又提出了一种基于最小斜率的补充准则.基于以上两种模糊解消除准则,可对单通道信号盲分离欠定方程组的模糊解进行合理选择,有效地实现了MSK时频重叠信号的单通道盲分离.仿真结果表明:在信噪比大于5 dB的条件下,该算法对混合信号具有较好的分离效果.并且该算法具有复杂度低、计算量小的优点.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号