首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 859 毫秒
1.
本文主要针对Apriori算法采用最小支持度和最小信任度阈值来发现知识,而没有考虑交易中数量问题的不足,提出一种快速的基于频繁模式树FP-tree的最大频繁项目集挖掘算法.该算法不需要产生频繁项集,而且只需要扫描事务数据库D一次,从而提高了算法的执行效率.该方法结合大量的实际项目数据进行关联规则挖掘测试发现,不仅能较好地分析非稠密数据,也能处理现实世界中稠密数据. 结果 表明该优化算法可显著降低关联规则挖掘在数据挖掘工作中的时间开销.  相似文献   

2.
基于Smith-Waterman算法的并行分而治之生物序列比对算法   总被引:3,自引:0,他引:3  
生物序列比对是生物信息学中最常见的问题之一, 基于动态规划思想的Smith-Waterman算法是序列比对中最基本的算法. 然而现有的并行Smith-Waterman算法都需要庞大的内存, 且无法处理大规模的数据串, 随着生物数据的急剧增长, 这些并行算法对内存空间的需求已成为需要迫切解决的问题. 由此提出一种并行生物序列比对算法, PSW-DC算法, 该算法采用分而治之的方法把query序列划分为若干片段, 并分配给相应的各个处理器, 而后并行地按Smith-Waterman算法与目标(subject)序列进行比对, 再通过按一定规则的扩展过程求取序列的优化匹配. 与其他并行算法相比, 该算法有效地降低了内存空间的需求, 并实现了对大规模数据串的并行处理. 为实现该算法, 给出了一种称作C&;E的拓展规则及实现方法. 且该方法已经在实际系统中得到实现.  相似文献   

3.
数据挖掘和国际互联网是信息社会两大重要而有意义的领域。这两个领域的结合就是网络挖掘。网络挖掘一般可以分为两种不同的方法:一是网络内容挖掘,即从互联网的各种资源中检索和提取信息的过程;二是网络使用挖掘,指挖掘网站访问方式或其他网络用户信息的过程。本文主要讨论了WEB网络挖掘,包括有关网络挖掘的多种研究问题、研究技术、研究工具以及网络内容挖掘和网络使用挖掘方面的最新进展。  相似文献   

4.
在历史故障数据基础上,分别掏建故障信息、装备信息、装备使用状况的数据集市,通过数据挖掘模型和可视化交互平台,形成基于可视化数据挖掘(Visual Data Mining,VDM)故障分析架构。以此架构为基础,探讨了故障数据仓库的建立以及故障数据挖掘算法,对实际故障数据进行预处理,并分析故障责任、故障趋势、故障分布等特性,得到图形化的分析结论,为装备的设计、制造、维护提供支持。  相似文献   

5.
海量Web搜索引擎系统中用户行为的分布特征及其启示   总被引:30,自引:0,他引:30  
统计分析了大规模搜索引擎系统的用户行为的分布特征.结果表明,用户查询内容和URL点击表现出明显的局部性;用户查询的分布符合幂函数的特征并具有良好的自相似性.基于上述规律,设计了查询cache,比较了FIFO,LRU及带衰减的LFU等3种cache替换策略.然后,基于用户行为考察了海量网页信息的分布特征,并利用URL的入度、镜像度、目录深度等网页参数与用户行为反馈后的相关度的方差分析,阐明了其对优化搜索引擎系统定序算法(ranking algorithm)的启示.  相似文献   

6.
本文主要研究基于Wasserstein距离的在线机器学习算法,并分别针对分类和回归问题,提出两个鲁棒的在线学习算法.本文首先在特征-标签空间中对Wasserstein距离进行变形,得到了易于处理和计算的变形式.进而,将在线梯度下降(online gradient descent, OGD)算法和Wasserstein距离变形式结合,分别针对在线分类问题和在线回归问题提出了两种具有较好鲁棒性的在线机器学习算法.文章对提出的新算法累积误差值(Regret,后面用Regret指代)进行了分析,证明了算法的Regret与训练轮次T满足O(■)关系.算法的收敛性可基于算法Regret分析得到,可证明在算法训练轮次T趋于无穷时,算法训练出的模型会收敛到理论最优模型.最后,将所提出算法与FTRL(follow-the-regularized-leader)算法、OGD算法、采用批量学习训练方法的机器学习算法进行数值实验对比.在模拟数据集和真实数据集的实验中,所提出在线学习算法准确率、鲁棒性和模型泛化性能均优于FTRL算法和OGD算法;针对大规模数据集时,虽然所提出的在线学习算法准确率与批量学习相关算...  相似文献   

7.
提出了基于体绘制的三维交互算法.该算法将三维对象组织成为树状节点,并利用对象的三维骨架化特征为索引,快速计算三维坐标系中坐标对应的三维对象,从而解决了体绘制中缺乏有效的交互问题,且具有较高的响应速度,可对海量医学影像数据集进行操作.以该架构为基础建立的肝外科辅助手术规划系统,可交互显示肝段、血管等信息,使得医生能更准确的了解组织空间结构和解剖信息,精确的掌握病变组织特性.  相似文献   

8.
物联网的全面感知产生了海量的感知数据,并且感知数据呈现为显著的多源异构性.因此,如何实现海量多源异构感知数据的智能处理是一个具有挑战性的课题.数据融合是处理多模态数据并挖掘提取有价值信息的有效手段,但针对多源异构数据,特别是非结构化的视频多媒体信息,如何实现高效的融合计算还面临许多问题需要解决.本文针对物联网多源异构感知信息的处理问题,提出多层次的多源异构数据融合方法,并以基于无线信号、视频和深度感知数据的目标定位跟踪应用为切入点,重点研究多源异构数据的处理、特征表示和数据融合方法.根据不同类型数据的特性采用不同的数据融合方法,通过挖掘无线信号、视频和深度等多源异构数据内在的关联性,实现多源异构数据有价值信息的有效利用.实际复杂场景的实验表明,本文提出的基于多源异构数据融合的目标跟踪和定位方法,能够解决传统依赖单源同质数据的目标跟踪方法所面临的光照变化和遮挡交错等难点问题,并且可以获得较为准确的运动目标三维位置,具有良好的跟踪定位效果.  相似文献   

9.
在高速骨干网环境中,由于受到计算和存储资源的限制,准确、及时地识别大流量对象对于检测大规模网络安全事件具有重要意义.文中使用相对流量大小定义大流,即对于一个给定的阈值φ(0<φ<1),将所有与链路实际传输总流量的比值超过φ的流定义为大流.在该定义下,大流量对象的识别问题等价于带权值数据流中的频繁项挖掘问题.由于骨干网链路速度快,对单个数据包的处理必须在纳秒级完成,因此对算法的实时性要求更高.在带权值数据流的频繁项挖掘中,目前没有对单数据项最坏处理时间为O(1)的算法.文中提出一个新的带权值数据流频繁项挖掘算法WLC,能够提供单数据项最坏处理时间为O(1)的处理速度.WLC采用一个部分排序的数据结构POSS,能够在保证处理速度的同时,尽量降低算法的存储开销.通过实际的互联网数据进行对比实验,结果表明:与现有的算法相比,WLC具有更快的处理速度,同时算法的实际存储开销远小于其理论上界.  相似文献   

10.
未来空中战场,大规模无人机集群系统将成为主导力量.而对大规模无人机集群系统进行分组聚类是完成作战任务规划的必要步骤.在实际战场中无人机受到有限通信约束,无法得到全面而有效的全局作战信息.因此本文提出一种基于鸽群智能行为的大规模无人机集群聚类优化算法.根据聚类模型设计鸽群优化算法,研究分析导航能力优异的鸽群智能行为,将鸽群飞行过程中的层级网络机制映射到鸽群优化算法中,解决有限交互环境下的信息不完整问题.一方面,依据鸽群在飞行过程中来自临近个体的引导更为有效直接,因而在有限交互环境下,基本鸽群优化算法中的全局最优信息由交互范围内的最优个体信息替代;另一方面,鸽群的中心位置更新包括三部分:增量惯性部分、模仿部分、环境影响部分.为验证改进后鸽群优化算法在有限交互范围下的有效性,本文采用三种算法针对三个数据集进行聚类分组,仿真结果表明改进后的鸽群优化算法在最优解与平均最优解上均有改善,为实际作战环境下的无人机集群系统聚类分组提供了有效的解决方法.  相似文献   

11.
CROWN:面向服务的网格中间件系统与信任管理   总被引:13,自引:0,他引:13  
针对大量网格资源的分布、自治等特点,给出了基于SOA的服务网格体系结构,提出了基于层叠网的分布式网格资源组织与管理机制、访问控制策略的自动协商、信任管理和信任协商机制,并研制了中间件系统CROWN;通过部署CROWN中间件系统建立了广域试验环境并部署了中尺度天气系统降水预报、海量多媒体数据处理平台、血液流动温度场显示、科学数据网格以及数字巡天图检索等多个网格应用,应用经验表明,该中间件系统能够支撑以计算密集型、数据密集型和海量信息分析与处理为特征的典型应用.  相似文献   

12.
解决雾霾问题的重要途径之一是大规模引入新能源,以减少碳排放.而新能源大规模接入会给互联电网带来强随机扰动.本文提出一种基于时间隧道的多智能体新算法——PDWoLF-PHC(λ)算法.该算法基于变学习率,有效获取最优控制,可解决传统集中式AGC难以解决的新能源及分布式能源大规模接入互联电网所带来的随机扰动问题,促进新能源与电力系统兼容.对改进的IEEE标准两区域负荷频率控制电力系统模型、智能配电网模型以及华中电网模型进行仿真,结果显示该算法可减少碳排放,提高新能源利用率,与已有智能算法相比具有更快的收敛速度及更强的鲁棒性.  相似文献   

13.
本文针对传统的基于相似性的层次聚类算法存在的两个问题(相似性度量中方向信息的丢失和算法的适应能力弱)提出了一种带有信息反馈的凝聚层次聚类算法.首先将无法预知的复杂数据结构描述成3个基本的结构特征单元,并对其进行建模构建一种相似性度量定义的泛型和一种凝聚的层次聚类算法.在凝聚的层次聚类算法中加入类信息的反馈机制,并在不同阶段对相似性定义的泛型进行具体化,充分利用数据点对之间的方向信息和距离信息进行聚类.该聚类算法主要有两大优势:(i)算法的适应能力较强,不需要假设的前提下可以处理无法预知的复杂数据结构;(ii)算法对噪声具有较强的鲁棒性,在不需要对数据集进行预处理的情况下能够在聚类的过程中识别噪声点或者噪声类.从人工数据和真实数据的试验结果可以看出新算法的优越性能.  相似文献   

14.
本文提出并设计了一个基于Web Service的分布式可视化框架(DV4WS).它采用新型的分布式计算模型Web Service访问远程可视化算法来实现数据的分布式可视化.本文描述了DV4WS的原理、体系结构及任务执行过程.同时为了验证该平台的有效性,本文利用目前数据量较大的股票数据进行分布式可视化研究评估了该系统的性能,并与串行结果进行了分析和比较.实验结果表明,该平台对于解决数据密集型应用领域的可视化是行之有效的.  相似文献   

15.
一种基于TTCN-3的协议测试系统及其扩展研究   总被引:1,自引:0,他引:1  
用户要求下一代互联网是一个更大、更安全、更快、更及时、更方便、更可管理的网络.为下一代互联网服务的协议测试技术需要适应这些测试需求.文中重点研究了协议测试中的测试集描述法和测试实现技术.选取了TTCN-3作为测试集描述法,并针对协议鲁棒性测试需求进行了语法和语义扩展.开发了基于TTCN-3的协议集成测试系统PITSv3,并对其进行了鲁棒性测试扩展实现.最后通过两个实际的测试应用,体现出PITSv3是一个具有通用性、标准性、可扩展性特点的分布式测试平台.  相似文献   

16.
提出一种新的基于单形体几何的高光谱遥感图像混合像元丰度估计算法.该算法的目标是在已知端元矩阵的基础之上,估计高光谱图像中各个观测像素点中每个端元的丰度.根据凸几何理论,基于线性混合模型的高光谱解混问题可以看成一个凸几何问题,其中端元位于包含整个高光谱数据集的单形体的顶点,而它们对应的重心坐标则可以看作各个观测像素的丰度.提出的方法由3部分组成,分别为基于单形体体积的重心坐标计算方法、距离几何约束问题和基于内点的单形体子空间定位算法.与其他基于单形体几何的算法相比,该方法具有诸多优点.Cayley-Menger矩阵的引入使得欧式空间上的运算转化为距离空间上的运算,在降低运算复杂度的同时很好地兼顾到数据集的几何结构.而且,单形体重心的使用确立了一种快速而精确的判断方法来确定观测像素所属的子空间,进而利用递归的思想得到丰度值.此外,算法核心仅仅涉及观测点与端元之间的距离,而与波段数无关.因此,该算法无须对数据执行降维处理,从而可以避免因数据降维而造成的有用信息的丢失.仿真和实际高光谱数据的实验结果表明,所提出的算法与同类其他优秀的算法如FCLS和SPU相比,具有更高的运算精度,同时在端元数目较小时具有较快的运算速度.  相似文献   

17.
文中提出基于随机发送参考的多天线系统传输算法,用于保障物理层信息安全传输.该算法将授权用户的信道分解为多个独立并行的信道,并在其中的一个信道中发送随机化的导频信息,同时对其他信道加密.由于窃听方信道与授权用户不同,很难通过自身的信道分解出独立的随机化导频信道,从而无法正常解调、还原信息.通过理论分析及算法仿真表明,随机发送参考算法可使窃听方的误码率稳定在较高水平,并且在同等发送功率的情况下性能优于现有加性人工方法.  相似文献   

18.
无线传感器网络是一种全新的信息获取和处理技术,能够实时监测、感知和采集各种环境或监测对象的信息.传感器多节点协调的自身定位是各种应用的基础,论文深入分析并比较了在无线传感器网络领域中有代表性的三种分布式定位算法(Bounding box、Euclidean和Robust position),并在OMNET++平台上做了性能的仿真检验;实际仿真结果上,对各定位算法的性能作了分析,并对各算法的应用环境给出了建议;对Robust position算法的改进提出了建议,并对无线传感器网络定位算法的未来研究做了展望.  相似文献   

19.
智慧医疗——从物联网到云计算   总被引:1,自引:0,他引:1  
新型信息化技术是解决中国医疗服务需求的关键手段.智慧医疗是医疗信息化的重要研究方向,它融合了物联网、云计算与大数据处理技术,以"感、知、行"为核心,旨在建立一个智能的远程疾病预防与护理平台."感"即以物联网技术为基础,利用多种传感器实时跟踪各种生命体征数据并通过无线网络技术传送到医疗数据中心,然而如何能够长期、精确、便捷、及时、无创地采集各种人体关键生命体征数据是一个巨大挑战;"知"即利用大数据存储与处理平台,应用数据挖掘和知识发现理论对医疗历史数据进行建模与分析,如何从大数据信息中挖掘关键生理特征,可靠、快速、高效地发现早期疾病和预测健康风险,也是一个巨大挑战;"行"即将实时跟踪与历史数据的分析结果,通过云服务的方式提供给医务人员作为诊疗参考,或为终端用户直接提供医疗护理方案,如何建立有效的数据模型以实现大规模复杂健康查询的快速和准确响应,同样也是一个巨大挑战.本文将讨论"感"、"知"、"行"所面临的技术挑战,并探讨解决这些挑战的可行方案.  相似文献   

20.
否定选择算法(NSA)是人工免疫系统应用于异常检测生成检测器的重要算法,传统NSA随机产生候选检测器与全部训练集进行耐受以消除免疫自反应,该匹配过程是NSA的主要时间开销,由于候选检测器在自体耐受过程中未考虑其与已有成熟检测器集的相互覆盖,导致生成的成熟检测器与已有检测器重复覆盖,经历不必要的自体耐受,从而导致NSA生成检测器数量过多,检测器的生成效率过低,限制了人工免疫系统在异常检测中的应用.为此,本文提出了二次否定选择算法(2-NSA),算法包括两次否定选择过程,分别耐受检测器集和训练集.每个随机产生的候选检测器先与已有成熟检测器集耐受为第一次否定选择,清除识别已有成熟检测器的候选检测器,耐受成功的候选检测器成为半成熟检测器;半成熟检测器在已有成熟检测器覆盖之外进行训练集的自体耐受为第二次否定选择,清除识别自体的半成熟检测器,耐受成功的半成熟检测器成为成熟检测器加入检测器集合.2-NSA算法有效避免了候选检测器在已有成熟检测器覆盖范围之内的自体耐受,大大减少了成熟检测器的数量,提高了成熟检测器集的生成效率,降低了算法的时间复杂度.此外,2-NSA算法按检测器半径从大到小优先产生覆盖范围更大的检测器,进一步避免与已有成熟检测器的重复覆盖,减少成熟检测器的数量.理论分析表明2-NSA算法有效减小了成熟检测器数量、提高了检测器生成效率,降低了系统的误报率.对比实验结果表明:在标准数据集Iris和期望覆盖率为99%的情况下,与经典的RNSA和V-Detector等实值否定选择算法相比,2-NSA算法需要成熟检测器的数量分别减少了99.84%和95.69%,误报率分别降低了60.13%和50.90%,产生成熟检测器集的时间代价分别缩减了99.79%和66.84%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号