首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
设计并实现了一种基于红黑树的列表结构. 列表中数据存储在红黑树节点中,红黑树的高效查找性能使列表的查找时间复杂度为O(logn). 实验表明,其查找效率比遍历查找快2个数量级以上,与二分查找相当. 该列表结构适合于各种频繁添加、删除、查找的应用.  相似文献   

2.
信息采集技术日益发展导致的高维、大规模数据,给数据挖掘带来了巨大挑战,针对K近邻分类算法在高维数据分类中存在效率低、时间成本高的问题,提出基于权重搜索树改进K近邻(K-nearest neighbor algorithm based on weight search tree,KNN-WST)的高维分类算法,该算法根据特征属性权重的大小,选取部分属性作为结点构建搜索树,通过搜索树将数据集划分为不同的矩阵区域,未知样本需查找搜索树获得最"相似"矩阵区域,仅与矩阵区域中的数据距离度量,从而降低数据规模,以减少时间复杂度.并研究和讨论最适合高维数据距离度量的闵式距离.6个标准高维数据仿真实验表明,KNN-WST算法对比K近邻分类算法、决策树和支持向量机(support vector machine,SVM)算法,分类时间显著减少,同时分类准确率也优于其他算法,具有更好的性能,有望为解决高维数据相关问题提供一定参考.  相似文献   

3.
平衡二叉查找树是计算机中有效地组织大规模查找数据的主要手段,因为在树的创建、节点的插入、删除过程中都维持了树的平衡.AVL树是平衡二叉查找树,但是AVL树在创建、插入、删除时维护树的平衡操作需要按照平衡因子的不同情况分别进行处理,程序长,实现过程繁杂.本文利用树的高度提出一种新的AVL平衡树数学描述-高度平衡树(HAV...  相似文献   

4.
为保障用户免遭侵犯隐私的风险,提出了一种特别支持基因数据的可搜索加密方法.针对目前密文搜索方案大多数仅支持通过关键字进行搜索,而无法用于不含关键字的基因数据的问题,利用后缀树和伪随机函数等密码学原语构建安全索引,实现对密文基因数据的任意子字符串搜索.安全性证明该方法满足动态自适应安全,利用理论分析和真实数据对效率进行测评.该方法可以对基因数据进行高效安全的任意子字符串搜索,保护数据完整性和隐私性,在个性化医疗大众化的环境下具备广阔的应用前景.  相似文献   

5.
分析二叉查找树与赫夫曼树各自的特点,提出了一种构建最优二叉查找树的算法即贪心算法,并用VC++程序设计语言编码实现.实验结果表明:贪心算法不仅趋于稳定、时间效率明显优于动态规划算法,而且还实现了其数据规模达到20 000时空间上的突破.  相似文献   

6.
为了提高相似最近邻搜索(ANN)算法的精度,提出了一种在度量空间下基于距离的相似最近邻搜索算法-优化的VP森林(OVF)算法。在传统VP树(VT)算法的基础上,首先采用改进的选择优势点的方法,通过从数据集采样优势点候选集,对其进行评估,选取其中区分度大的点作为优势点;然后提出构建多棵VP树的新方法,改进距离优势点远的子树中最近邻不紧凑问题;接着提出使用优先队列与剪枝搜索方法结合的新搜索方法查找最近邻,减少了很多不必要的距离计算。最后通过实验结果表明,本文方法在数据维度、数据集大小、返回不同邻居个数、不同的距离函数及建树个数方面精度有了很大的提高。  相似文献   

7.
已有的大多数聚类算法都假设数据集保持不变,然而,很多应用中数据集是会随时间变化的。为此,提出了一种新的三支决策软增量聚类算法。采用区间集的形式表示类簇,区间集的上界、边界与下界就对应着三支决策产生的正域、边界域和负域,并提出了一种基于代表点的初始聚类算法。采用同样的方式对新增数据集进行一次预聚类,以消除数据处理顺序对最终聚类结果产生的影响。为了快速查找新增数据的相似区域,建立了代表点搜索树,并且给出了查找和更新搜索树的策略。运用三支决策策略完成增量聚类。实验结果表明提出的增量聚类算法是有效的。  相似文献   

8.
面向路由器FIS(Forwarding In Switch, FIS)处理机制,提出了一种基于路由表分布式存储的多级流水并行查找架构,采用多个低速的具有独立转发和交换功能的转发交换结点FSN(Forwarding and Switching Node)构成多级流水线,针对IPv6最长匹配前缀的查找需求,设计了一种基于前缀范围的二分查找算法PSB-BS(Prefix Scope Based Binary Search):将IPv6转发表组织为分层结构,每一层对应不同长度范围的前缀信息,采用二分查找策略对子树层进行搜索,通过构建非对称二分查找树实现了转发表在FSN结点的分布式存储并能有效降低存储开销及IP查找复杂度.仿真结果表明,与目前Cisco商业路由器广泛采用的树位图算法相比,PSB-BS算法显著降低了存储及访存开销.  相似文献   

9.
提出了一种从肿瘤的基因表达数据挖掘肿瘤分类规则的方法. 首先用Bhattacharyya距离指标和相关性分析去除分类无关基因和冗余,然后以决策树作为分类器,用遗传算法搜索所得的特征空间,优化分类精度和分类模型的复杂度. 运行多次得到多个分类树和多组分类规则,由此构建组合树分类器在测试集数据上检验分类效果. 在结肠癌基因表达数据上的实验结果表明了分类规则挖掘方法的有效性和可用性.  相似文献   

10.
基于Hilbert空间填充曲线的P2P多维潜在语义查询   总被引:1,自引:0,他引:1  
傅向华  冯博琴 《西安交通大学学报》2005,39(10):1064-1067,1071
为在有组织对等(P2P)系统上提供有效的多关键词查询和搜索机制,提出了多维潜在语义查询(MLSQ)方法.该方法利用Hilbert空间填充曲线(HSFC)和潜在语义索引,将高维语义空间中相似的数据对象映射到一维数值空间中的邻近区域中,并以每个数据对象在一维数值空间中的序号作为键,将数据对象的索引分布到有组织P2P网络邻近的结点上.通过将HSFC中数据点的查找过程嵌入到有组织P2P网络的结点上,再利用网络的数据查找机制,MLSQ可方便地搜索到符合查询要求的数据对象.实验结果表明,MLSQ在搜索过程中需要访问的网络结点数比较少,并具有较高的查准率和较低的通信量的特点.  相似文献   

11.
在最优二叉树的证明中,一般是从该树中通路长度最长的分枝点有两个孩子开始证明,但在前提中没有给出“在最优二叉树中通路长度最长的分枝点一定有两个孩子”的条件,本文就此问题展开研究,证明了最优二叉树的一个性质:最优二叉树一定是完全二叉树。  相似文献   

12.
数据流分段是数据流处理技术的基本任务,然而,它在多数据流环境下并不是一个小问题。该文提出了一个高效算法(即QPAAS算法),它能实时处理多个数据流分段。该算法利用了PAA技术中的增量计算特性,能快速处理单个数据流分段。为了处理多个数据流,它索引所有数据流的当前分段到一颗B^+树中,这样算法即可实时分段多个数据流。在真实的数据流上的多个实验表明,QPAAS算法有效而高效,仅具有线性时间和空间复杂度。而且,它比传统的PAA分段算法快几个数量级。  相似文献   

13.
针对大规模单语语料资源,提出了采用B-tree结构的二级索引机制;研究了索引及检索关键字的组织策略,引入了检索关键字的词频因素,通过关键字的分组及短语的识别策略,有效地解决了检索效率和准确率问题.  相似文献   

14.
随着人类步入信息时代,网上庞大的数字化信息与人们获取所需信息能力之间的矛盾日益突出,怎样快速地检索相关信息已经成为研究热点。阐述了全文检索系统的原理,分析了基于字表结构的索引组织方法和索引库的建立。通过和B-树的对比,提出了基于B+树的索引存储方法及其算法思想,对提高索引的存储效率和查找速度具有一定意义。  相似文献   

15.
城市道路最短路径的Dijkstra算法优化   总被引:12,自引:1,他引:12  
在研究城市道路网络特征基础上,建立城市道路网络模型及其数据库,应用一种改进的Dijkstra算法对城市道路进行最短路径查询,该算法是从起点和终点分别用二叉树按起点到终点和终点到起点的方向进行搜索.在计算某一段最短路径时,用Dijkstra算法时间为0.23 s,改进算法时间为0.20 s.仿真结果表明,该算法不仅在时间上有所改进,其时间复杂度由传统Dijkstra算法的O(n^2)减小为O(n),而且其所选的最优路径更符合实际,是一种寻求最优路径的有效算法.  相似文献   

16.
反计算机取证技术研究   总被引:1,自引:0,他引:1  
分析了反计算机取证的基本概念和方法,比较了反计算机取证所采用的数据擦除、数据加密、数据隐藏、数据混淆和数据转换等主要技术,并提出了一种安全、高效的基于m序列的数据擦除方法.  相似文献   

17.
建立能够和谐平衡各个信息系统之间数据断层的机制是实现管理决策变革最关键的3大基础之一,也是智能决策支持系统研究领域的重点内容之一.随着互联网+时代的到来,各式各样的数据资源不断积累,数据断层现象在多个领域表现得愈加明显.通过对数据断层理论体系的进一步研究与实践,着重分析微观层面的数据断层现象,一方面用显断层概念描述各系统之间以及系统内部存在的较为明显的断层现象,另一方面用隐断层概念描述各系统之间以及系统内部存在的非明显的断层现象,并在数据显断层中引入缝隙的概念来描述主题无关数据对象,采用数据聚合的技术手段来降低缝隙数据的断层属性,同时在隐断层中引入"有效密度"来形象地描绘数据分布情况,通过数据熔合来减少无效数据占用的空间.最后以上海"动感101"音乐电台的移动客户端应用日志数据为例,分析了电台数据中所存在的数据显断层和数据隐断层现象.  相似文献   

18.
Blast furnace data processing is prone to problems such as outliers. To overcome these problems and identify an improved method for processing blast furnace data, we conducted an in-depth study of blast furnace data. Based on data samples from selected iron and steel companies, data types were classified according to different characteristics; then, appropriate methods were selected to process them in order to solve the deficiencies and outliers of the original blast furnace data. Linear interpolation was used to fill in the divided continuation data, the K-nearest neighbor (KNN) algorithm was used to fill in correlation data with the internal law, and periodic statistical data were filled by the average. The error rate in the filling was low, and the fitting degree was over 85%. For the screening of outliers, corresponding indicator parameters were added according to the continuity, relevance, and periodicity of different data. Also, a variety of algorithms were used for processing. Through the analysis of screening results, a large amount of efficient information in the data was retained, and ineffective outliers were eliminated. Standardized processing of blast furnace big data as the basis of applied research on blast furnace big data can serve as an important means to improve data quality and retain data value.  相似文献   

19.
There are current, historical and future information about continuously moving spatio-temporal objects. And there are correspondingly spatio-temporal indexes for current, past and future querying. Among the various types of spatio-temporal access methods, no one can support historical and future information querying. The Time Parameterized R-tree(TPR-tree) employs the idea of parametric bounding rectangles in the R-tree. It can effectively support predictive querying to continuously moving objects.Unfortunately, TPR-tree can not used to historical querying. This paper presents a partial-persistence method in order to extend TPR-tree for querying past information of moving objects. In this method, several TPR-trees will be created for more effectively predictive querying, because TPR-tree has a time horizon limit for predictive querying.Further more, a B-tree will be used to index time dimension. Since the partial-persistence method brings about huge storage space using, this paper also discusses some methods on how to reduce storage space. Finally, this paper presents an extensive experimental study for the proposed method and gives some interesting directions for future work.  相似文献   

20.
介绍了桨叶测量数据传输和工艺数据辅助生成系统。该系统由读表仪、信号驱动器、数据传输系统、数据传输软件、工艺辅助生成软件组成,具有数据记录、数据传输、工艺数据辅助生成等功能。对系统的硬件指标和软件功能作简单介绍。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号