首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
对给定数据集合的元素重要性进行估计是数据挖掘领域中的一项重要应用。现有的技术都是通过排序或选择来发现重要元素,其主要缺点是没考虑高排名对象可能非常相似甚至完全相同这一事实,忽略了高排名对象间的冗余性。因此,在强调多样性的场合,该方法性能有限。本文通过将排序和选择相结合,提出一种基于集合覆盖的元素重要性估计算法。该算法不仅考察单个集合覆盖的解,而且计算元素参与的高质量集合覆盖数量,进而为元素分配重要性分值。基于实际数据的实验和用户学习结果表明,本文算法性能高效,元素重要性评估结果的有用性高,且与人类感知相一致。  相似文献   

2.
提出了一种基于BWT(Burrows-wheeler-transform)的字符串集合的索引方法,以解决带有匹配字符串长度和匹配子串位置约束的子串确切匹配查找问题.讨论了BWT和基于BWT索引进行确切子串查找的基本原理.分析了字符串集合、匹配字符串长度和匹配子串位置约束对原BWT索引的影响.重点解决了快速地从匹配后缀位置到字符串ID和匹配子串位置的计算问题.在3个真实的数据集上进行了比对实验,结果表明:所提出的基于BWT索引方法在没有增加原索引大小的情况下,大大提升了带有匹配字符串长度和匹配位置约束的确切子串的查找的性能,因此该算法更加适用于大规模的字符串集合的索引进行近似字符串匹配和连接.  相似文献   

3.
在基于特征词遍历匹配的文本分类算法中,字符串匹配算法的选取及相似度阈值控制对文本分类结果起着决定性的作用。针对三种常用的字符串匹配算法做了分析及对比实验,选取了最适合政策文本分类的一种字符串匹配算法。并通过研究政策文本具有的特征提出了一种基于特征词加权的相似度阈值计算方法,经实验证明相似度阈值符合分类要求。  相似文献   

4.
针对审计系统中搜索大量审计数据的需要,设计了一种基于哈希表机制的多关键字匹配算法.该算法把关键字集合储存到哈希表中,并为关键字集合建立了两个过滤表和一个关键字长度类型表.在查找过程中,对未经过滤表验证的字符串不再进行匹配查找,同时,关键字长度类型表的使用减少了循环的次数.测试结果表明,该算法在速度和精度上都优于BM和mgrep算法.  相似文献   

5.
为了提高餐饮推荐系统的准确率,提出一种基于集合论和图论的餐饮高维非数值型数据聚类算法.首先将菜品数据进行预处理,找出需要的特征,删除不必要的特征,再将这些特征以集合的形式输入到系统中,使用改进的杰卡德相似系数对集合进行相似度计算,得到以集合表示方式的菜品数据间的相似度,接着将所有的数据转换为无向图,最后利用图形聚类算法...  相似文献   

6.
结构化自动问答系统采用传统方法缺少对词汇、词序和结构的划分,导致语句相似度较低,为了解决该问题,提出了基于Web语义的混合问句相似度计算方法。根据结构化自动问答系统结构,设计系统语句分析模型,通过正向匹配方法,对模型专业词库中的用户输入自然语句进行分词处理,并对字符串之间的关系展开分析。采用非恒定相似度系数来描述2个字符串的相似情况,并由此分析词形、词序和结构相似度,完成不同语句相似度的计算。通过实验对比可知,文章提出的基于Web语义的混合问句相似度计算方法最高计算精准度可达到96%,可提升自动问答系统的整体性能。  相似文献   

7.
灰度图像匹配的快速算法   总被引:19,自引:0,他引:19  
分析了传统的模板匹配算法 ,提出了一种新的基于投影的快速模板匹配算法 .该算法对图像计算一维投影 ,并将投影数据差分转化为描述图像特征的字符串 ,在快速字符串匹配的基础上 ,进行归一化的相关计算 ,既保证了匹配效果 ,又提高了匹配速度 .实验结果表明 ,这是一种有效的新算法  相似文献   

8.
在软件开发过程中绝大多数克隆代码集中在函数内部,为了更加快速有效地检测出克隆代码,提出了一种基于函数内部特征矩阵的代码克隆检测算法。该算法通过提取函数内部特征,从而达到将具体代码的比较转化为对特征矩阵进行相似度计算。实验结果表明,该算法可以检测出所有克隆函数,并与基于字符串代码克隆检测算法和基于串匹配的程序代码相似性识别方法相比,该算法在运行时间及精度上均优于基于字符串代码克隆检测算法和基于串匹配的程序代码相似性识别方法。其次,通过使用N-grams算法对函数名进行相似度检测,使得该算法在运行效率上得到了显著提升。  相似文献   

9.
 为了提高入侵检测系统的性能,提出了一种综合降维方法。首先,借用类比推理方法,为两个多维向量建立相似距离算法。然后,基于人工免疫系统和遗传算法设计了一种对正常行为样本集合和异常行为样本集合的优化算法。最后,对采集到的网络行为样本,分别计算与优化的两个行为样本集合的相似度。把这两个相似度作为纵坐标和横坐标,行为样本被映射成二维坐标平面上的点。系统根据点的位置,判定行为是否异常。  相似文献   

10.
为了满足基于Web的XML数据信息的挖掘的需求,提出一种基于结构相似度的XML文档的聚类算法,该方法是在根据XML文档的语义信息和结构信息计算出相似度基础之上对XML文档集合进行聚类,并进行了实验,证明该方法有效,与同类算法相比有其优势的地方。  相似文献   

11.
套管柱注水泥结束后 ,由于水化热的作用使水泥浆在胶凝过程中产生升温现象 ,并随之失重。温度、压力的共同作用会使套管柱发生很大的形变。随着水泥的固化 ,这种形变也会被固结在水泥封固段内 ,影响其使用性能。在调研大量资料的基础上 ,利用数值计算方法得到了水泥胶凝过程中温度变化的动态数据。对某油田实测数据进行了统计分析 ,得出了水泥浆失重时的压力计算公式。根据有限元理论 ,推导出套管段长度与温度、压力、水泥及套管表面剪切应力之间的关系式。在此基础上 ,计算得到了水泥浆胶凝过程中套管的动态变化。  相似文献   

12.
DST测试期间,为了完成测试任务,通常通过油套环空加压的方式来控制井下不同目的的测试工具。对于高温高压高产井,由于地层压力高,环空使用的液体的密度可能比较高,而测试管柱内,液体组分比较复杂不能简单的使用原油的密度进行计算。为了防止测试管柱的挤毁,文中提出了使用不同油嘴下的井口压力值,测试产量,关井压力恢复过程中的井口压力以及流体性质计算测试期间井底流压,测试管柱内外压,以及防止测试管柱被挤毁而需要施加的最小的井口回压的计算公式。通过使用A油田2口井的DST的测试数据,进行了验证,公式的精度可以满足现场作业的要求。  相似文献   

13.
H.263中预先判别全零系数的新方法   总被引:13,自引:0,他引:13  
用H.263标准对低码率图象编码时,由于预测较准确,经过帧间预测后得到的运动补偿数据通常很小,对这种数据块再进行离散余弦变换和量化后往往成为全零块.为减少编码器的运算量,提出了一种预先判断全零系数块的新方法,它以运动估计所得各块的最小绝对误差和为判断准则,不需要附加别的运算.将本方法应用于H.263中,对MissAmerican和Claire图象序列进行实验,发现有40%以上的块可以在做离散余弦变换和量化前被判别为全零系数块.该方法较大幅度地减少编码器的运算量,对于H.263软件实时实现非常有意义.这种方法可以随量化级的变化自适应地调整全零块的判断阈值.另外,因为该方法采用的判据为全零块的充分条件,所以它不会因为误判而影响解码后的图象质量.  相似文献   

14.
钻柱失效问题已经成为高压喷射钻井技术发展和推广的瓶颈。建立了一种钻柱失效的新理论模型,利用振动的知识研究钻柱的失效情况,分析钻柱在振动条件下的位移和速度,在此基础上利用冲蚀理论对钻柱的失效进行研究,分析得出钻井液对钻柱的冲蚀磨损量和最大冲蚀角。根据算例计算与分析,对应算例参数进行室内实验和井场实验设计,完成实验的验证与结果分析。结果表明:在考虑钻柱振动条件下,钻井液对钻柱的冲蚀磨损量要远大于未考虑钻柱振动条件下钻井液对钻柱的冲蚀磨损量;同时得知最大冲蚀角与冲蚀理论中的规定是完全吻合的以及钻井液对钻柱冲蚀所发生的最大角度在钻柱有无振动的条件下是相同的。研究结论对于在石油钻井中如何减少钻柱的失效及如何提高钻柱的使用寿命具有一定的理论参考意义。  相似文献   

15.
由于在破岩过程中受到冲击,气体钻井中的钻柱产生了交变应力,而钻柱旋转加剧了交变应力的变化,同时气体携带岩屑对钻柱产生冲蚀,加速了钻柱的失效。钻柱主要失效形式为疲劳断裂,这跟钻柱所受应力大小及变化密不可分,因此,开展气体钻井过程中钻柱力学性能和冲蚀研究,掌握钻柱应力变化规律及岩屑对钻柱的冲蚀规律,是减小和防止钻柱失效的基础工作,对增加气体钻井过程中的安全性和降低钻井成本有十分重要的意义。通过使用一种已开发出的可同时模拟气体钻井钻具振动和冲蚀的装置,进行了不同钻具组合情况下,气体钻井钻柱同时受振动和冲蚀实验。实验结果表明,气体钻井过程中,配置扶正器将使钻柱所受交变应力值变化范围降低40% 以上,扶正器和减振器的配合使用将使交变应力值变化范围下降50%,因此,扶正器和减振器的配合使用,将大幅降低钻柱所受交变应力,并延长交变应力作用周期,从而降低钻柱失效的概率。  相似文献   

16.
It is difficult for security experts to generate polymorphic signatures by using traditional string mining and matching techniques.A semantic-aware method is presented to generate a kind of two-level signature that includes both polymorphic semantics and string patterns.It first analyzes the characteristics of polymorphic engines and categorizes the data flows into different clusters and then uses static data flow methods to extract invariable semantic instructions.And then,it combines traditional string methods to generate the signature.In comparison with other methods,experimental results show that it may effectively reduce false positives and false negatives.  相似文献   

17.
防止敏感数据泄露是网络服务商面临的主要问题,随着网络的逐渐发展,该问题变得越来越复杂,传统数据防泄漏方法通常通过关键词搜索实现,虚警率高,整体性能低下。为此,提出一种新的arp攻击后网络数据防泄漏方法,通过动态指纹检测对arp攻击后存在网络隐患的敏感数据进行初步检测,通过概率检测降低计算开销和内存。针对指纹比对,在随机选择的一组整数上对字符串进行检测,将检测点和Bloom滤波器关联,给出通过概率检测进行网络数据泄露检测的详细过程,从而防止arp攻击后网络数据泄露。实验结果表明,所提方法不仅精度高,而且整体性能强。  相似文献   

18.
重构曲面之前,需要对三维数据点集做精简处理,即在保留特征点的前提下剔除尽可能多的冗余点,这样可以保证后续曲面重构工作的高效进行.本文以样点邻近点与强制中心点切平面的关系,来判断局部空间点的分布情况,从而提供了一种新的数据精简方法.  相似文献   

19.
水平井钻柱摩阻力和摩阻力矩的计算   总被引:2,自引:0,他引:2  
针对水平井的特点,提出对钻柱摩阻分段计算的方法,即对底部钻具组合(BHA)段,采用纵横弯曲梁理论计算摩阻;对BHA以上井段,用微单元力平衡分析法具体分析钻柱的受力,给出不同工况下水平井摩阻力计算的简化条件。探讨了泥浆粘滞力的计算公式和钻柱刚性效应的影响。在安塞油田、大港油田多口井的应用表明,在局部弯曲井段,钻柱的刚性对摩阻力有明显的影响;泥浆的粘滞力对摩阻力有一定的影响,所建模型与现场试验结果符合较好,能够为现场施工设计提供重要数据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号