排序方式: 共有60条查询结果,搜索用时 281 毫秒
11.
正则表达式在汉英对照中国文化术语抽取中应用 总被引:1,自引:0,他引:1
运用正则表达式的字符串匹配功能对特定数据库中的汉英对照中国文化术语进行了抽取.抽取过程中,由于规则中特殊字符有11个,正则表达式中的一个字符可能要经过11次才能判断与待搜索文本中对应字符是否匹配.为加快抽取速度,根据待搜索文本的实际情况,选择使用了3个元字符,建立了符合特定需要的正则表达式,在保证相同正确率的前提下,抽取速度提高了1倍左右;同时,通过正则表达式生成器,尝试解决了正则表达式应用过程中可读性差、用户使用难度大的问题. 相似文献
12.
针对传统正则匹配性能低下的问题,设计了基于多GPU的正则表达式匹配引擎,并采用折半分组优化算法解决了有限状态自动机在大规模正则集合情况下由于空间爆炸无法使用的问题,并做了相关的优化,提升了数据匹配速度.实验结果表明:基于多GPU的正则表达式匹配性能较CPU提升了61倍,其数据吞吐率远优于其他加速方式. 相似文献
13.
为了适应高速网络环境下的木马检测,通过分析传统的IDS,针对其在高速网络环境下对木马检测能力的不足,提出了单引擎大特征集的木马检测方法;通过分析木马的网络数据特征,对有限自动机转换过程进行优化,缩短了编译的时间,避免了重复匹配的问题,大幅度提高了基于正则表达式的木马检测方法的效率. 相似文献
14.
阐述数字化智能网络测试系统的实现方法和技术 .这是一个集成了注册验证、试卷生成、网上测试、自动阅卷、试卷分析为一体的测试系统 ,此系统将繁杂、重复的测试任务简单化 ,使测试更公平、公正 ;更科学、规范 ;更方便、快捷 相似文献
15.
介绍了计算机与手机进行短信通信的原理,并对短信息结构做了详细分析.给出了计算机接收和发送短信的实现方法.针对短信内容在数据库中的保密问题,提出了一种用正则表达式识别需加密部分和用RSA加密保护的方法. 相似文献
16.
经过自20世纪60年代至今近50年的发展,语料库的种类、应用领域及相关技术正在不断扩展。然而,语料库的建设与检索常常涉及文本预处理、文本标注、词表制作、字符块匹配、搭配分析、句型查找等诸多模式匹配问题,这对于绝大部分语言研究者和外语教学者来讲是一个相当大的技术难题,也是制约语料库建设与推广运用的主要障碍。在语料库建库与检索中,我们常常可以利用功能强大的正则表达式结合相关检索软件,对文本进行模式匹配,从而准确、高效的提取各种所需信息。本文主要探讨如何使用正则表达式解决语料库建库与检索中的模式匹配问题。 相似文献
17.
邓绪斌 《复旦学报(自然科学版)》2011,(6):797-802
由于正则表达式(RE)被广泛用于信息抽取、模式学习和生物序列分析等领域,因此开发能够从正样例集学习RE的算法很有实际意义.为克服现有RE学习算法在所学RE类型、样例数目和样例类型等方面存在的限制,基于最优树联配原理提出了一种基于树结构的RE学习算法.该算法的特点包括:采用自适应方法自动选择最优代价阈值;对所学RE类型、... 相似文献
18.
在移动互联网用户行为分析系统中,为了使深度包检测(deep packet inspection,DPI)进行有效地数据匹配,对用户行为进行更深层次的分析,达到不仅能识别出业务网站类型而且还识别出业务网站访问具体内容的目标,设计出一种能进行具体内容级别上特征爬取和提炼的爬虫模块.针对特定业务网站,考虑广义爬取对技术和存储要求高的缺点以及针对某一行业的爬虫系统得到数据有限的不足,设计并实现了一种基于特定页面分析的聚焦爬虫模块.该爬虫模块采用模块化的思想,使用多线程多任务,精确高效地爬取特定业务网站信息,为DPI匹配提供数据支持.经过测试验证,该爬虫模块达到了预期的要求,可维护性、可扩展性和实时性强,满足移动互联网用户行为分析系统对特征数据提取的需求. 相似文献
19.
模型检验是一种被广泛应用于对设计或系统正确性进行自动验证的技术。实时系统的性质包括瞬间性质和时段性质,显然后的检验要比前复杂得多。介绍了一类新的时段性质——有序时段性质,并检验了时间正则表达式的有序时段性质,最后分析了算法的复杂度,和相关工作进行了比较,并探讨了今后的工作方向。 相似文献
20.
在网络安全系统中,提出了一种基于CPU-GPU协同的特征码匹配机制。先用每个特征码表达式的n前缀,构建一个小的DFA(有限自动机);再在GPU上进行不完全匹配,剔除大量正常数据包,检测出可疑的数据包;然后再在CPU上对可疑数据包进行精确匹配。测试结果表明,该机制的匹配吞吐量能达到了19Gbits/s。 相似文献