首页 | 本学科首页   官方微博 | 高级检索  
     

正则表达式在汉英对照中国文化术语抽取中应用
引用本文:姚振军,黄德根,纪翔宇. 正则表达式在汉英对照中国文化术语抽取中应用[J]. 大连理工大学学报, 2010, 50(2): 291-295
作者姓名:姚振军  黄德根  纪翔宇
作者单位:1. 大连理工大学计算机科学与技术学院,辽宁大连,116024;东北财经大学国际商务外语学院,辽宁大连,116024
2. 大连理工大学计算机科学与技术学院,辽宁大连,116024
3. 东北财经大学国际商务外语学院,辽宁大连,116024
摘    要:运用正则表达式的字符串匹配功能对特定数据库中的汉英对照中国文化术语进行了抽取.抽取过程中,由于规则中特殊字符有11个,正则表达式中的一个字符可能要经过11次才能判断与待搜索文本中对应字符是否匹配.为加快抽取速度,根据待搜索文本的实际情况,选择使用了3个元字符,建立了符合特定需要的正则表达式,在保证相同正确率的前提下,抽取速度提高了1倍左右;同时,通过正则表达式生成器,尝试解决了正则表达式应用过程中可读性差、用户使用难度大的问题.

关 键 词:正则表达式  元字符  生成器  中国文化术语  

Application of regular expressions to extraction of Chinese cultural terms with their English translations
YAO Zhenjun,HUANG Degen,JI Xiangyu. Application of regular expressions to extraction of Chinese cultural terms with their English translations[J]. Journal of Dalian University of Technology, 2010, 50(2): 291-295
Authors:YAO Zhenjun  HUANG Degen  JI Xiangyu
Affiliation:YAO Zhen-jun1,2,HUANG De-gen1,JI Xiang-yu21.School of Computer Science , Technology,Dalian University of Technology,Dalian 116024,China,2.SIBC,Dongbei University of Finance , Economics
Abstract:The matching system of the character string in regular expression (RE) is used to extract the Chinese cultural terms and their correspondent English translations from the specialized corpus. During the process of extraction,if the current RE is used,then 11 special characters would appear in the expressions. It means that a particular character in RE has to go through 11 judgments so as to make sure whether it matches the correspondent character in the to-be-searched text or not. To speed up extracting proc...
Keywords:regular expression  meta-character  generating engine  Chinese cultural terms  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《大连理工大学学报》浏览原始摘要信息
点击此处可从《大连理工大学学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号