首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于平行语料库和网络的未登录词译文挖掘
引用本文:孙萌,梁颖红,葛运东,颜振祥,姚建民.基于平行语料库和网络的未登录词译文挖掘[J].江南大学学报(自然科学版),2010,9(1):66-70.
作者姓名:孙萌  梁颖红  葛运东  颜振祥  姚建民
作者单位:1. 江苏省现代企业信息化应用支撑软件工程技术研究开发中心,江苏,苏州,215104;苏州大学计算机学院,江苏,苏州,215006
2. 江苏省现代企业信息化应用支撑软件工程技术研究开发中心,江苏,苏州,215104
3. 苏州大学计算机学院,江苏,苏州,215006
基金项目:江苏省现代企业信息化应用支撑软件工程技术研究开发中心项目(SX200907)
摘    要:分别通过搜索引擎和本地的双语语料库挖掘OOV译文。首先,提出一种利用词汇重叠特征、词对齐特征和位置特征建立最大熵分类器的方法,借以自动从网页信息中抽取和构建双语平行语料库。其次,提出一种结合互信息的频率变化方法生成多词单元,并采用频度.距离模型和音译模型进行正确译文的选择。对这两种挖掘方法的性能进行对比,实验表明基于网络的Top10的包含率达到94.6%,而基于平行语料库的Top10的包含率为37.5%。

关 键 词:OOV翻译  网络挖掘  平行双语语料库构建

Study on OOV Translation Mining from Parallel Corpora and the Web
SUN Meng,LIANG Ying-hong,GE Yun-dong,YAN Zhen-xiang,YAO Jian-min.Study on OOV Translation Mining from Parallel Corpora and the Web[J].Journal of Southern Yangtze University:Natural Science Edition,2010,9(1):66-70.
Authors:SUN Meng  LIANG Ying-hong  GE Yun-dong  YAN Zhen-xiang  YAO Jian-min
Institution:1.Jiangsu Province Support Software Engineering R&D Center for Modern Information Technology Application in Enterprise;Suzhou;215104;2.School of Computer Science and Technology;Soochow University;215006
Abstract:This paper presents an approach to translate OOV through the search engine and to mine the translation of OOV from local parallel corpora extracted from bilingual web pages.An improved Frequency Change Measurement which combines adjacent information method was used to generate MLUs(Multi-Lexical Units) and an approach using multi-features including a frequency-distance model and a transliteration model to select the correct translation.Besides,a mining system using a Maximum Entropy(ME) Classifier combines ...
Keywords:OOV translation  web mining  parallel corpora mining  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号