首页 | 本学科首页   官方微博 | 高级检索  
     检索      

多语种投资信息抽取系统的实现
引用本文:李芳,盛焕烨,张冬茉.多语种投资信息抽取系统的实现[J].上海交通大学学报,2004,38(1):21-25.
作者姓名:李芳  盛焕烨  张冬茉
作者单位:上海交通大学,计算机科学与工程系,上海,200030
基金项目:国家自然科学基金资助项目(60083003)
摘    要:多语种投资信息抽取实验系统可以用中文、英文和德文的关键字或限定的自然语言问句查询语料库中的中文投资信息.它由语言处理模块、查询处理模块、信息抽取核心和动态交互获取模块组成.其主要特点:基于语种无关的模板和与语种有关的模式,实现不同语种信息抽取处理的一致性;事先定义的抽取模板结合动态获取的模板,来弥补信息抽取技术依赖于固定模板的缺陷,增加系统的健壮性.系统抽取的各个槽的平均精度为86.27%.动态获取模板的精度为85.27%,如果人工对约5个例句修改,动态交互获取模板的精度可达88.55%,提高了3%左右.

关 键 词:模板生成  信息抽取  多语种信息抽取  Internet应用
文章编号:1006-2467(2004)01-0021-05
修稿时间:2002年12月22

Realization of a Multilingual Investment Information Extraction System
LI Fang,SHENG Huan-ye,ZHANG Dong-mo.Realization of a Multilingual Investment Information Extraction System[J].Journal of Shanghai Jiaotong University,2004,38(1):21-25.
Authors:LI Fang  SHENG Huan-ye  ZHANG Dong-mo
Abstract:A multilingual investment information extraction system was realized based on templates and patterns. The system features the uniform processing for different languages and the combination of predefined templates and dynamic generated templates, which makes the system easy to extend its application domain and enhance its robust. The average precision of informtion extraction is 86.27%, the precision for dynamic generated templates is about 85.27%. If corrections are made manually on 5 examples only, the precision for templates generation may increase by about 3%.
Keywords:template generation  information extraction  multilingual information extraction  Internet (application)  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号