首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于编辑距离的中文组织机构名简称-全称匹配算法
引用本文:黄林晟,邓志鸿,唐世渭,王文清,陈凌.基于编辑距离的中文组织机构名简称-全称匹配算法[J].山东大学学报(理学版),2012,47(5):43-48.
作者姓名:黄林晟  邓志鸿  唐世渭  王文清  陈凌
作者单位:1. 北京大学信息科学技术学院,北京,100871
2. 北京大学信息科学技术学院,北京100871/北京大学信息科学技术学院机器感知与智能教育部重点实验室,北京100871
3. 中国高等教育文献保障系统(CALIS)管理中心,北京,100871
基金项目:国家“八六三”高技术研究发展计划基金资助项目(2009AA01Z136);国家自然科学基金资助项目(90812001);国家教育部“211工程”中国高等教育文献保障系统(CALIS)三期建设项目
摘    要:在面对中文语言环境下组织机构名简称-全称匹配这一具体问题时,经典的基于编辑距离进行字符串相似匹配方法的实用性有所下降。基于编辑距离的思想,提出了一种改进匹配算法:首先对简称和全称进行分词,以切合中文的语法结构特点;之后结合重定义的词汇语义相似度度量方法,修改编辑操作权重,并通过自适应学习的方式进一步修正;最后选择与简称编辑距离最小的全称作为匹配结果。实验结果表明,该算法匹配准确率比原始方法有较大提升。

关 键 词:文本挖掘  机器学习  编辑距离  组织机构名  简称-全称匹配
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号