首页 | 本学科首页   官方微博 | 高级检索  
     

搜索引擎用短语词典建设
引用本文:吕学强,苏祺,孙斌,俞士汶. 搜索引擎用短语词典建设[J]. 清华大学学报(自然科学版), 2005, 45(9): 1892-1895
作者姓名:吕学强  苏祺  孙斌  俞士汶
作者单位:北京大学,计算语言学研究所,北京,100871;北京信息科技大学,中文信息处理研究中心,北京,100101;北京大学,计算语言学研究所,北京,100871
基金项目:国家"八六三"高技术项目(2002AA117010-8);国家自然科学基金资助项目(60203022)
摘    要:百度搜索引擎分词系统中的原短语库是由统计得出,含有大量噪音.委托北京大学计算语言学研究所进行了手工整理标注.为此设计了加工规范,对短语进行了严格的定义,制定了加工操作手册,并开展了手工工程,通过严格的控制保证标注的一致性.共整理短语119984条,噪音短语比例约占7%.当前该短语词典已应用于百度搜索引擎中,对提高检索效果和减少索引空间都起到一定作用.

关 键 词:搜索引擎  语言资源  短语词典  中文分词  标注
文章编号:1000-0054(2005)S1-1892-04
修稿时间:2005-05-20

Constructing phrase dictionary for search engine
L Xueqiang,SU Qi,SUN Bin,YU Shiwen. Constructing phrase dictionary for search engine[J]. Journal of Tsinghua University(Science and Technology), 2005, 45(9): 1892-1895
Authors:L Xueqiang  SU Qi  SUN Bin  YU Shiwen
Affiliation:L(U) Xueqiang,SU Qi,SUN Bin,YU Shiwen
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号