首页 | 本学科首页   官方微博 | 高级检索  
     

利用高频词和互信息面向特定领域提取多字词表达
引用本文:刘荣,王丽娟,张志平,赵小兵. 利用高频词和互信息面向特定领域提取多字词表达[J]. 太原理工大学学报, 2009, 40(3)
作者姓名:刘荣  王丽娟  张志平  赵小兵
作者单位:1. 北京语言大学,应用语言学研究所,北京100083;太原理工大学,文法学院外语系,山西,太原,030024
2. 太原理工大学,计算机与软件学院,山西,太原,030024
3. 北京语言大学,应用语言学研究所,北京100083
4. 中央民族大学,北京,100038
摘    要:在阐述了多字词表达定义的基础上,对面向特定领域的多字词表达提取的技术路线进行了详细说明.以大规模的真实文本为研究对象,利用领域高频词和互信息统计量提取多字词表达,确定了多字词表达的最大提取长度,并通过停用词表法对候选多字词表达进行噪声处理.实验结果表明:笔者提出的方法在处理对象规模、效率等方面均有所提高.

关 键 词:多字词表达  特定领域  高频词  互信息

The Extraction of Multiword Expression in Special Field with High Frequency Words and Mutual Information
LIU Rong,WANG Li-juan,ZHANG Zhi-ping,ZHAO Xiao-bing. The Extraction of Multiword Expression in Special Field with High Frequency Words and Mutual Information[J]. Journal of Taiyuan University of Technology, 2009, 40(3)
Authors:LIU Rong  WANG Li-juan  ZHANG Zhi-ping  ZHAO Xiao-bing
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号