基于特征提取的连接词识别方法 |
| |
引用本文: | 汪蓉,李寿山,李生,周国栋.基于特征提取的连接词识别方法[J].山西大学学报(自然科学版),2014(4):564-569. |
| |
作者姓名: | 汪蓉 李寿山 李生 周国栋 |
| |
作者单位: | 苏州大学自然语言处理实验室; |
| |
基金项目: | 国家自然科学基金(61375073) |
| |
摘 要: | 篇章分析是自然语言处理中一个重要的研究方向。连接词的识别作为篇章分析中的一个基本任务,对后续的篇章分析起到关键作用。针对连接词识别方法中的高维度特征空间问题,提出了基于特征提取的连接词识别方法。具体来讲,引用多种特征提取方法(IG、MI、DF、CHI、WLLR)对连接词识别中所用的所有特征进行打分排序,提取排在前面的一定数量的特征用于分类。实验结果表明特征提取方法能够有效降低特征维度,在仅仅使用50%的特征的情况下能够获得类似甚至更佳的识别性能。
|
关 键 词: | 连接词识别 特征提取 特征维度 |
本文献已被 CNKI 等数据库收录! |
|