首页 | 本学科首页   官方微博 | 高级检索  
     

面向词性标注的多资源转化研究
引用本文:高恩婷,巢佳媛,李正华. 面向词性标注的多资源转化研究[J]. 北京大学学报(自然科学版), 2015, 51(2): 328-334. DOI: 10.13209/j.0479-8023.2015.037
作者姓名:高恩婷  巢佳媛  李正华
作者单位:1. 苏州科学技术学院电子与信息工程学院, 苏州 215011; 2. 苏州大学计算机科学与技术学院, 苏州 215006;
基金项目:国家自然科学基金(61373095,61273319);江苏省博士后基金(1401075B);江苏省自然科学基金青年基金(BK20140355)资助
摘    要:利用多资源转化方法进行词性标注研究, 旨在将源端资源的标注进行转化, 以符合目标端标注规范, 进而将转化后的资源与目标资源合并, 增大训练数据规模。做了两方面创新: 在转化过程中, 额外利用指导特征的置信度信息; 在转化后的资源中, 用模糊标注表示方法减少错误标注。实验表明, 利用置信度信息能有效帮助转化, 而模糊标注表示方法的影响不大。

关 键 词:词性标注转化  条件随机场  词性标注  
收稿时间:2014-06-30

Conversion of Multiple Resources for POS Tagging
GAO Enting , CHAO Jiayuan , LI Zhenghua. Conversion of Multiple Resources for POS Tagging[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2015, 51(2): 328-334. DOI: 10.13209/j.0479-8023.2015.037
Authors:GAO Enting    CHAO Jiayuan    LI Zhenghua
Affiliation:1. College of Electronics & Information Engineering, Suzhou University of Science and Technology, Suzhou 215011; 2. School of Computer Science & Technology, Soochow University, Suzhou 215006;
Abstract:The authors propose an annotation conversion method using multiple resources for POS tagging, aiming to convert the source-side annotations into target-side and then combine the data to get larger training data. Two innovate strategies are proposed. The first strategy uses reliability information of guide features. The second strategy uses ambiguous labelings to improve the quality of converted data. Results demonstrate that the first strategy is helpful for annotation conversion while the second does little to conversion.
Keywords:annotation conversion  conditional random field  POS tagging
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《北京大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《北京大学学报(自然科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号