首页 | 本学科首页   官方微博 | 高级检索  
     检索      

自动获取大规模的汉语紧密组合词汇关联对
引用本文:邱晗,周强.自动获取大规模的汉语紧密组合词汇关联对[J].清华大学学报(自然科学版),2011(9):1293-1297.
作者姓名:邱晗  周强
作者单位:清华大学信息技术研究院语音和语言研究中心;
基金项目:国家自然科学基金面上项目(60873173)
摘    要:词汇关联对(lexical cohesion pairs,LCP)是真实文本中出现的反映不同句法语义关联关系的实词组合对。可靠的词汇关联对可以在汉语文本的复合词分析、句法结构排歧、远距离依赖识别和语义排歧等研究中发挥重要作用。该文提出了一种将基本块分析和统计筛选相结合的处理方法,保证在较高的提取精度条件下,尽可能多地从大规模真实文本语料库中自动获取较可靠的汉语紧密组合词汇关联对。在约4 000万字规模的人民日报词语切分和词性标注库上进行的关联对获取实验结果表明:该方法可以在废弃35.6%的有效分析信息条件下,自动提取出约73万个汉语名和动名关联对,抽样提取精度达到了96%左右,显示了较好的处理效果。

关 键 词:词汇关联对  基本块分析  统计筛选  文本挖掘  知识获取

Large-scale automatic extraction of Chinese compound lexical cohesion pairs
QIU Han,ZHOU Qiang.Large-scale automatic extraction of Chinese compound lexical cohesion pairs[J].Journal of Tsinghua University(Science and Technology),2011(9):1293-1297.
Authors:QIU Han  ZHOU Qiang
Institution:QIU Han,ZHOU Qiang(Speech and Language Technologies R&D Center,Research Institute of Information Technology,Tsinghua University,Beijing 100084,China)
Abstract:Lexical cohesion pairs(LCP) are pairs of content words that can reflect different syntactic relationships in real texts.Credible lexical cohesion pairs play an important role in compound word analysis,syntactic disambiguation,long distance relationship recognition,and word sense disambiguation.This paper presents a method combining basic chunk parsing and statistics-based filtering to automatically extract credible LCP from a large corpus.Extraction tests on the 36 million word People's Daily corpus extract...
Keywords:lexical cohesion  basic chunk parsing  statistics-based filtering  text mining  knowledge acquisition  
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号