首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
介绍英汉机译中识别未登词的一种新方法,首先通过相似性测量,寻找与未登录词最相似单词;然后通过手工制作 的猜测规划,正确标注未登录词、测试结果说明,标注未登录词的三种性能指标分别为;大约93.8%的查全率,76.3%的查准率及94.1%覆盖率。在以大约91.7%的标注精确率识别未登录词的同时,获得增加至大约97.3%的整体标注精确率,从而改善英语分析性能,促进英汉机译质量提高。  相似文献   

2.
针对当前大多数词法分析系统流水线式处理方式存在的不足,提出一种一体化同步词法分析机制.在最长次长匹配分词的基础上,在切分有向图中增加词性信息和候选未登录词节点,并拓展隐马尔可夫模型,在切分有向图内同步完成分词、歧义消解、未登录词识别和词性标注等词法分析任务.实现了分词与词性标注的一体化、未登录词识别与分词的一体化以及不确定词性未登录词处理的一体化.一体化机制使词法分析中各步骤实现真正意义上的同步完成,充分利用上下文词法信息提高整体精度并保证了系统的高效性,避免了各步骤间的冲突.开放测试表明,系统综合测试的F值为98.03%.  相似文献   

3.
提出一种利用规则与统计相结合的方法用于英汉机译系统中以消解语义级歧义 ,建立了一种根据单词之间的词语搭配关系以消除歧义的模型。该模型利用英汉双语语料选择合理的词组语义 ,对有歧义的单词作出标注。在此基础上给出了语义消歧的学习算法 ,并建立了一套有效的提高召回率的消歧算法。算法在英汉机译系统中的实际应用使正确率提高了约 10 % ,效果显著。  相似文献   

4.
针对目前中文分词技术主要依赖于常用词词典,而词典对未登录词识别率较低的问题,提出一种用双词典识别未登录词的方法,即构建一个常用词词典和一个单字词词典,二者相互结合进行分词,有效解决了对未登录词识别效率偏低的问题.实验表明,采用构建单字词表法对未登录词的识别准确率可达90%以上.  相似文献   

5.
自动分词是中文信息处理的基础,而未登录词识别是影响分词系统准确率的最主要的因素.字母词语作为中文信息处理中的一类未登录词语,现有的分词软件仍不能有效识别.为此设计了一个规则 统计的自动标注算法,该算法首先对原文本进行扫描,依据字母串正则表达式取得合法的字母串;再以字母串为锚点,往两边扫描,依次调用前后界规则、汉字组成成分规则、例外校正规则,结合搭配概率矩阵对字母词语进行识别和标注.实验结果表明:该算法的召回率为100%,准确率约为92%.该算法不仅对中文自动分词有益,而且所开发的软件可用于建设字母词语知识库和对字母词语语言现象的考察研究.  相似文献   

6.
基于《现代汉语语义词典》,首先建立不同语义层次的词典,根据词典分别构建模型并进行语义预测,然后将各个模型进行集成,通过集成模型再对未登录词进行语义预测,得到较好的预测性能。利用预测模型对2000年《人民日报》语料进行未登录词语义预测和标注,最终得到带有未登录词语义义项标注的语料资源。  相似文献   

7.
中文搜索引擎中的分词技术研究   总被引:1,自引:0,他引:1  
分词模块是中文搜索引擎的一个重要组成部分,针对分词提出了一种最短路径与共首字歧义词概率的比较相结合的方法,首先寻找最短路径.如果最短路径不只一条,就比较共首字歧义词概率,选择概率较大的一条路径,效果非常明显.对未登录词识别提出了一种改进的移动窗口算法,在单字序列中移动窗口,并记录状态来寻找新词,能够识别大部分的未登录词.  相似文献   

8.
中文分词是中文信息处理领域的重要技术,现已成为中文信息处理研究中最成熟的领域.融合多策略的中文分词算法模型在字典匹配的基础上引入了标注统计和规则理解的优化策略,将已有的句法、语义研究应用到分词排歧与未登录词识别领域.通过实验对比,初步证实分词效果较好,达到模型分词的准确率和自适应性的提升.  相似文献   

9.
如何提高机器翻译效率并得到高质量的译文一直是机器翻译系统追求的主要目标。增强机译系统的学习功能是提高机译系统性能的一条有效途径,也是智能机译系统的一个重要组成部分。英汉智能机器翻译系统中交互处理机制是通过静态的知识重组和动态的在线学习,不断完善机译系统的知识库,在不降低批量处理效率的前提下,逐步提高机译系统的译文质量,文章重点介绍了英汉机译系统中交互机制的设计和实现。  相似文献   

10.
以学科教材术语语料库建设为目标,实现了一种基于底表的多层扫描术语自动标注算法.该算法首先采用预测性规则模板扫描文本中未登录术语,并进行标注;其次采用最大匹配方法识别出每个可能的候选术语,把每个候选术语看作术语的定位点,扫描其上下文语境,分别调用单位术语规则模板、例外规则、部件规则、部件例外规则、例外校正规则等对扫描结果进行判断,确定候选术语的身份,并进行标注.该方法以规则的预测和限定功能为辅,充分利用了底表术语信息,取得了较高的标注准确率和召回率,开放测试F-指数达到了84%左右.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号