首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 83 毫秒
1.
书面汉语自动分词及歧义分析   总被引:8,自引:0,他引:8  
歧义现象是自动分词过程中不可避免的现象,本文通过对自动分词过程的分析,总结出书面汉语自动分词中歧义产生的根源,提出处理这些歧义字段的方法.  相似文献   

2.
基于特征词的自动分词研究   总被引:3,自引:0,他引:3  
拓展了特征词的范畴,提出了基于特征词的汉语自动分词方法,将特征词作为切分依据,采用“分而治之”的策略,以对单句或短语进行不断细分的方式来实现自动分词.由于处理单位的缩小降低了待分材料的分词复杂度,因此可以有效地提高切分的正确率.  相似文献   

3.
对于自动翻译研究而言,首要任务是建立语言的机器词典.这一机器词典是多语言的,它包括汉语、英语机器词库.自动翻译中单词与词组的分析和处理涉及多方面的问题.这是本文探讨的主要内容.  相似文献   

4.
自然语言理解涉及的技术很多.现讨论其中的三部分:第一部分讨论自动分词,阐述了自动分词需要解决的问题;第二部分设计了一个快速的直接映射式检索算法;第三部分初步探讨了汉语文摘生成处理的一个方法.  相似文献   

5.
王巍 《中州大学学报》2007,24(1):120-122
汉语的自动分词是汉语语言处理的基础,本文讨论了汉语自动分词歧义问题的产生与分类,重点研究了交集型歧义字段的排歧策略,实现了一种基于Perl的汉语自动分词方法,在比较同种算法的VC 实现上,结果显示基于Perl的实现具有简洁和高效的优点。  相似文献   

6.
汉语分词技术研究现状与应用展望   总被引:8,自引:0,他引:8  
汉语自动分词是计算机中文信息处理系统的基础和难题,本文对近年来的汉语自动分词的研究方法与成果进行了分析综述。探讨了分词中存在的一些关键问题,同时介绍了分词技术在科研以及商用系统中的应用。并展望了未来分词技术在应用方向的发展.  相似文献   

7.
词切分是像汉语这类非拉丁语言的一个特有问题,并且由于汉语组词中普遍存在着岐义性和语境依赖性,这一问题也是一个尚未得到彻底解决的难题。本文通过仔细分析汉语分词岐义的规律,将追求整体最优效果的松驰算法引入到汉语自动分词的排岐研究中。借助于语词之间搭配关系等上下文约束条件以及词频、字频等统计数据,构造了一种汉语分词排岐的新方法。实验结果表明,这种方法在切分精度和切分速度上都取得了较好的效果,为解决汉语自动分词难题提供了一种新途径。  相似文献   

8.
本文利用限定词词组假设描述和解释中国学生在学习,使用英语冠词时所面临的困难。文章包括:(1)描述两种以往相关研究;(2)限定词词组的定义及在处理名词词组结构中的作用;(3)比较汉语和英语的限定词词组及指出中国学生所遇到的困难;(4)提出一种较为有效的解决方法,限定词词组揭示了句法层次上英语汉语限定词词组的异同,使中国学生能更好地意识到他们在使用冠词时所遇到的困难,并通过有效的方法解决这些问题。  相似文献   

9.
《自然科学进展》2007,17(3):414-414
近日,中国科学技术大学生命科学学院陈林教授领导的课题组在听觉认知研究领域取得最新进展,他们通过对母语为汉语的人群如何感知汉语声调的深入研究,证明了在听觉认知处理的早期阶段决定大脑半球优势的因素是听觉信号的声学特性,而不是听觉信号的功能.该研究成果发表在12月19日出版的国际著名学术期刊《美国科学院院刊》(PNAS)上.该杂志的审稿人说,这项工作利用了汉语具有声调的特点,为解决语言认知处理领域中长期存在的争论做出了贡献.它填补了关于大脑在早期认知阶段如何处理语言研究中的一个空白,具有重要的理论意义.  相似文献   

10.
首先分析了自动分词方法的基本假设和实现途径以及现有方法的不足之处,然后介绍汉语自然语言整体处理信息框架和在自然语言整体处理框架中自动分词方法,最后给出实验结果  相似文献   

11.
检索技术发展很快,许多研究难点的存在给计算机应用增加了困难.本文的工作有三部分:第一部分分析了文本信息的检索方法;第二部分探讨了图象信息的特征处理;第三部分讨论了图象检索方法.  相似文献   

12.
随着internet的发展,网上各种新词语的创建和发展也超过以往任何时候,新词语的自动识别一直是中信息处理中的一个热点研究课题,研究了网上新词语的自动识别技术,主要研究内容是利用初加工语料,采用分解策略将N元组候选词库的形成分为预处理、二元候选字段,三元候选字段、四元候选字段几个过程,降低了整体处理难度,提出了一种以规则剔除噪声词串和构词相结合的新词语的识别技术。  相似文献   

13.
中文分词是中文信息处理的基础、前提和关键.通过分析已有的中文分词算法,提出了一种新的分词词典机制,并根据新的分词词典机制提出了一种快速双向中文分词算法.使用该算法可以实现快速查找和双向匹配,从而极大地提高中文分词的速度和准确率.  相似文献   

14.
针对目前中文分词技术主要依赖于常用词词典,而词典对未登录词识别率较低的问题,提出一种用双词典识别未登录词的方法,即构建一个常用词词典和一个单字词词典,二者相互结合进行分词,有效解决了对未登录词识别效率偏低的问题.实验表明,采用构建单字词表法对未登录词的识别准确率可达90%以上.  相似文献   

15.
消解中文三字长交集型分词歧义的算法   总被引:18,自引:0,他引:18  
汉语自动分词在中文信息处理现实应用中占据着十分重要的位置。三字长交集型分词歧义是分词歧义的主要类型之一,在真实文本中的出现频率相当高。提出了一种针对这种分词歧义的消解算法,回避了训练代价比较高昂的词性信息而仅仅利用了词的概率信息及某些具有特定性质的常用字集合。从一个60万字的汉语语料库中抽取出全部不同的三字长交集型分词歧义共5367个作为测试样本。实验结果表明,该算法的消解正确率达到了92.07%,基本可以满足实用型中文信息处理系统的需要。  相似文献   

16.
通过搭建Hadoop平台,将MapReduce编程思想应用到中文分词的处理过程中,使中文分词技术在云计算环境中实现。研究可以在保证原来分词准确率的基础上,显著提高中文分词的处理速度。  相似文献   

17.
中文切分词典的最大匹配索引法   总被引:3,自引:0,他引:3  
提高自然语言词典的检索速度是提高计算机处理系统速度的重要途径,考虑到汉语语词的切分中使用词典的特点,参考“Trie索引”方法,提出了一种多层次的词典索引结构和最大匹配待渣汉字串的检索方法,使用这种方法,切分系统每次都能查到所需,大大提高了切分的工作效率,在查一个登录的词时,也较一般的方法快。  相似文献   

18.
基于同音词研究的现状,从词形一同一异同音词的类型出发,并结合同义词、异体词和同音词之间的音义关系,分析它们之间的区别以及造成同音词难以区分的原因,有利于促进现代汉语和对外汉语的教学和研究。  相似文献   

19.
针对单片机原理及应用课程中存在的一些教与学的难点问题 ,例如 ,如何处理硬件电路部分 ,如何加深理解及记忆“控制字” ,如何逐步提高学生综合运用能力等 ,结合自身的教学实践 ,提出了一些较有成效地教授方式和方法  相似文献   

20.
机器翻译涉及的技术很多,许多研究难点的存在给我国计算机应用增加了困难.本文的工作有四部分:第一部分介绍了机器翻译的理论模型;第二部分探讨了上下文无关文法;第三部分讨论自底向上和自顶向下分析法,设计了一个算法;第四部分阐述了转移网络和递归转移网络的方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号