首页 | 本学科首页   官方微博 | 高级检索  
     检索      

从汉语切分的角度看名词的定名
引用本文:梁焰.从汉语切分的角度看名词的定名[J].中国科技术语,2000,2(2):27.
作者姓名:梁焰
作者单位:中国科学院计算所 北京 100080
摘    要:全国科学技术名词审定委员会给Internet起了一个中文名字——因特网,其他学科的规范名词也在不断公布、陆续完善。我们从事汉语自然语言处理工作的感到由衷的高兴。在信息技术迅速发展的今天,名词统一将使中文信息处理直接受益,这点显而易见。但从汉语切分的角度,我们感到专有名词的定名有一个原则性的问题值得探讨,并引起注意。词是构成句子的基本单位,也是表达概念的基本单元。汉语信息处理,第一步就是要切分出词,也就是要把句子中相对独立的概念分离出来。从汉英翻译的角度来看,把句子正确切分成词是正确翻译的前提。英语是以空格将词与词分隔开来,汉语词与词之间则没有分隔符。对应于英文单词的是汉语的词,而不是字(单字词例外),如“学生”对应于“student”,“杀害”对应于“kill”。如下列句子:天气预报说明天下雨。这时计算机可能有两种切分方式:(1)天气 预报 说明 天下 雨。(2)天气 预报 说 明天 下雨。显然,正确的切分应该选(2)。为了有利于切分正确,专有名词应该尽可能回避使用有独立意义的常用字(如下文中的“里”),及构词能力较强的常用字(如下文中的“因”,“混”),尽量选用一些构词能力不太活跃或使用频率较低的字,以利于体现专有之意。例如: 我喜欢在大海里游泳。因为计算机词库里有“海里”这个词,于是可能产生错误切分:大 海里。再如,“混沌”(Chaos)是当今很活跃的理论。但若有这样的句子:他是搞混沌的。则机器就会面临两难境地:(1)他 是 搞混 沌 的。(2)他 是 搞 混沌的。“混”这个字可以跟在一个动词后面组成一个动补结构的词,如“搞混”,“弄混”等。或许定名为“浑沌”更好些,因为“浑”的构词能力比“混”弱些。同样,因特网的“因”字也是属于能够独立使用的比较常见的字,能组成原因、起因、成因、内因、外因、因素、因式等许多常用词。不如当初选用“莱茵河”的“茵”字更佳。人名的命名也是如此。回避常用词是应该注意的问题之一。例如某人叫“李国庆”。当遇到李国庆出差了。计算机一定会翻译为Li went on business on the National Day。再例如报载有一位名叫“许多”的曲艺家最近刚刚去世。报纸报道许多同志是黑龙江省白城市人。这样带来的问题不仅计算机处理起来很困难,即使是人来区分,也易造成误解。当然,切分问题是语言信息处理的一大难点,不应该只靠名词术语定名时回避常见字完全解决。况且,名词命名有多种因素需要权衡考虑,不能只考虑有利于汉语信息处理这一点。但如果人们定名时有意识地注意这个问题的存在,并尽可能加以避免,就能减轻一些现代语言信息处理的困难。一词一义,专词专用,尽量减少歧义性,无疑能使人们思维更加清晰,交流起来更加便利。


Viewing the Denomination of Terms from the Angle of Chinese Sentence Segmentation
Liang Yan.Viewing the Denomination of Terms from the Angle of Chinese Sentence Segmentation[J].Chinese Science and Technology Terms Journal,2000,2(2):27.
Authors:Liang Yan
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
点击此处可从《中国科技术语》浏览原始摘要信息
点击此处可从《中国科技术语》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号