首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 518 毫秒
1.
根据计算术语学的原理,使用有限状态转移网络对单词型术语进行自动分析。首先以英语术语为例,介绍了有限状态转移网络的基本原理和分析过程,然后分别讨论了德语、法语和汉语的单词型术语的自动分析问题,最后讨论了分析结果的表示形式。  相似文献   

2.
我们在《汉语单词型术语的结构》(见本刊2004年第1期)一文中讨论的内容仅仅限于汉语中的单词型术语。然而,在一个术语系统中,绝大多数的术语都是词组型术语。我1986年在德国夫琅禾费研究院研制的“英汉数据处理术语数据库”GLOT—C中,词组型术语的比例占了75.17%。在其他的术语数据库中,也有同样盼隋况。为什么词组型术语会成为术语系统中全部术语的大多数呢?这是由“术语形成的经济律”造成的。因为每当出现新的概念的时候,人们往往不是重新造一个新的单词型术语来表示它,而是把原有的单词型术语结合起来,构成词组型术语来表示它。这样.虽然新的概念源源不断地出现,但是,术语系统可以在保持原来的单词型术语的数量基本不变的前提下。把原有的单词型术语结合起来表达新的概念,从而保证术语系统的经济性,这就使得在一个术语系统中。词组型术语的数量占压倒的优势。  相似文献   

3.
我国许多学者喜欢把术语叫做“名词”。这种叫法是极不确切的。事实上,相当数量的术语并不是名词,而是由名词或其它单词构成的词组。现代科学技术日新月异地发展,新的科学概念层出不穷,人们不可能给每一个新出现的概念都用一个新的单词来命名它,在大多数情况下,是采用原有的单词构成词组来表示新的概念,这样,就会形成许多以词组为形式的术语,它们叫做词组型术语。从目前发展的趋势来看,词组型术语越来越多,在整个术语系统中占了很大的一部分。这几乎成了现代术语发展的一个规律。我在1986-1988年间,受中国科学院和中国社会科学院的派遣,在联邦德国夫琅禾费研究院新信息技术与通讯系统研究部研究汉语的术语问题,使用VAX11/750计算机和UNIX操作系统以及INGRES关系数据库建立了中文术语数据库GLOT-C,该术语数据库收了国际标准ISO-2382从1975年以来的全部有关数据处理的术语,共计1510条。这些术语可以分为两类:一类是单词型术语,一类是词组型术语。单词型术语是只由一个单词构成的术语。如名词术语、动词术语等等。在GLOT-C术语数据库中,单词型术语只有375条,其中包括:名词术语:244条,如“数据”。动词术语:53条,如“打印”。名动同形词术语:75条,如“输入”。名形同形词术语:2条,如“对称”。名限同形词术语:1条(“限”指限定词),如“顺序”。在GLOT-C术语数据库的375条单词型术语中,名词术语只有244条。词组型术语是由单词组合而成的术语。如名词词组术语、动词词组术语等等。在GLOT-C术语数据库中,词组型术语有1135条,其中包括;名词词组术语:838条,如“计算机/程序”。动词词组术语:31条,如“改变/转储”。形容词词组术语:27条,如“自动/的”。名动同形词词组术语:239条,“信息/处理”。词组型术语占了全部术语的75.17%,单词型术语占了全部术语的24.83%,而名词术语只占了全部术语的16.15%。可见,在整个术语系统中,名词术语并不占优势,把术语称为名词,显然是不恰当的。如果我们从语言学的观点来看术语系统,那么,我们可以看出,单词只不过是术语的构成材料(它既是词组型术语的构成材料,也是单词型术语的构成材料),而术语(包括词组型术语和单词型术语)则是由这些构成材料形成的产品。因此,可以说,一切术语都是由单词构成的。在GLOT-C术语数据库中的1510条单词型术语和词组型术语,都是由858个不同的单词构成的。这858个单词,与1510条术语的数量比较起来,只是一个较少的数目。这种由少量的单词构成大量的术语的语言现象,反映了语言使用中的经济原则,我们把它叫做“术语形成的经济律”。早在十九世纪初年,德国杰出的语言学家和人文学者洪堡德(Von Humboldt,1767-1835)就观察到“语言是有限手段的无限运用”。但是,由于当时尚未找到能够证实这种论断的技术工具和方法,这种论断只是停留在假设的阶段。今天,我们有了电子计算机这个有力的技术工具,通过科学实验和数学计算来检验这个大胆假设的时机已经成熟。“术语形成的经济律”正是“语言是有限手段的无限运用”这一假设的一个科学实例。术语系统中单词数目是有限的,而由单词构成的词组型术语和单词型术语的数目却是无限的。由少量的有限的单词构成大量的无限的术语,这正是“有限手段的无限运用”这一原理在术语学中的具体表现。可见,“术语形成的经济律”是一个有着深刻的语言学和哲学背景的普遍性规律。在本文中,我们将讨论术语形成的经济律的三个基本概念:术语系统的经济指数、单词的术语构成频率和术语的平均长度。并且提出“FEL公式”来描述这三个基本概念之间的关系。一、术语系统的经济指数为了说明什么是术语系统的经济指数以及术语系统的经济规律,需要先定义如下的初始概念:1、系统的术语数:在一个术语系统中,不同的术语的总数,也就是术语系统的容量。系统的术语数用T表示,它的单位是“条”。2、单词的绝对频率:在术语系统中,某一单词的出现次数(或使用次数)。单词的绝对频率用α表示,它的单位是“次”。3、不同单词数:具有同一频率的不同单词的数目。不同单词数用ν表示,它的单位是“词”。4、不同单词总数:在术语系统中,具有不同绝对频率的不同单词的总数。不同单词总数用W表示,它的单位是“词”。不同单词总数的计算公式是:W=Σν5、运行单词数:具有同一绝对频度的不同单词ν和它的绝对频度α的乘积。运行单词数用ρ表示,它的单位是“词次”。运行单词数的计算公式是:ρ=αν6、运行单词总数:具有不同绝对频率的运行单词的总数。运行单词总数用R表示,它的单位是“词次”。运行单词总数的计算公式是R=Σραν术语系统的经济指数就是系统的术语数T被不同单词总数W来除所得的商。术语系统的经济指数用E来表示,这样,我们有如下公式:E=T/W……………………………………………………(1)E的单位是“条/词”,读为“每词多少条”。在大多数术语系统中,E>1;如果E≤1,则说明术语系统设计的经济效应不高。例如,在术语系统GLOT-C中,T=1510,W=858,则该系统的经济指数E为:E=T/W=1510/858=1.76这说明,当术语系统有1510条术语时,每个单词平均可构成1.76条术语。可见,这个术语系统具有较高的经济效应,也就是说,在该系统中,每个单词构成的术语条数较多。术语系统的经济指数的高低,受到系统中术语数的强烈影响。随着系统的术语数的增加,术语系统的经济指数也逐渐升高,在我们设计的“数据处理中文术语数据库”GLOT-C中,当系统的术语数为500条,不同单词数为342个词时,其经济指数为1.46;当系统的术语数增加到1000条,不同单词数增加到588个词时,其经济指数也增加到1.70;当系统的术语数进一步增加到1510条,不同单词数进一步增加到858个词时,其经济指数也进一步增加到1.76,如下表所示:这种情况,可图示如下:在一定的学科领域内,如果具有大量术语条目的术语系统具有较高的经济指数,那么,这个系统必定具有大量的由少数基本单词构成的词组型术语,而这些词组型术语构成了该术语系统的主要部分。二、单词的术语构成频率在术语系统中,每个单词的绝对频率并不是一样的。有的单词经常使用,叫做高频词,有的单词不常使用,叫做低频词。随着术语条目的增加,高频词的数目一般来说也相应地增加,而新词出现的可能性越来越小。这时,尽管术语的条数还继续增加,不同单词总数增加的速率却越来越小,而高频词则反复地出现。在术语数T与不同单词总数W之间,存在着如下的函数关系:W=Φ(T)这种函数关系可粗略地用下图表示:术语系统的高频词越多,则由这些高频词构成的术语也越多,单词构成术语的这种能力,叫做单词的术语构成频率。单词的术语构成频率就是在一个术语系统中运行单词的总数R被不同单词数W来除所得商。单词的术语构成频度用F表示。这样,我们有下面的公式:F=R/W…………………………………………………(2)F的单位是“次”。事实上,因为R的单位是“词次”,W的单位是“词”,所以F的单位就是“词次/词”,它恰恰等于“次”。F的值不能小于1,即F≥1;对于同一个术语系统来说,单词的术语构成频率F不能小于术语系统的经济指数E,即E≤F,因为我们总是有T≤R。在我们设计的“数据处理中文术语数据库”GLOT-C中,1510条术语的运行单词总数为3216个,而构成这1510条术语的不同单词总数为858个,即R=3216,W=858,这样,我们有:F=R/W=3216/858=3.75这说明,当GLOT-C系统的术语数为1510条时,其单词的术语构成频率为3.75,也就是说,平均每个单词可以出现3 75次。因此,这个值也可以代表这些单词构成术语的平均频率。单词的术语构成频率也受到术语系统中术语数的影响。在GLOT-C术语数据库中,当术语数为500条时(T=500),单词的频率表如下:在这种情况下, W=Σ ν=342并且 R=Σ ρ=987因此 F=R/W=987/342=2.89当系统中的术语数为1000条(T=1000)时,单词的频率表如下:在这种情况下 W=Σ ν=588并且 R=Σ ρ=2072因此 F=R/W=2072/588=3.52当系统的术语数为1510条(T=1510)时,单词的频率表如下:在这种情况下, W=Σ ν=858并且 R=Σ ρ=3216因此 F=R/W=3216/858=3.75我们可得到如下的表:从表中可看出,随着系统中术语数的增加,单词的术语构成频率也相应地增加,图示如下:在上图中,虚线表示系统的经济指数E的变化情况,实线表示单词的术语构成频率F的变化情况,如果术语数T相同,单词的术语构成频率F的值不小于系统的经济指数E的值,即F≥E。仅当术语数T=1,系统中只有一个单词时,F等于E,在其它场合,F永远大于E。从上面三个频率表中还可看出,随着单词绝对频率α的增加,具有同一绝对频率的不同的单词的数目ν相应地减小,这种关系可用下图来描述;这说明,在一个术语系统中,高频词只占了不同单词总数的一小部分,而它们却能构成大量的术语。例如,在“数据处理中文术语数据库GLOT-C中当术语数T为1510条时,绝对频率大于10的高频词只有62个,而它们的出现次数却是1342词次,由这些高频词构成的运行词总数占了全部的运行词总数的41 4%。术语系统中的高频词越多,则该系统中单词的术语构成频率也就越高。三、术语的平均长度包含在术语中的单词数,叫做术语的长度。在一个术语系统中,术语的最小长度为1单词型术语的长度永远等于1,每个单词型术语只能包含一个单词。例如,“程序”这个单词型术语的长度为1。词组型术语的长度永远大于1。例如,“程序/设计”这个词组型术语的长度为2,“数字/字符/子集”这个词组型术语的长度为3,“条件/控制/转移/指令”这个词组型术语的长度为4,“平均/无/故障/工作/时间”这个词组型术语的长度为5,……等等。从术语经济原则的观点看来,术语的长度太长,不便于使用和记忆,因而,我们有必要研究术语的长度问题。从术语系统的整体来看,还应该研究术语的平均长度。在一个术语系统中,术语的平均长度就是运行单词总数R被术语数T来除所得的商。术语的平均长度用L表示。计算公式为:L=R/TL的单位是“词次/条”,读为“每条多少词次”。L的值永远不小于1,即L≥1,在每一个术语都只由一个单词构成的术语系统中,L=1,在其它场合,L>1。在我们设计的“数据处理中文术语数据库”GLOT-C中,R=3216,T=1510,所以,该系统的术语平均长度为:L=R/T=3216/1510=2。130这意味着,在GLOT-C中,当术语数等于1510条时,平均每条术语由2 130个单词构成,即每条术语中含有2.130词次。随着术语系统中术语数的增加,术语的平均长度也有增加的趋势。在GLOT-C系统中,当术语数为500条时,术语的平均长度为1.974词次/条;当术语数为1000条时,术语得平均长度为2.072词次/条;当术语数为1510条时,术语的平均长度为2.130词次/条。当然,术语的平均长度不能太长,每个术语系统都能在其运行过程中,不断地把术语的平均长度调节到最佳值。在这个调节的过程中,某些太长的术语被淘汰了,某些较短的术语变长了,这样,术语的平均长度就可以保持相对的稳定。四、术语构成的经济律——FEL公式前面我们讨论了术语构成的三个主要概念:术语系统的经济指数E、单词的术语构成频率F和术语的平均长度L。现在我们进一步研究这三个概念之间的关系。仔细观察GLOT-C术语数据库的实验数据,我们可以发现:术语系统的经济指数E与术语的平均长度L的乘积与单词的术语构成频率之值是近似地相等的。实验数据如下:当T=500时,我们有E×L=2.88304,而这时F=2.89;当T=1000时,我们有E×L=3.52140,而这时F=3.52;当T=1510时,我们有E×L=3.74880,而这时F=3.75。可以看出,E×L之值与F之值几乎是相等的。根据这些实验数据,我们可以在E、F和L之间建立如下的数学关系:或者 E×L=F F=EL事实上,由于 E=T/W (1)以及 F=R/ W (2)(2)÷(1)得到 F/E=R/T (3)根据术语平均长度的定义,我们有 L=R/T (4)比较(3)与(4),可以得到: F/E=L因此,可有 F=EL这就是上面的FEL公式。由此,我们可以作出结论:在一个术语系统中,术语系统的经济指数E与术语的平均长度L的乘积恰恰等于单词的术语构成频率F之值。我们把这个规律,叫做“术语形成的经济律”。从FEL公式,我们还可得到如下的推论:1、在一个术语系统中,当术语的平均长度L一定时,单词的术语构成频率F与术语系统的经济指数E成正比。术语系统的经济指数越高,单词的术语构成频率也越高。这时,FEL公式变为:F=k1Ek1是一个常数。这说明,为了提高术语系统的经济指数,应该增加单词的术语构成频率,使得每个单词能构成更多的术语。2、在一个术语系统中,当系统的经济指数E一定时,单词的术语构成频率F与术语的平均长度L成正比。术语的平均长度越长,单词的术语构成频率越高。这时,FEL公式变为:F=k2Lk2是一个常数。这说明,为了提高单词的术语构成频率,必须增加术语的平均长度,因为系统的经济指数是一定的,每个单词只能被包含到有限数目的术语之中,所以,只有增加术语的平均长度。3、在一个术语系统中,当单词的术语构成频率F一定时,系统的经济指数E与术语的平均长度L成反比。系统的经济指数的增加将会引起术语平均长度的缩小,而系统的经济指数的减少将会引起术语平均长度的增长。这时,FEL公式变为:EL=k3k3是一个常数。这说明,在不改变单词的术语构成频率的条件下,如果我们想提高术语系统的经济指数使得每个单词能够构成更多的术语,那么,我们只好从原有的术语中,抽出一些单词来构成新的术语,这样,术语的平均长度就缩短了。因为在这种情况下,运行单词总数是不变的,我们必须从原有的术语中,一般是从较长的术语中,抽出一部分单词来造成新的术语,而这将引起术语数目的增加。其结果,术语系统的某些术语中所包含的单词数可能会减少,而新术语的长度不可能太长,因而系统中术语的平均长度就缩短了。由此可见,FEL公式反映了术语系统的经济指数、单词的术语构成频率以及术语的平均长度之间的相互依存和相互制约的关系,这个公式是支配着术语的形成和变化的一个经济规律。从FEL公式,我们可得到:E=F/L由此我们可知,提高术语系统的经济指数的方法有两个:1、在不改变单词的术语构成频率的条件下,缩短术语的平均长度;2、在不改变术语的平均长度的条件下,提高单词的术语构成频率。一般地说,在一个术语系统中,最好不要过大的改变术语的平均长度,术语的平均长度改变过大,往往会使术语系统改变到人们难以辨认的程度。由于这个原因,我们最好不要使用缩短术语平均长度的方法来提高术语系统的经济指数。看来,提高术语系统的经济指数的最好方法,还是在尽量不过大地改变术语的平均长度的前提下,增加单词的术语构成频率,这样,在术语形成的过程中,将会产生大量的词组型术语,使得词组型术语的数量大大地超过单词型术语的数量,而成为术语系统中的大多数。在我们设计的“数据处理中文术语数据库”GLOT-C中,词组型术语占了75.17%。这个事实,正是术港形成的经济律作用的结果。而术语形成的经济律又是洪堡德提出的“语言是有限手段的无限运用”这一普遍假设在现代术语学中的实际体现和科学证明。  相似文献   

4.
分析了单词型术语和词组型术语在术语数据库GLOT—C中的分布,试图从理论上解释在术语系统中词组型术语占大多数的这一重要术语现象,在此基础上提出了“术语形成的经济律”,并且用FEL公式来描述这个定律。  相似文献   

5.
分析了单词型术语和词组型术语在术语数据库GLOT-C中的分布,试图从理论上解释在术语系统中词组型术语占大多数的这一重要术语现象,在此基础上提出了“术语形成的经济律”,并且用FEL公式来描述这个定律。   相似文献   

6.
汉语单词型术语的结构   总被引:1,自引:0,他引:1  
术语是人类科学技术知识在语言中的结晶。术语必须通过语言才能表现出来,从语言学的角度来看,科学技术术语可以分为两类:一类是单词型术语,一类是词组型术语。词组型术语都是由单词组合而成的。要理解词组型术语的结构,首先必须了解单词型术语的结构。  相似文献   

7.
我们在《汉语单词型术语的结构》(见本刊2004年第1期)一文中讨论的内容仅仅限于汉语中的单词型术语。然而,在一个术语系统中,绝大多数的术语都是词组型术语。我1986年在德国夫琅禾费研究院研制的“英汉数据处理术语数据库”GLOT-C中,词组型术语的比例占了75.17%。在其他的术语数据库中,也有同样的情况。为什么词组型术语会成为术语系统中全部术语的大多数呢?这是由“术语形成的经济律”造成的。因为每当出现新的概念的时候,人们往往不是重新造一个新的单词型术语来表示它,而是把原有的单词型术语结合起来,构成词组型术语来表示它。这样,虽然新的概念源源不断地出现,但是,术语系统可以在保持原来的单词型术语的数量基本不变的前提下,把原有的单词型术语结合起来表达新的概念,从而保证术语系统的经济性,这就使得在一个术语系统中,词组型术语的数量占压倒的优势。正因为词组型术语占术语系统的大多数,在我们研究汉语单词型的结构的同时,还有必要研究汉语词组型术语的结构。1.词组型术语的构成方式汉语的词组型术语是由汉语的词组构成,因此,我们首先要研究汉语中词组的构成规律。了解了汉语词组的结构,也就可以了解词组型术语的结构。词组是由词和词组合而成的。汉语词组的构成方式主要有以下6种,它们同时也就是汉语词组型术语的构成方式,下面的例子主要是关于数据处理的词组型术语:①联合结构:词组中的两个词是并列的,形成一种并列关系。例如,字母/数字,输出/输入。②偏正结构:词组中的两个词,前一个是修饰语,后一个是中心语,形成一种偏正关系。例如,数据/媒体,一元/算子,对称/误差,多重/穿孔,实时/运算。③述宾结构:词组中的两个词,前一个是述语,后一个是宾语,形成一种述语对宾语的支配关系。例如,编制/程序,转移/指令,改变/转储,控制/操作,归并/排序。④述补结构:词组中的两个词,前一个是述语,后一个是补语,形成一种补充关系。例如,解释/清楚,读/出。述补结构的术语很少。⑤主谓结构:词组中的两个词,前一个是主语,后一个是谓语,形成一种陈述关系。例如,程序/检测,标记/读出,系统/测试,数据/处理,存储/分配。⑥重叠结构:词组中的两个词,后一个词是前一个词的重叠,形成一种重叠关系。例如,研究/研究,调试/调试,试验/试验。音译式和音译意译式的术语几乎都是单词型术语,很少有词组型的术语,这里不再讨论。2.汉语中语素、词和词组的界线黏附语素不能独立使用,不是词,自由语素可以独立使用,所以,自由语素同时又是单纯词。从语素的角度看,它是自由语素,从词的角度看,它是单纯词。观察的角度不一样,名称不同,实质则是一样的。在语素与词这两个集合之间,有一个交集 (intersection),这个交集就是自由语素,如果从词的角度看,它们又可以叫做单纯词。由此可见,语素和词之间的界限基本上是可以区分清楚的,黏附语素绝不可能是词,合成词也不可能是单个的语素,语素和词之间的交集,从语素的角度看是自由语素,从词的角度看是单纯词。然而,合成词和词组之间的界限就不是那么容易区分清楚了。从前面所举的例子可以看出,合成词的构成方式与词组的构成方式有许多一致的地方。可列表比较如下:合成词的构成方式与词组的构成方式的这种一致性,使得汉语的语法规则易学易记,对汉语的学习是有好处的,可是,这种一致性也往往导致合成词与词组的界限不甚分明,使我们难于判断一个结构究竟是合成词还是词组。如果一个结构由两个黏附语素构成,必定是合成词,不可能是词组。例如,“劳”是黏附语素,“损” 也是黏附语素,它们结合而成的“劳损” 必是合成词,不可能是词组。如果一个结构由一个黏附语素和一个自由语素构成,必定是合成词,不可能是词组。例如,“劳” 是黏附语素,“动” 是自由语素,他们结合而成的“劳动”必定是合成词,不可能是词组。含有前缀的“老师”,“老虎” 等结构,也必定是合成词,不可能是词组,因为前缀是黏附语素。含有后缀的结构“桌子”,“作者”,“忽然”,也必定是合成词,不可能是词组,因为后缀是黏附语素。但是,如果一个结构由两个自由语素组成,问题就比较复杂。如果组成结构的两个自由语素都是双音节语素或多音节语素,那么,它们必定是词组,不是合成词。例如,“模糊” 是双音节自由语素,“逻辑” 也是双音节自由语素,由它们构成的“模糊逻辑” 必定是词组,不是合成词。如果组成结构的两个自由语素,一个是双音节语素,一个是单音节语素,那么,就不容易判定这个结构是合成词还是词组。例如,“机器” 是双音节自由语素,“人” 是单音节自由语素,由它们结合而成的“机器人” ,有人认为应该是合成词,因为它表示一个整体概念。但是,“调” 是单音节自由语素,“程序” 是双音节自由语素,由它们构成的“调程序” 却很难认为是一个合成词,有许多人认为它是一个述宾结构的词组。可见,当构成结构的两个自由语素中,有一个单音节语素,就可能使合成词和词组的界限变得模糊起来,难于判定。如果构成结构的两个自由语素都是单音节语素,那么,合成词和词组的界限就更加模糊,更加难于判定。例如,当单音节自由语素“大” 与另外的单音节自由语素“会,军,陆,脑,好,红”组成“大会,大军,大陆,大脑”时,有人会认为前后语素之间结合得很紧密,应该是合成词。但是,当“大”与另外的单音节自由语素 “鱼,河,船” 组成“大鱼,大河,大船”时,可能就会有人觉得前后语素之间结合得不很紧密,它们不太像合成词,而似乎应该是词组了。又如,表示陈述关系的结构“洗澡,鞠躬,游泳,理发”,看来似乎是合成词。可是,有时,其中的语素可以分离开来:洗澡——洗了一次澡鞠躬——鞠了一个躬游泳——游了一次泳理发——理了一次发这时,它们似乎又不像是合成词。究竟是合成词还是词组,难于判定。我们可以把语素、词和词组的区别进行比较:从这个表中可以看出:①任何一个结构单元,可以根据“是否有意义”,“是否为最小单位”,“能否独立运用”,“包含语素数”,“包含单词数”等 5 个性质来鉴别。这5个性质之间的关系是逻辑上的合取关系 (∧),也就是说,每一个结构单元,要同时根据这5个性质来鉴别,如果仅仅根据其中的某一个性质或者某几个性质,是不可能鉴别清楚的。②自由语素与单纯词的性质完全一样,它们在实质上是一个东西。③合成词与词组的前面4个性质都相同,只有最后一个性质(即“包含单词数”)不同,合成词只包含一个单词,而词组则包含两个或两个以上的单词;可是,由于自由语素同时又可以看成单纯词,因此,当合成词由两个自由语素组成时,也可以把它看成是由两个单纯词组成的,这样,合成词就变成词组了。可见,从理论上说,合成词与词组的分界问题并没有解决,因此,单词型术语中的合成词与词组型术语的分界问题也没有解决。这种理论上的缺陷,必然会在汉语术语数据库的开发的实践中,引起种种的矛盾和困难。特别是当我们用计算机自动处理术语数据的时候,常常使我们处于进退维谷的境地。由于科技发展日新月异,科技术语的数量与日俱增,如何从真实的科学技术文献中自动地抽取术语,成为一个重要而迫切的问题。而要从真实文本中自动抽取术语,就必须对科学技术文献的文本进行自动切分,找出词与词之间的界限,这样的技术,叫做汉语文本的自动切分(automatic segmentation)。显而易见,在汉语文本的自动切分中,必须首先鉴别文本中的合成词与词组,词组需要切分,而合成词则不需要切分。合成词与词组的分界问题解决不好,将会给文本的自动切分带来巨大的困难。我们在术语的研究中,应该注意这个问题,研究出切实可行的解决办法。这是现代术语学研究的一个难点。3.多个单词组成的词组型术语上面列举的词组型术语只包含两个单词,还有包含两个以上单词的词组型术语,这些词组型术语的结构就复杂得多了。有的词组型术语是由3个单词构成的。例如,“控制/转移/指令”,“字母/编码/字符集”,“大/容量/存储器”,“面向/对象/语言”,“自动/数据/处理”,“直接/插入/子程序”,“抽点/打印/程序”。“多数/决定/运算”,“条件/隐含/运算”,“二进制/布尔/运算”。有的词组型术语是由4个单词构成的。例如,“字母/数字/字符/子集”,“字母/数字/编码/字符集”,“连续/顺序/计算/装置”,“组/传输/结束/字符”,“二五/混合/进制/码”,“基数/减/一/补码”,“每位/一/芯/存储器”,“自动/送/卡/穿孔机”。此外还有由更多的单词构成的词组型术语,就不再一一列举了。这样复杂的词组型术语需要采用现代语言学的原理和方法来进行分析,把它们的结构表示为树形图(tree graph),从而揭示其中隐含的句法关系和语义关系,使我们对于它们的结构获得比较清楚的认识。目前,采用自然语言处理技术,在大规模的真实语料库中自动地提取术语(包括单词型术语和词组型术语),并进一步提取在术语中蕴藏着的语言知识和科学知识,已经成为自动知识挖掘(automatic knowledge mining)和自动知识获取(automatic knowledge extract)的一个非常重要的研究领域。在这样的研究中,如何自动地分析词组型术语的结构,如何辨别词组型术语的几何歧义,是正确地进行知识获取的重要手段。我们希望我国的术语学研究能够关心这些问题,把术语学研究与自然语言处理技术结合起来。注释: *冯志伟教授是全国科学技术名词审定委员会委员。  相似文献   

8.
正为术语定名时,经常碰到的难题是如何选词,是直接借用表达其他概念的已有术语,还是使用少数基本单词构成词组型术语,又或者新造一个名词。1997年,冯志伟先生提出"术语形成的经济律",清晰描述了上述问题,并科学回答了它,对实践产生了重要指导意义。冯志伟先生发现,一般性情况下,译者往往会充分利用译语中既有的术语或术语要素创造一些复合型译名,而不会总是另起炉灶再创新词,这样一来,词组型术语的数量通常明显多  相似文献   

9.
术语,可以分成形式上为一个词的单词型术语和形式上为一个词组的词组型术语。一、单词型术语从结构组成上看,不外乎以下几种情形。1.由单纯词构成1)单音节的 例如:“幂、群、熵、场、力、势、功、根、相”等2)多音节的 这种情形多是音译外来词。例如:“安培、伏特、欧姆、拓扑”等。2.由合成词构成这其中又包括复合式、派生式两种。1)复合式 术语中的复合式结构主要表现为:a.联合型:由两个语素并列、相反、相对而成。如:信息、语言、本原、存在、运动、阻抗、质量、断裂、拗陷。b.偏正型:其中的一个语素用以说明另一个语素的特性或状态。例如:日斑、地线、鼻音、盆地、史前、内焰、复眼、纵波、串联、胎生、辐射、涡流、共振、共鸣、稀释。一般地说,绝大多数由偏正型构成的限制性术语,都与该术语中的后一个语素属于同一个语义类别,只是存在着范围大小的差异。例如,“复眼”是“眼”的一种,只不过是复式的罢了,“眼”的所指范围显然比“复眼”的所指范围大。只有极少数的情况例外,如在“碳黑、铬绿、铬黄、铜绿、铁兰”等术语中,后一个语素表颜色而整个术语却是表示矿物的,整个术语的意义与后一个语素的意义各不相同。c.动宾型:前一个是动词性语素,后一个是名词性语素,前者支配后者。比如:还原、守恒、失真、移项、检波、穿脉、变位、涌潮、倾角、断层、载波、导频、结晶。d.补充型:一个语素对另外一个语素作补充性说明,如:“合成、隆起、调谐“等。有时,前一语素表示事物,后一语素是这一事物的计量单位,如“星座、光束、壳层”等,这亦属于补充型,它们通常表示事物的通称。e.主谓型:前一个是名词性语素,后一个是动词性或形容词性语素,彼此之间存在陈说、说明的关系。如:位移、语用、电流、质变、磁滞、磁阻、色散。2)派生式 在主要语素上附加前缀或后缀而成的合成词就是派生式。如:反函数、反作用、非导体、非零解、多相、逆反应、准光波、类金属、半群、散度、速率、极化、迭代法、场论、超导性、单原子。二、词组型术语除单词型术语之外,词组型术语现也已大量出现。据粗略的统计,词组型术语约占化学学科术语的71.5%、数学学科术语的71.2%。词组型术语在化学、数学还有其他各学科中都占有非常明显的优势。出现这种局面并非偶然。科学文化日新月异的发展,使得新事物、新概念层出不穷。人们在给新出现的科学概念命名时,不可能都选用“词”这一表达方式,因为词表达的单义概念毕竟有限。欲以有限的“词”来表达无限增长的新概念,必然会引起多义,从而最终导致术语使用的混乱。但是,词组则不然,它通过词与词的组合,可以表达无限多的单义概念。因而在大多数情况下,新出现的科学概念都是用词组来标志的。词组型术语在各学科专业中占绝对优势也就不足为怪了。词组型术语在结构上表现为下列各类:1.偏正词组充当的词组型术语例如:全息光栅、复式励磁、器质性精神病、病毒性脑膜炎、软弱结构面、反双曲函数、非标准模型。2.由主谓词组充当的词组型术语例如:地磁异常、重力异常、离子注入、水质评介、水动力弥散。3.由并列词组充当的词组型术语如“三线半角”等。虽然,不论上述的哪一种结构都可以用来而且事实上也被用来创制科学术语,然而,这并不意味着,所有这些结构在适应术语创制的能力上是相等的。无论是单词型术语还是词组型术语,其中的限制性偏正结构都占据主要地位。例如地质学中限制性结构的术语约占单词型术语的66.6%,约占词组型术语的86.9%。这表明,术语各结构中以限制性的为最多。我们以为,这种情况是由限制性偏正结构自身的特点决定的。限制性结构词语本身都是通过词素或词对中心词素或词加以限定说明来表达概念的,意义明确而且单一,这就为术语单义地表达概念提供了最大的方便和可能;而且,词素或词对中心词素或词的限定说明又可以是多角度的。正因为如此,限制性结构往往很容易被用来创制出术语。无疑,偏正型结构也是术语创制过程中的首选结构。偏正型结构中,词素或词对中心词素或词的限定说明的角度,粗略说来,就达17种之多,具体表现为:1)从领属的角度加以说明 例如:圆周、圆弧、球面、柱面、层面。2)从处所的角度加以说明 例如:希腊历、北极星、大理岩、南极圈。3)从形状方面说明 例如:直线、折线、长方形、扇形。4)从质料的角度说明 例如:硅钢、氧气、淀粉、晶体管、氢弹。5)从动力方面说明 例如:电话、电灯、蒸汽机、核潜艇。6)从原因方面说明 例如:药疹、寿斑、褥疮。7)从性质方面说明 例如:冷云、切线、纵波、流行性感冒。8)从方式角度说明 例如:胎生、串联、电导、衍射、复式励磁。9)从用途方面说明 例如:导线、变压器、避雷针、蓄电池。10)从数量方面说明 例如:三角、四边形、双曲线、多糖、单键、复眼、半径。11)从序数方面说明 例如:伯胺、仲胺、叔胺、甲烷、乙烷、丙烷、丁烷、第三系。12)从方位角度说明 例如:外角、旁心、中线、南极、东径、对顶角。13)从程度方面说明 例如:极矩、微星、巨星、高云、短波、遥控。14)从颜色方面说明 例如:黄道、灰光、白道、黑洞、赤道。15)从发明或发明者名字的角度加以说明 例如:高斯—克吕格投影、居里点、马赫数、科里奥力。16)从所属的角度说明 例如:调类、声部、骨科。17)从比拟方面说明 例如:银河、天鹅座、珠母云、芥子气、罗盘座。我们说偏正型结构是术语创制过程中的首选结构,这一点只是就单词型术语中的复合式结构和词组型术语而言的。如果术语创制过程中选择了单纯词或采用派生式,那自然就不存在结构选择问题了。  相似文献   

10.
根据计算术语学的原理,使用短语结构语法对词组型术语进行了自动句法分析。通过具体的实例,介绍了两种基于短语结构语法的剖析方法——自底向上剖析和自顶向下剖析。  相似文献   

11.
俄语军语综合了语言学和军事科学的双重特点。俄语军语从形态层面看,有单个词、缩略词和多词形式;从词性层面看,以名词和名词短语为主,也存在着部分动词词组;从意义层面看,多义术语比较少,但在一些新词容易产生歧义的场景下,还需要进行辨析,以排除错误理解。这些特点使得在理解和翻译俄语军语时,必须先解决诸如调整词序与译法选择等问题。在翻译专业性和领域性较强的文本时,正确使用术语,对译文进行规范化处理,能够大幅提升翻译的准确度与工作效率,而建设一个在线的可共享的术语知识库正是推进术语规范化建设的方法之一。  相似文献   

12.
为避免气象术语中出现循环定义、定义不协调、定义与术语不匹配、定义重复术语名称或使用代词等问题,运用术语学原理分析,提出研制术语时要注意“语料收集、定义研制、术语分类、辨析关系”的对策建议,这对提高术语研制质量,增强表达交流效果,完善气象标准体系具有重要作用。  相似文献   

13.
人文学科学术术语因其附带价值、情感、信念等诸多主观因素而解释多歧,难以取得共识。从术语的自身语言特点和命名问题方面解释了这一现象,提出对理解一词重新认识,并在此基础上指出术语应从语词、概念和定义三个方面综合考虑,从而获得对本民族术语和外来术语的深入理解,避免因译名问题而产生的不必要的困扰。  相似文献   

14.
陈菁 《科技术语研究》2013,(6):38-40,42
术语翻译是科技翻译的基础,而近义术语的辨析尤为重要.在生物医学领域中,invitro和既ex vivo在学术论文的翻译中常常被混用.文章从词素、英文释义和真实语境中的使用三个方面辨析二者的差异.  相似文献   

15.
人文学科学术术语因其附带价值、情感、信念等诸多主观因素而解释多歧,难以取得共识。从术语的自身语言特点和命名问题方面解释了这一现象,提出对“理解”一词重新认识,并在此基础上指出术语应从语词、概念和定义三个方面综合考虑,从而获得对本民族术语和外来术语的深入理解,避免因译名问题而产生的不必要的困扰。  相似文献   

16.
为提高我国术语翻译的准确性,文章讨论以下8个问题:①应当区分概念性术语与非概念性术语;②应当坚持对概念性术语的“专词专译”;③正确处理术语翻译中的“一词多译”问题;④正确处理“同义词翻译”;⑤正确地表达“词组型术语”的构成;⑥保护音译术语的文化意义;⑦在术语翻译中应当精于炼宇;⑧建立有助于提高我国术语准确性的术语管理体制。  相似文献   

17.
文章分析英语医学术语新词的来源、构词方式和定名原则,并结合汉语语词的特点,提出汉译医学英语术语新词时应该遵循的原则。  相似文献   

18.
从“立交桥”这一术语存在的多种英译着手分析,对这些英译词逐一进行辨析并找出其原因,在此基础上探究目前术语翻译方面所存在的问题,为术语翻译提供一定的指导意义。  相似文献   

19.
新型冠状病毒肺炎在全球的迅速蔓延,让我们深刻意识到突发公共卫生危机中应急医疗和社会治理之外,应急知识和语言服务的重要性。以词表开发和术语管理等形式提供的术语支援是应急语言服务的一种重要方式和途径,是保障精确沟通、顺畅传播的必要条件。文章从应急语言服务视角出发,利用Sketch Engine语料库工具,从COVID-19语料库中提取出364条新冠肺炎英语单词术语和176条多词术语,以期助力于新冠疫情的防控。从本次新冠肺炎专题词表的开发实践中,文章总结出以目的为导向的学术词表制作流程,并提出学术词表的后续研究方向,为应急语言服务中的术语支援提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号