首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
根据计算术语学的原理,使用有限状态转移网络对单词型术语进行自动分析。首先以英语术语为例,介绍了有限状态转移网络的基本原理和分析过程,然后分别讨论了德语、法语和汉语的单词型术语的自动分析问题,最后讨论了分析结果的表示形式。  相似文献   

2.
我们在《汉语单词型术语的结构》(见本刊2004年第1期)一文中讨论的内容仅仅限于汉语中的单词型术语。然而,在一个术语系统中,绝大多数的术语都是词组型术语。我1986年在德国夫琅禾费研究院研制的“英汉数据处理术语数据库”GLOT—C中,词组型术语的比例占了75.17%。在其他的术语数据库中,也有同样盼隋况。为什么词组型术语会成为术语系统中全部术语的大多数呢?这是由“术语形成的经济律”造成的。因为每当出现新的概念的时候,人们往往不是重新造一个新的单词型术语来表示它,而是把原有的单词型术语结合起来,构成词组型术语来表示它。这样.虽然新的概念源源不断地出现,但是,术语系统可以在保持原来的单词型术语的数量基本不变的前提下。把原有的单词型术语结合起来表达新的概念,从而保证术语系统的经济性,这就使得在一个术语系统中。词组型术语的数量占压倒的优势。  相似文献   

3.
汉语单词型术语的结构   总被引:1,自引:0,他引:1  
术语是人类科学技术知识在语言中的结晶。术语必须通过语言才能表现出来,从语言学的角度来看,科学技术术语可以分为两类:一类是单词型术语,一类是词组型术语。词组型术语都是由单词组合而成的。要理解词组型术语的结构,首先必须了解单词型术语的结构。  相似文献   

4.
我国许多学者喜欢把术语叫做“名词”。这种叫法是极不确切的。事实上,相当数量的术语并不是名词,而是由名词或其它单词构成的词组。现代科学技术日新月异地发展,新的科学概念层出不穷,人们不可能给每一个新出现的概念都用一个新的单词来命名它,在大多数情况下,是采用原有的单词构成词组来表示新的概念,这样,就会形成许多以词组为形式的术语,它们叫做词组型术语。从目前发展的趋势来看,词组型术语越来越多,在整个术语系统中占了很大的一部分。这几乎成了现代术语发展的一个规律。我在1986-1988年间,受中国科学院和中国社会科学院的派遣,在联邦德国夫琅禾费研究院新信息技术与通讯系统研究部研究汉语的术语问题,使用VAX11/750计算机和UNIX操作系统以及INGRES关系数据库建立了中文术语数据库GLOT-C,该术语数据库收了国际标准ISO-2382从1975年以来的全部有关数据处理的术语,共计1510条。这些术语可以分为两类:一类是单词型术语,一类是词组型术语。单词型术语是只由一个单词构成的术语。如名词术语、动词术语等等。在GLOT-C术语数据库中,单词型术语只有375条,其中包括:名词术语:244条,如“数据”。动词术语:53条,如“打印”。名动同形词术语:75条,如“输入”。名形同形词术语:2条,如“对称”。名限同形词术语:1条(“限”指限定词),如“顺序”。在GLOT-C术语数据库的375条单词型术语中,名词术语只有244条。词组型术语是由单词组合而成的术语。如名词词组术语、动词词组术语等等。在GLOT-C术语数据库中,词组型术语有1135条,其中包括;名词词组术语:838条,如“计算机/程序”。动词词组术语:31条,如“改变/转储”。形容词词组术语:27条,如“自动/的”。名动同形词词组术语:239条,“信息/处理”。词组型术语占了全部术语的75.17%,单词型术语占了全部术语的24.83%,而名词术语只占了全部术语的16.15%。可见,在整个术语系统中,名词术语并不占优势,把术语称为名词,显然是不恰当的。如果我们从语言学的观点来看术语系统,那么,我们可以看出,单词只不过是术语的构成材料(它既是词组型术语的构成材料,也是单词型术语的构成材料),而术语(包括词组型术语和单词型术语)则是由这些构成材料形成的产品。因此,可以说,一切术语都是由单词构成的。在GLOT-C术语数据库中的1510条单词型术语和词组型术语,都是由858个不同的单词构成的。这858个单词,与1510条术语的数量比较起来,只是一个较少的数目。这种由少量的单词构成大量的术语的语言现象,反映了语言使用中的经济原则,我们把它叫做“术语形成的经济律”。早在十九世纪初年,德国杰出的语言学家和人文学者洪堡德(Von Humboldt,1767-1835)就观察到“语言是有限手段的无限运用”。但是,由于当时尚未找到能够证实这种论断的技术工具和方法,这种论断只是停留在假设的阶段。今天,我们有了电子计算机这个有力的技术工具,通过科学实验和数学计算来检验这个大胆假设的时机已经成熟。“术语形成的经济律”正是“语言是有限手段的无限运用”这一假设的一个科学实例。术语系统中单词数目是有限的,而由单词构成的词组型术语和单词型术语的数目却是无限的。由少量的有限的单词构成大量的无限的术语,这正是“有限手段的无限运用”这一原理在术语学中的具体表现。可见,“术语形成的经济律”是一个有着深刻的语言学和哲学背景的普遍性规律。在本文中,我们将讨论术语形成的经济律的三个基本概念:术语系统的经济指数、单词的术语构成频率和术语的平均长度。并且提出“FEL公式”来描述这三个基本概念之间的关系。一、术语系统的经济指数为了说明什么是术语系统的经济指数以及术语系统的经济规律,需要先定义如下的初始概念:1、系统的术语数:在一个术语系统中,不同的术语的总数,也就是术语系统的容量。系统的术语数用T表示,它的单位是“条”。2、单词的绝对频率:在术语系统中,某一单词的出现次数(或使用次数)。单词的绝对频率用α表示,它的单位是“次”。3、不同单词数:具有同一频率的不同单词的数目。不同单词数用ν表示,它的单位是“词”。4、不同单词总数:在术语系统中,具有不同绝对频率的不同单词的总数。不同单词总数用W表示,它的单位是“词”。不同单词总数的计算公式是:W=Σν5、运行单词数:具有同一绝对频度的不同单词ν和它的绝对频度α的乘积。运行单词数用ρ表示,它的单位是“词次”。运行单词数的计算公式是:ρ=αν6、运行单词总数:具有不同绝对频率的运行单词的总数。运行单词总数用R表示,它的单位是“词次”。运行单词总数的计算公式是R=Σραν术语系统的经济指数就是系统的术语数T被不同单词总数W来除所得的商。术语系统的经济指数用E来表示,这样,我们有如下公式:E=T/W……………………………………………………(1)E的单位是“条/词”,读为“每词多少条”。在大多数术语系统中,E>1;如果E≤1,则说明术语系统设计的经济效应不高。例如,在术语系统GLOT-C中,T=1510,W=858,则该系统的经济指数E为:E=T/W=1510/858=1.76这说明,当术语系统有1510条术语时,每个单词平均可构成1.76条术语。可见,这个术语系统具有较高的经济效应,也就是说,在该系统中,每个单词构成的术语条数较多。术语系统的经济指数的高低,受到系统中术语数的强烈影响。随着系统的术语数的增加,术语系统的经济指数也逐渐升高,在我们设计的“数据处理中文术语数据库”GLOT-C中,当系统的术语数为500条,不同单词数为342个词时,其经济指数为1.46;当系统的术语数增加到1000条,不同单词数增加到588个词时,其经济指数也增加到1.70;当系统的术语数进一步增加到1510条,不同单词数进一步增加到858个词时,其经济指数也进一步增加到1.76,如下表所示:这种情况,可图示如下:在一定的学科领域内,如果具有大量术语条目的术语系统具有较高的经济指数,那么,这个系统必定具有大量的由少数基本单词构成的词组型术语,而这些词组型术语构成了该术语系统的主要部分。二、单词的术语构成频率在术语系统中,每个单词的绝对频率并不是一样的。有的单词经常使用,叫做高频词,有的单词不常使用,叫做低频词。随着术语条目的增加,高频词的数目一般来说也相应地增加,而新词出现的可能性越来越小。这时,尽管术语的条数还继续增加,不同单词总数增加的速率却越来越小,而高频词则反复地出现。在术语数T与不同单词总数W之间,存在着如下的函数关系:W=Φ(T)这种函数关系可粗略地用下图表示:术语系统的高频词越多,则由这些高频词构成的术语也越多,单词构成术语的这种能力,叫做单词的术语构成频率。单词的术语构成频率就是在一个术语系统中运行单词的总数R被不同单词数W来除所得商。单词的术语构成频度用F表示。这样,我们有下面的公式:F=R/W…………………………………………………(2)F的单位是“次”。事实上,因为R的单位是“词次”,W的单位是“词”,所以F的单位就是“词次/词”,它恰恰等于“次”。F的值不能小于1,即F≥1;对于同一个术语系统来说,单词的术语构成频率F不能小于术语系统的经济指数E,即E≤F,因为我们总是有T≤R。在我们设计的“数据处理中文术语数据库”GLOT-C中,1510条术语的运行单词总数为3216个,而构成这1510条术语的不同单词总数为858个,即R=3216,W=858,这样,我们有:F=R/W=3216/858=3.75这说明,当GLOT-C系统的术语数为1510条时,其单词的术语构成频率为3.75,也就是说,平均每个单词可以出现3 75次。因此,这个值也可以代表这些单词构成术语的平均频率。单词的术语构成频率也受到术语系统中术语数的影响。在GLOT-C术语数据库中,当术语数为500条时(T=500),单词的频率表如下:在这种情况下, W=Σ ν=342并且 R=Σ ρ=987因此 F=R/W=987/342=2.89当系统中的术语数为1000条(T=1000)时,单词的频率表如下:在这种情况下 W=Σ ν=588并且 R=Σ ρ=2072因此 F=R/W=2072/588=3.52当系统的术语数为1510条(T=1510)时,单词的频率表如下:在这种情况下, W=Σ ν=858并且 R=Σ ρ=3216因此 F=R/W=3216/858=3.75我们可得到如下的表:从表中可看出,随着系统中术语数的增加,单词的术语构成频率也相应地增加,图示如下:在上图中,虚线表示系统的经济指数E的变化情况,实线表示单词的术语构成频率F的变化情况,如果术语数T相同,单词的术语构成频率F的值不小于系统的经济指数E的值,即F≥E。仅当术语数T=1,系统中只有一个单词时,F等于E,在其它场合,F永远大于E。从上面三个频率表中还可看出,随着单词绝对频率α的增加,具有同一绝对频率的不同的单词的数目ν相应地减小,这种关系可用下图来描述;这说明,在一个术语系统中,高频词只占了不同单词总数的一小部分,而它们却能构成大量的术语。例如,在“数据处理中文术语数据库GLOT-C中当术语数T为1510条时,绝对频率大于10的高频词只有62个,而它们的出现次数却是1342词次,由这些高频词构成的运行词总数占了全部的运行词总数的41 4%。术语系统中的高频词越多,则该系统中单词的术语构成频率也就越高。三、术语的平均长度包含在术语中的单词数,叫做术语的长度。在一个术语系统中,术语的最小长度为1单词型术语的长度永远等于1,每个单词型术语只能包含一个单词。例如,“程序”这个单词型术语的长度为1。词组型术语的长度永远大于1。例如,“程序/设计”这个词组型术语的长度为2,“数字/字符/子集”这个词组型术语的长度为3,“条件/控制/转移/指令”这个词组型术语的长度为4,“平均/无/故障/工作/时间”这个词组型术语的长度为5,……等等。从术语经济原则的观点看来,术语的长度太长,不便于使用和记忆,因而,我们有必要研究术语的长度问题。从术语系统的整体来看,还应该研究术语的平均长度。在一个术语系统中,术语的平均长度就是运行单词总数R被术语数T来除所得的商。术语的平均长度用L表示。计算公式为:L=R/TL的单位是“词次/条”,读为“每条多少词次”。L的值永远不小于1,即L≥1,在每一个术语都只由一个单词构成的术语系统中,L=1,在其它场合,L>1。在我们设计的“数据处理中文术语数据库”GLOT-C中,R=3216,T=1510,所以,该系统的术语平均长度为:L=R/T=3216/1510=2。130这意味着,在GLOT-C中,当术语数等于1510条时,平均每条术语由2 130个单词构成,即每条术语中含有2.130词次。随着术语系统中术语数的增加,术语的平均长度也有增加的趋势。在GLOT-C系统中,当术语数为500条时,术语的平均长度为1.974词次/条;当术语数为1000条时,术语得平均长度为2.072词次/条;当术语数为1510条时,术语的平均长度为2.130词次/条。当然,术语的平均长度不能太长,每个术语系统都能在其运行过程中,不断地把术语的平均长度调节到最佳值。在这个调节的过程中,某些太长的术语被淘汰了,某些较短的术语变长了,这样,术语的平均长度就可以保持相对的稳定。四、术语构成的经济律——FEL公式前面我们讨论了术语构成的三个主要概念:术语系统的经济指数E、单词的术语构成频率F和术语的平均长度L。现在我们进一步研究这三个概念之间的关系。仔细观察GLOT-C术语数据库的实验数据,我们可以发现:术语系统的经济指数E与术语的平均长度L的乘积与单词的术语构成频率之值是近似地相等的。实验数据如下:当T=500时,我们有E×L=2.88304,而这时F=2.89;当T=1000时,我们有E×L=3.52140,而这时F=3.52;当T=1510时,我们有E×L=3.74880,而这时F=3.75。可以看出,E×L之值与F之值几乎是相等的。根据这些实验数据,我们可以在E、F和L之间建立如下的数学关系:或者 E×L=F F=EL事实上,由于 E=T/W (1)以及 F=R/ W (2)(2)÷(1)得到 F/E=R/T (3)根据术语平均长度的定义,我们有 L=R/T (4)比较(3)与(4),可以得到: F/E=L因此,可有 F=EL这就是上面的FEL公式。由此,我们可以作出结论:在一个术语系统中,术语系统的经济指数E与术语的平均长度L的乘积恰恰等于单词的术语构成频率F之值。我们把这个规律,叫做“术语形成的经济律”。从FEL公式,我们还可得到如下的推论:1、在一个术语系统中,当术语的平均长度L一定时,单词的术语构成频率F与术语系统的经济指数E成正比。术语系统的经济指数越高,单词的术语构成频率也越高。这时,FEL公式变为:F=k1Ek1是一个常数。这说明,为了提高术语系统的经济指数,应该增加单词的术语构成频率,使得每个单词能构成更多的术语。2、在一个术语系统中,当系统的经济指数E一定时,单词的术语构成频率F与术语的平均长度L成正比。术语的平均长度越长,单词的术语构成频率越高。这时,FEL公式变为:F=k2Lk2是一个常数。这说明,为了提高单词的术语构成频率,必须增加术语的平均长度,因为系统的经济指数是一定的,每个单词只能被包含到有限数目的术语之中,所以,只有增加术语的平均长度。3、在一个术语系统中,当单词的术语构成频率F一定时,系统的经济指数E与术语的平均长度L成反比。系统的经济指数的增加将会引起术语平均长度的缩小,而系统的经济指数的减少将会引起术语平均长度的增长。这时,FEL公式变为:EL=k3k3是一个常数。这说明,在不改变单词的术语构成频率的条件下,如果我们想提高术语系统的经济指数使得每个单词能够构成更多的术语,那么,我们只好从原有的术语中,抽出一些单词来构成新的术语,这样,术语的平均长度就缩短了。因为在这种情况下,运行单词总数是不变的,我们必须从原有的术语中,一般是从较长的术语中,抽出一部分单词来造成新的术语,而这将引起术语数目的增加。其结果,术语系统的某些术语中所包含的单词数可能会减少,而新术语的长度不可能太长,因而系统中术语的平均长度就缩短了。由此可见,FEL公式反映了术语系统的经济指数、单词的术语构成频率以及术语的平均长度之间的相互依存和相互制约的关系,这个公式是支配着术语的形成和变化的一个经济规律。从FEL公式,我们可得到:E=F/L由此我们可知,提高术语系统的经济指数的方法有两个:1、在不改变单词的术语构成频率的条件下,缩短术语的平均长度;2、在不改变术语的平均长度的条件下,提高单词的术语构成频率。一般地说,在一个术语系统中,最好不要过大的改变术语的平均长度,术语的平均长度改变过大,往往会使术语系统改变到人们难以辨认的程度。由于这个原因,我们最好不要使用缩短术语平均长度的方法来提高术语系统的经济指数。看来,提高术语系统的经济指数的最好方法,还是在尽量不过大地改变术语的平均长度的前提下,增加单词的术语构成频率,这样,在术语形成的过程中,将会产生大量的词组型术语,使得词组型术语的数量大大地超过单词型术语的数量,而成为术语系统中的大多数。在我们设计的“数据处理中文术语数据库”GLOT-C中,词组型术语占了75.17%。这个事实,正是术港形成的经济律作用的结果。而术语形成的经济律又是洪堡德提出的“语言是有限手段的无限运用”这一普遍假设在现代术语学中的实际体现和科学证明。  相似文献   

5.
分析了单词型术语和词组型术语在术语数据库GLOT—C中的分布,试图从理论上解释在术语系统中词组型术语占大多数的这一重要术语现象,在此基础上提出了“术语形成的经济律”,并且用FEL公式来描述这个定律。  相似文献   

6.
分析了单词型术语和词组型术语在术语数据库GLOT-C中的分布,试图从理论上解释在术语系统中词组型术语占大多数的这一重要术语现象,在此基础上提出了“术语形成的经济律”,并且用FEL公式来描述这个定律。   相似文献   

7.
我们在《汉语单词型术语的结构》(见本刊2004年第1期)一文中讨论的内容仅仅限于汉语中的单词型术语。然而,在一个术语系统中,绝大多数的术语都是词组型术语。我1986年在德国夫琅禾费研究院研制的“英汉数据处理术语数据库”GLOT-C中,词组型术语的比例占了75.17%。在其他的术语数据库中,也有同样的情况。为什么词组型术语会成为术语系统中全部术语的大多数呢?这是由“术语形成的经济律”造成的。因为每当出现新的概念的时候,人们往往不是重新造一个新的单词型术语来表示它,而是把原有的单词型术语结合起来,构成词组型术语来表示它。这样,虽然新的概念源源不断地出现,但是,术语系统可以在保持原来的单词型术语的数量基本不变的前提下,把原有的单词型术语结合起来表达新的概念,从而保证术语系统的经济性,这就使得在一个术语系统中,词组型术语的数量占压倒的优势。正因为词组型术语占术语系统的大多数,在我们研究汉语单词型的结构的同时,还有必要研究汉语词组型术语的结构。1.词组型术语的构成方式汉语的词组型术语是由汉语的词组构成,因此,我们首先要研究汉语中词组的构成规律。了解了汉语词组的结构,也就可以了解词组型术语的结构。词组是由词和词组合而成的。汉语词组的构成方式主要有以下6种,它们同时也就是汉语词组型术语的构成方式,下面的例子主要是关于数据处理的词组型术语:①联合结构:词组中的两个词是并列的,形成一种并列关系。例如,字母/数字,输出/输入。②偏正结构:词组中的两个词,前一个是修饰语,后一个是中心语,形成一种偏正关系。例如,数据/媒体,一元/算子,对称/误差,多重/穿孔,实时/运算。③述宾结构:词组中的两个词,前一个是述语,后一个是宾语,形成一种述语对宾语的支配关系。例如,编制/程序,转移/指令,改变/转储,控制/操作,归并/排序。④述补结构:词组中的两个词,前一个是述语,后一个是补语,形成一种补充关系。例如,解释/清楚,读/出。述补结构的术语很少。⑤主谓结构:词组中的两个词,前一个是主语,后一个是谓语,形成一种陈述关系。例如,程序/检测,标记/读出,系统/测试,数据/处理,存储/分配。⑥重叠结构:词组中的两个词,后一个词是前一个词的重叠,形成一种重叠关系。例如,研究/研究,调试/调试,试验/试验。音译式和音译意译式的术语几乎都是单词型术语,很少有词组型的术语,这里不再讨论。2.汉语中语素、词和词组的界线黏附语素不能独立使用,不是词,自由语素可以独立使用,所以,自由语素同时又是单纯词。从语素的角度看,它是自由语素,从词的角度看,它是单纯词。观察的角度不一样,名称不同,实质则是一样的。在语素与词这两个集合之间,有一个交集 (intersection),这个交集就是自由语素,如果从词的角度看,它们又可以叫做单纯词。由此可见,语素和词之间的界限基本上是可以区分清楚的,黏附语素绝不可能是词,合成词也不可能是单个的语素,语素和词之间的交集,从语素的角度看是自由语素,从词的角度看是单纯词。然而,合成词和词组之间的界限就不是那么容易区分清楚了。从前面所举的例子可以看出,合成词的构成方式与词组的构成方式有许多一致的地方。可列表比较如下:合成词的构成方式与词组的构成方式的这种一致性,使得汉语的语法规则易学易记,对汉语的学习是有好处的,可是,这种一致性也往往导致合成词与词组的界限不甚分明,使我们难于判断一个结构究竟是合成词还是词组。如果一个结构由两个黏附语素构成,必定是合成词,不可能是词组。例如,“劳”是黏附语素,“损” 也是黏附语素,它们结合而成的“劳损” 必是合成词,不可能是词组。如果一个结构由一个黏附语素和一个自由语素构成,必定是合成词,不可能是词组。例如,“劳” 是黏附语素,“动” 是自由语素,他们结合而成的“劳动”必定是合成词,不可能是词组。含有前缀的“老师”,“老虎” 等结构,也必定是合成词,不可能是词组,因为前缀是黏附语素。含有后缀的结构“桌子”,“作者”,“忽然”,也必定是合成词,不可能是词组,因为后缀是黏附语素。但是,如果一个结构由两个自由语素组成,问题就比较复杂。如果组成结构的两个自由语素都是双音节语素或多音节语素,那么,它们必定是词组,不是合成词。例如,“模糊” 是双音节自由语素,“逻辑” 也是双音节自由语素,由它们构成的“模糊逻辑” 必定是词组,不是合成词。如果组成结构的两个自由语素,一个是双音节语素,一个是单音节语素,那么,就不容易判定这个结构是合成词还是词组。例如,“机器” 是双音节自由语素,“人” 是单音节自由语素,由它们结合而成的“机器人” ,有人认为应该是合成词,因为它表示一个整体概念。但是,“调” 是单音节自由语素,“程序” 是双音节自由语素,由它们构成的“调程序” 却很难认为是一个合成词,有许多人认为它是一个述宾结构的词组。可见,当构成结构的两个自由语素中,有一个单音节语素,就可能使合成词和词组的界限变得模糊起来,难于判定。如果构成结构的两个自由语素都是单音节语素,那么,合成词和词组的界限就更加模糊,更加难于判定。例如,当单音节自由语素“大” 与另外的单音节自由语素“会,军,陆,脑,好,红”组成“大会,大军,大陆,大脑”时,有人会认为前后语素之间结合得很紧密,应该是合成词。但是,当“大”与另外的单音节自由语素 “鱼,河,船” 组成“大鱼,大河,大船”时,可能就会有人觉得前后语素之间结合得不很紧密,它们不太像合成词,而似乎应该是词组了。又如,表示陈述关系的结构“洗澡,鞠躬,游泳,理发”,看来似乎是合成词。可是,有时,其中的语素可以分离开来:洗澡——洗了一次澡鞠躬——鞠了一个躬游泳——游了一次泳理发——理了一次发这时,它们似乎又不像是合成词。究竟是合成词还是词组,难于判定。我们可以把语素、词和词组的区别进行比较:从这个表中可以看出:①任何一个结构单元,可以根据“是否有意义”,“是否为最小单位”,“能否独立运用”,“包含语素数”,“包含单词数”等 5 个性质来鉴别。这5个性质之间的关系是逻辑上的合取关系 (∧),也就是说,每一个结构单元,要同时根据这5个性质来鉴别,如果仅仅根据其中的某一个性质或者某几个性质,是不可能鉴别清楚的。②自由语素与单纯词的性质完全一样,它们在实质上是一个东西。③合成词与词组的前面4个性质都相同,只有最后一个性质(即“包含单词数”)不同,合成词只包含一个单词,而词组则包含两个或两个以上的单词;可是,由于自由语素同时又可以看成单纯词,因此,当合成词由两个自由语素组成时,也可以把它看成是由两个单纯词组成的,这样,合成词就变成词组了。可见,从理论上说,合成词与词组的分界问题并没有解决,因此,单词型术语中的合成词与词组型术语的分界问题也没有解决。这种理论上的缺陷,必然会在汉语术语数据库的开发的实践中,引起种种的矛盾和困难。特别是当我们用计算机自动处理术语数据的时候,常常使我们处于进退维谷的境地。由于科技发展日新月异,科技术语的数量与日俱增,如何从真实的科学技术文献中自动地抽取术语,成为一个重要而迫切的问题。而要从真实文本中自动抽取术语,就必须对科学技术文献的文本进行自动切分,找出词与词之间的界限,这样的技术,叫做汉语文本的自动切分(automatic segmentation)。显而易见,在汉语文本的自动切分中,必须首先鉴别文本中的合成词与词组,词组需要切分,而合成词则不需要切分。合成词与词组的分界问题解决不好,将会给文本的自动切分带来巨大的困难。我们在术语的研究中,应该注意这个问题,研究出切实可行的解决办法。这是现代术语学研究的一个难点。3.多个单词组成的词组型术语上面列举的词组型术语只包含两个单词,还有包含两个以上单词的词组型术语,这些词组型术语的结构就复杂得多了。有的词组型术语是由3个单词构成的。例如,“控制/转移/指令”,“字母/编码/字符集”,“大/容量/存储器”,“面向/对象/语言”,“自动/数据/处理”,“直接/插入/子程序”,“抽点/打印/程序”。“多数/决定/运算”,“条件/隐含/运算”,“二进制/布尔/运算”。有的词组型术语是由4个单词构成的。例如,“字母/数字/字符/子集”,“字母/数字/编码/字符集”,“连续/顺序/计算/装置”,“组/传输/结束/字符”,“二五/混合/进制/码”,“基数/减/一/补码”,“每位/一/芯/存储器”,“自动/送/卡/穿孔机”。此外还有由更多的单词构成的词组型术语,就不再一一列举了。这样复杂的词组型术语需要采用现代语言学的原理和方法来进行分析,把它们的结构表示为树形图(tree graph),从而揭示其中隐含的句法关系和语义关系,使我们对于它们的结构获得比较清楚的认识。目前,采用自然语言处理技术,在大规模的真实语料库中自动地提取术语(包括单词型术语和词组型术语),并进一步提取在术语中蕴藏着的语言知识和科学知识,已经成为自动知识挖掘(automatic knowledge mining)和自动知识获取(automatic knowledge extract)的一个非常重要的研究领域。在这样的研究中,如何自动地分析词组型术语的结构,如何辨别词组型术语的几何歧义,是正确地进行知识获取的重要手段。我们希望我国的术语学研究能够关心这些问题,把术语学研究与自然语言处理技术结合起来。注释: *冯志伟教授是全国科学技术名词审定委员会委员。  相似文献   

8.
正为术语定名时,经常碰到的难题是如何选词,是直接借用表达其他概念的已有术语,还是使用少数基本单词构成词组型术语,又或者新造一个名词。1997年,冯志伟先生提出"术语形成的经济律",清晰描述了上述问题,并科学回答了它,对实践产生了重要指导意义。冯志伟先生发现,一般性情况下,译者往往会充分利用译语中既有的术语或术语要素创造一些复合型译名,而不会总是另起炉灶再创新词,这样一来,词组型术语的数量通常明显多  相似文献   

9.
2009年2月17日,国际术语信息中心主任加林斯基先生访问全国科技名词委,就有关合作事宜与全国科技名词委副主任刘青等进行了讨论。参与讨论的中方人员还有全国科技名词委审定室邬江主任,朱彦慧、温昌斌、张晖编辑。双方议定,开始写作2007--2009年度双方合作项目的总结报告,同时准备申报2010--2012年度的合作项目。总结报告内容包括对国际术语网络的调研,及全国科技名词委在创建和维护术语网络方面所做的工作。而申请的新项目将包括以下一些内容:  相似文献   

10.
2009年2月17日,国际术语信息中心主任加林斯基先生访问全国科技名词委,就有关合作事宜与全国科技名词委副主任刘青等进行了讨论。参与讨论的中方人员还有全国科技名词委审定室邬江主任,朱彦慧、温昌斌、张晖编辑。双方议定,开始写作2007--2009年度双方合作项目的总结报告,同时准备申报2010--2012年度的合作项目。总结报告内容包括对国际术语网络的调研,及全国科技名词委在创建和维护术语网络方面所做的工作。而申请的新项目将包括以下一些内容:  相似文献   

11.
新型冠状病毒肺炎在全球的迅速蔓延,让我们深刻意识到突发公共卫生危机中应急医疗和社会治理之外,应急知识和语言服务的重要性。以词表开发和术语管理等形式提供的术语支援是应急语言服务的一种重要方式和途径,是保障精确沟通、顺畅传播的必要条件。文章从应急语言服务视角出发,利用Sketch Engine语料库工具,从COVID-19语料库中提取出364条新冠肺炎英语单词术语和176条多词术语,以期助力于新冠疫情的防控。从本次新冠肺炎专题词表的开发实践中,文章总结出以目的为导向的学术词表制作流程,并提出学术词表的后续研究方向,为应急语言服务中的术语支援提供参考。  相似文献   

12.
科技术语翻译是科技信息的沟通,也是文化元素的传递。术语概念形成机制和语言表达式都要受到文化认知的制约和影响。从等值传递专业概念的目标出发,术语翻译应当从文化认知原理、文化对应性等方面深入理解,通过对比分析,探讨术语翻译的实用方法和技巧。  相似文献   

13.
选取20个语言学术语为研究对象,从语言学、翻译学和术语学的角度分别对其德语、英语、汉语称谓进行比较分析,从微观和宏观两个方面提出了其中的问题,阐释了一些改进方法。  相似文献   

14.
选取20个语言学术语为研究对象,从语言学、翻译学和术语学的角度分别对其德语、英语、汉语称谓进行比较分析,从微观和宏观两个方面提出了其中的问题,阐释了一些改进方法。  相似文献   

15.
A general set of multidimensional unfolding models and algorithms is presented to analyze preference or dominance data. This class of models termed GENFOLD2 (GENeral UnFOLDing Analysis-Version 2) allows one to perform internal or external analysis, constrained or unconstrained analysis, conditional or unconditional analysis, metric or nonmetric analysis, while providing the flexibility of specifying and/or testing a variety of different types of unfolding-type preference models mentioned in the literature including Caroll's (1972, 1980) simple, weighted, and general unfolding analysis. An alternating weighted least-squares algorithm is utilized and discussed in terms of preventing degenerate solutions in the estimation of the specified parameters. Finally, two applications of this new method are discussed concerning preference data for ten brands of pain relievers and twelve models of residential communication devices.  相似文献   

16.
从风化、病害、劣化及失效四个概念的内涵和指称出发,对它们在石质文物保护领域中应用的合理性和科学性及其相互关系进行了论述。  相似文献   

17.
从风化、病害、劣化及失效四个概念的内涵和指称出发, 对它们在石质文物保护领域中应用的合理性和科学性及其相互关系进行了论述。  相似文献   

18.
论文基于专业文本术语分析,探讨俄语海冰相关术语的构成特点及其在专业文本中的科学认知功能。主要围绕术语构成的形象理据性、范畴理据性和概念的属种联系三个方面,通过具体海冰术语实例分析,了解科学概念在具体学科领域的命名过程,阐释术语在使用中记录知识、发现新知识和传播知识的功能,从而进一步了解具体学科领域术语使用的实际状况和学科理论发展水平。  相似文献   

19.
转换生成语法发展已近半个世纪,学科系统内部产生并修正了诸多理论,伴随产生了大量的学科专业术语。文章力图从转换生成语法的哲学背景、学科背景及其自身理论发展过程等方面,剖析其术语的缘起过程、学科来源和发展变迁,进而宏观理性地梳理该学科术语变化与学派理论发展之间的关系。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号