首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
20世纪70年代中期,数据库刚传入我国,许多术语都是新的,数据库术语的翻译成为一个需要解决的问题.数据库术语中有一个常见词“key”,如primary key、secondary key 、candidate key等.中国人民大学的一位从美国回来的老教授建议将“key”翻译为“码”.我国数据库领域的先驱萨师煊老师很尊重这位老教授,于是就在自己的讲义和随后的教科书中采用了这一译法,将“key”译为“码”.萨老师的教材是我国数据库系统概论的第一本书,也是一本优秀的教科书,曾多次再版,受其教育和影响的人非常之多,因而“码”这一译名流传很广.  相似文献   

2.
现代科学技术日新月异的发展,新的概念层出不穷,而任何新的概念都必须用新的术语来表达,这样,术语就成了人类社会的一种极为宝贵的信息资源,人类社会的科学和文明,都必然要在术语这种信息资源中留下其痕迹。术语是语言词汇的一部分,由于其学术性较强,它们并不属于全民共同语的基本词汇。任何一个人也不可能掌握全部的术语。据英国语言学家统计,智力平常的英国人一般只能掌握数千个词,他们所能理解的词很难超过一万个,而现代英语的词汇量已远远超出了一百万个,因此,就很有必要对语言中大量的词汇进行搜集、记录和控制。在大量的词汇中,由于术语与现代科学技术的发展息息相关,它的搜集和整理工作就显得更加迫切和重要了。早期的术语搜集和整理工作主要是编写各种专业性的术语词典。这些术语词典有单语、双语或多语的,由于专业种类繁多,语言各有差异,用传统的手工作业的方式来编写术语词典是一件十分艰巨的工作。除了编写术语词典外,人们在术语标准化方面也做了不少工作。操同一语言的不同厂家给同类产品取不同的名字,常常导致术语的混乱,就是在同一单位内同一专业的人,对于同样的术语也常常会行不同的理解,这又引起了学术交流的困难。在不同的语言之间,这种情况就更为严重了。要进行术语标准化,首先就必须了解各个术语的具体情况以及术语使用者对各个术语的态度,为此,需要制作数以万计的卡片,这些工作用手工来做也是费力而又费时的。另外,由于新术语层出不穷,已编好的各种术语词典需要频繁地进行更新,而目前术语词典的印刷和出版周期都比较长,远远满足不了频繁史新的要求。可见,术语科学的发展,与传统的手工编写词典和各种卡片的方式发生了矛盾。在这种情况下,为了促进术语科学的进一步发展,必须对传统的手工工作方式进行改革,实现传统的术语工作的现代化。电子计算机为这种现代化提供了有力的技术手段。在本世纪六十年代中期,一些大型的术语数据库开始在国外建立起来。所谓术语数据库,就是一部概念和术语的自动词典,全部术语数据存储在计算机的存储介质中,通过数据库的指令或程序,对术语数据进行操作和处理,并根据用户的需要,输出术语的有关信息。这些建立在电子计算机上的术语数据库,存贮量大,检索容易,更新方便,受到了术语学家和用户的普遍欢迎。我于1986年至1988年,受中国科学院软件研究所的派遣,前往联邦德国夫琅禾费研究院(Fraunhofer-Gesellschaft)新信息技术和通讯系统研究部进行术语数据库的研制工作,有机会亲自接触国外研究术语数据库的不少学者,有可能直接阅读许多在国内看不到的珍贵资料,了解到当前国外术语数据库研制的一些前沿的情况。现将国外主要的术语数据库介绍如下。1.LEXIS:这是西德国防部的术语数据库,于1959年开始研制,1966年完全投入运转,数语数据库中所收术语主要由国防部翻译服务处提供,也有一部分术语是为翻译有关核潜艇的技术文献而搜集的。LEXIS的术语工作与国防部翻译服务处的配合极为密切,术语的增加和更新都必须首先考虑翻译服务处的需要,每条新术语都要经过国防部内部的一个术语审定委员会的认可,才能收入LEXIS。LEXIS系统的维护是面向用户的。由翻译人员提出需要输入的新术语,最多不得超过两个星期就得处理完毕。为了不影响系统的研究和改进,LEXIS系统一分为二:一个是为用户服务的,在运行中,数据不能随便改变,另一个是供研究用的,数据可以修改,等系统更新之后,再提供用户使用。由于供用户使用的系统与供研究改进的系统严格分开,整个LEXIS的工作有条不紊。LEXIS现有工作人员约40人,其中包括20个术语词汇学家和5个计算机专家,术语的年平均生产量是35,000条术语,每个工作人员平均每天生产16条术语。每一条术语至少要注明德文和另一文种(如英文),因此,每条术语实际上是德语一一外语的术语对。由于西德国防部的大多数翻译工作是从英语译为德语,全部术语记录中都包括德语,当需要从英语查询法语的术语时,必须通过德语术语为媒介。LEXIS术语库中的语言,现有英语、德语、法语、俄语、波兰语、荷兰语和意大利语等七种。所收术语的专业领域有国防、航天、天文、数据处理、电子学、工业管理、机械工程、物理、造船及电子通讯等。术语库中的术语定期地进行新的增补。LEXIS系统在两台IBM中型计算机上运行:一台是IBM3033,供联机处理用,一台是IBM3031,供批处理用。这两台计算机都安置在波恩的西德国防部计算中心。输入数据时,必须通过打字员按一定的格式录入信息,可见其外围输入设备并不很好。输出时,除一般由打印机打印外,还可采用磁带输出、缩微平片输出及COM设备(计算机缩微胶片输出绘图仪),输出质量较高。LEXIS的主要用户是西德国防部翻译服务处,使用时,翻译人员不能直接向系统提问,而是首先由他们把被翻译文章中出现的困难术语划线标出,然后再由数据打字员以批量表的形式输入系统。此外,西德国防部的外语教员、西德联邦政府国防部以外的其它部以及Brown Boveri & Cie公司也可使用该库。LEXIS还将术语库中的一部分数据制成缩微平片出售,但是,由于保密等原因,术语库中大部分数据的存取是受到严格限制的。除了出售缩微平片有少许收入外,LEXIS的经费全由西德政府提供,它是目前在西欧唯一完全由政府给予财政支持的术语数据库。为了改进输入技术,LEXIS目前正在研制一个文章自动阅读系统,该系统可对欲翻译的文章自动地生成一个术语表存入术语数据库中。2.TEAM:这是西德西门子公司的术语数据库,建于1976年。西门子公司在慕尼黑(München)设有外语服务处,在多年的翻译实践中,他们积累了数量相当可观的多种语言的技术术语,再加上西门子公司在计算机的硬件和软件技术上有很大的优势,当把这些技术术语在先进的计算技术的支持下建成术语数据库之后,便显示出术语数据库的优越性,大大地提高了西门子公司外语服务处的工作效率,同时,还把多年精心积累的技术术语变成了可以获得经济效益的术语库产品。根据用户的不同情况,TEAM术语数据库除了为西门子公司的各个部门服务之外,还可为其它单位提供服务,并为出版部门进行数据处理。TEAM现有工作人员约30人,其中有12个术语词汇学家,8个计算机工程师,术语的输入工作大部分是临时雇用打字员利用OCR-B专用输入设备来进行的。年平均生产量只是10,000条术语。而从理论上说,平均每个术语学家一年可加工3,333条术语,为了克服人浮于事的现象,TEAM的人员将要进行精简。TEAM数据库现有术语1,000,00条,可分成若干个独立的子库(Pool),所有的术语条目都包含德语术语并至少包含一种等价的外语术语。但是,术语的条目数并不等于术语库中所存储的概念数,因为在各个子库之间,存在着大量重复的术语,各个单独的子库可以按自己的计划各自发展,而每个翻译单位还可以单独建立自己的子库;甚至西门子公司之外的一些用户,如荷兰外交部翻译服务处、荷兰菲利浦(Philips)公司联邦德国标准化委员会(DIN)、词典出版商等,也可以建立自已的子库、并纳入TEAM系统,这样,TEAM系统就显得非常庞杂,但也因此而获得了更多的用户。TEAM术语库中的语言,现有德语、英语、法语、西班牙语、俄语、葡萄牙语、荷兰语、阿拉伯语等八种。所收术语的专业主要是电子学、数据处理以及跟西门子公司的主要商业活动有关的领域。TEAM系统建在Siemens 7000计算机上,输入方式可采用OCR-B专用打字机、软磁盘、VDU视频显示器(配有30个VDU)、文件编辑器等多种。输出方式也多种多样,可采用打印机、COM计算机缩微胶片输出绘图仪、照相排版、缩微胶片、磁带以及VDU等。所有的输入输出方式都配以相应的设备。由于有西门子公司在技术上作为后盾,TEAM的设备之先进,是其它的术语数据库系统望尘莫及的。TEAM的用户主要是西门子公司的翻译人员及技术文献的编辑人员。除此之外,荷兰外交部翻译服务处、荷兰菲利浦公司以及生产术语缩微胶片的翻译部门都可以使用TEAM术语数据库,联邦德国标准化委员会(DIN)、同西门子公司有关系的出版商,还可使用TEAM系统的硬件及软件。TEAM术语库是西门子公司外语服务处建立的,它得到了西德政府的支持。由于西门子公司以外的用户都为TEAM提供的服务交费,TEAM术语库现在已经能自己养活自己了。近年来,西门子公司开始研究机器翻译,他们打算把TEAM术语数据库与机器翻译联系起来,利用TEAM数据库,采用人机对话的方式来查询机器翻译中翻译不了的生僻术语,这样,就可以把术语库中术语的存取与机器翻译中的文句自动分析技术结合起来。3.EURODICAUTOM:这是欧洲共同体的术语数据库。这个数据库是在DICAUTOM及EUROTERMS工作的基础上建立起来的,于1969年开始研制。EURODICAUTOM系统的研制目的有三个:第一、给欧洲共同体总部的翻译人员提供一个方便、灵活的动态联机系统,使他们能迅速地查询到有关的新术语。第二、把欧洲共同体各国的术语工作集中起来,避免重复劳动,使得这个系统能够为欧洲共同体各翻译服务部门的翻译人员使用。第三、在一定程度上,把欧洲共同体七种官方语言的文件的术语协调和统一起来。EURODICAUTOM系统现有12个术语词汇学家,他们几乎都上全日班,此外,还有自由职业的翻译人员(平均6人)和打字员(平均4人)作辅助工作,程序设计由翻译服务部之外的人来进行。EURODICAUTOM术语库的语言,现有英语、法语、德语、意大利语、荷兰语、丹麦语、西班牙语、葡萄牙语、目前正设法把使用非拉丁字母的希腊语也包括进来。该系统有250,000条普通术语及75,000条缩写术语,术语的更新速度是每年10,000条。所收术语的专业内容十分广泛,几乎涉及各个技术学科及自然科学基础学科,这是因为欧洲共同体是一个国际组织,它的翻译领域广,内容杂,与单一国家的情况大不一样。EURODICAUTOM术语库原来建在IBM370/158计算机上,现已转到Siemens 7760上运行,外围设备有大量的VDU视频显示器。EURODICAUTOM术语库的用户主要是欧洲共同体总部的翻译人员,共同体的其它单位和官方机构亦可对术语库提出询问,据统计,该术语库每天平均回答638个问题。为了供欧洲共同体各国使用这个术语库,EURODICAUTOM还通过EURONET通讯网络,为共同体内的两百多个向EURODICAUTOM登记过的单位提供咨询服务。此外,该系统还与联合国教科文组织(UNESCO)、经济合作与开发组织(OECD)、卫生组织(WHO)以及法国的NORMATERM术语数据库、瑞典技术术语中心TNC等建立了密切的联系,还将一部分软件移植到墨西哥术语文献中心去。EURODICAUTOM术语库由欧洲共同体提供财政支持。4.NORMATERM:这是法国标准化组织AFNOR的术语数据库。开发这个术语库的目的,就是为了控制和存取AFNOR日益增加的术语。由于标准化的特殊需要,只有那些经过AFNOR认可的标准术语才能收入NORMATERM的术语库中。目前,AFNOR并没有设置专门机构来管理NORMATERM。术语库的工作由AFNOR情报文献服务处兼管,这个情报文献服务处现有13个情报文献专家、2个图书馆员、1个非全日制的术语词汇学家、2个全日制的翻译人员,20个非全日制的翻译人员,他们除了管理NORMATERM以外,还得做情报文献方面的工作。由于NORMATERM术语库只收标准术语,它对于所收术语的控制是十分严格的,每一条术语都要求绝对可靠。术语库现存23,000个概念,以法语为形式来存储。这些概念都根据AFNOR和ISO的有关术语标准作过认真的审查和仔细的校核。AFNOR还打算把国际电工词汇也收入到这个术语库中。由于审查很严格,术语的年平均生产量只有1000条。NORMATERM术语库建在法国标准化组织计算中心的IRIS45计算机上,这台计算机主要用来管理AFNOR的文献,用于术语数据库的联机工作时间每天只有1小时。术语数据的输入采用读卡机,输出采用宽行打印机、COM设备和VDU视频显示器。NORMATERM术语库除了用来作AFNOR的术语标准化工作之外,还要为AFNOR的情报文献学家作主题词表的工作,因而AFNOR是其主要用户。另外,工业界的一些赞助者亦来NORMATERM存取数据。NORMATERM主要由法国政府提供财政支持,同时亦得到了工业界的赞助。5.TERMDOK:这是瑞典技术术语中心的术语数据库。北欧国家语言比较复杂,给科技交流及进出口贸易带来不少困难,因此非常需要建立多语种的术语数据库。TERMDOK术语库现收术语70,000条,使用语言有瑞典语、英语、法语、德语、西班牙语、丹麦语、挪威语、芬兰语等。这个术语数据库的建立,对于克服北欧国家的语言障碍大有好处。由于涉及语种较多,术语的年平均生产量是5,000条到10,000条。TERMDOK现有4个术语词汇学家、3个文献学家,他们在瑞典技术术语中心还有其它工作,不能在TERMDOK上全日班。TERMDOK术语库原是建立在微型计算机上的,但随着存入的术语数目的增加,很快就暴露了微型计算机的局限性,现已转到DEC-10数字计算机上。TERMDOK的服务方式是多样的。用户可打电话直接向瑞典技术术语中心查询术语,除了供用户查询以外,TERMDOK还出版了一些多语言术语词典,并定期向读者提供情报服务。TERMDOK得到瑞典政府的财政支持,同时,通过出售词典和咨询服务,也可有一些经济收入。6.TERMNOQ:这是加拿大魁北克法语委员会的术语数据库。TERMNOQ是根据魁北克省101号法令的精神而建立的。这个法令要求,在魁北克省的一切公司和单位都必须使用法语。因此,英—法双语言的术语研究就显得更加重要了。TERMNOQ现有70个术语词汇学家。术语库系统的维护由7个计算机工程师组成的一个小组负责,他们有75%的工作时间用于TERMNOQ。该术语库存的术语达1,000,000条英—法术语对。已经确定的术语存入一个公共文件中,而正在研制的术语则存入工作文件中,术语的存取受到严格的限制。TERMNOQ建立Amdahl计算机上,输入通过软磁盘及VDU视频显示装置来进行,可容许联机操作,但数据的处理及更新是脱机的。这个术语库供魁北克省的官方机构及公司使用。在法国巴黎装有一个终端,叫做FRANTERM,但尚未运行。TERMNOQ的开发和研制完全由魁北克政府提供财政支持。7.TERMIUM:这是加拿大蒙特利尔大学开发的术语数据库。加拿大国务院早在1974年就要求在加拿大各政府机构中使用英语和法语的标准术语,而加拿大政府的文件都要有英语和法语两种文本,必须进行规范的翻译,翻译任务是很重的。为了提高加拿大政府翻译服务处的工作效率,才由蒙特利尔大学开发了这个术语数据库。TERMIUM的工作人员很多,雇用了100多个术语词汇学家,术语库系统的维护由4个程序人员组成的专门小组来负责。加拿大联邦翻译局在从事浩繁的英法对译工作中,积累了成千上万的英语和法语术语,因而自建库以来,术语库中的术语条目与日俱增,现已达1,700,000条,除去重复多余、质量较差的条目以外,至少也有600,000条优质的术语。术语的专业领域极为广泛,几乎涉及各个科技部门。TERMIUM术语库建在CYBER74计算机上,主要用户是加拿大联邦政府的翻译人员。另外,在加拿大的某些驻外机构(例如,巴黎的文化中心、布鲁塞尔的加拿大驻比利时使馆)也可以对TERMIUM存取术语数据。TERMIUM由加拿大联邦政府提供全部财政开支。8.GLOT:这是联邦德国夫琅禾费研究院的术语数据库,建立于1985年。为了促进欧洲计算机信息处理的研究,在信息技术领域赶上日本和美国,保持和增强西欧的工业竞争能力,欧洲共同体提出了ESPRIT(“埃斯普里”)计划。所谓ESPRIT,就是“欧洲信息技术研究和发展战略计划”(European Strategic Programme for Research and Development in Information Technology)的首字母缩写。在ESPRIT计划中,有一个课题叫做HUFIT(Human Factors in Information Te-chnology的简称),专门研究人的因素在信息技术中的作用,而GLOT术语数据库的研制就是HUFIT的一个重要方面。GLOT术语数据库建在DEC-VAX11/750机上,使用VMS操作系统及ALL-IN-ONE软件。从1988年开始,为了进一步扩充术语并改进系统的性能,拟改用UNIX操作系统和ORACLE关系数据库。GLOT术语库中,每条术语包括下列项目:德文术语、专业领域、上位概念、等价的英文术语、等价的法文术语、同义术语、缩写术语、概念类别、出处、日期、定义等。定义一方面由研究院内的专家撰写,一方面采用忒尔斐法(Delphi-method)向研究院外的专家咨询,同时,还从各种术语标准和专业词典中精选一些定义。这样,就可以做到每条术语都具有一个权威性的定义,为术语的标准化提供了依据。根据中德科技合作协定,我国学者于1986年到1988年在夫琅禾费研究院参与了GLOT术语数据库的研制,使用UNIX操作系统及INGRES关系数据库,建成了中文术语数据库GLOT-C。GLOT-C术语库收入了国际标准化组织从1974年到1985年期间公布的ISO-2382标准中的全部数据处理术语。每一个术语条目包括如下项目:术语的索引号、英文术语等价的中文术语、中文术语的概念类别、中文同义术语、中文多源术语、用户对术语的使用态度、术语的使用地区限制和使用专业领域限制、中文术语的结构格式、中文术语的歧义类型。从这些内容可以看出,GLOT-C中文术语数据库是从术语规范化和标准化的角度来建立的。与国外现有的其它术语数据库相比,GLOT-C中文术语数据库的显著特点是:第一、重视术语结构与歧义的研究,提出了“潜在歧义理论”(Potential Ambi-guity Theory,简称“PA论”)。“PA论”认为,当汉语术语中的词组类型结构及句法类型结构不存在“一一对应”的关系时,就会产生潜在歧义。在术语的词组类型结构中插入词汇单元后,这种潜在歧义可能消失,也可能转化成现实的歧义结构。对此,“PA论”制定了在中文术语数据库中判定术语歧义的原则和方法。根据“PA论”,可以从中文术语的词组类型出发,经过有限步骤的分析,准确地判定中文术语的歧义类型。第二、重视术语数据库基本理论的研究,提出了“术语形成的经济律”,证明了术语系统的经济指数与术语平均长度的乘积恰恰等于单词的术语构成频度,并提出FEL公式来描述这一定律。进一步的实验证明,FEL公式也适用于其它语言的术语数据库,因而它是描述一切术语数据库结构的一个普遍公式。9.其它术语数据库:丹麦政府正开发一个国家级的术语数据库DANTERM,主要供大学科研部门使用,主机为PRIME/550计算机。联邦德国标准化委员会DIN正在开发一个术语数据库TERM,现有术语56,000条,该术语库与TEAM及EURODICAUTOM有较多的联系。民主德国的德累斯顿技术大学正在开发一个术语数据库EWF,使用苏联制造的БЗСМ-6计算机。苏联技术情报分类和编码研究所正在开发一个术语数据库ASITO,使用MINSK 22M计算机。荷兰海牙的SHELL公司正在开发一个术语数据库叫做mechanized dictionary,工作人员17人,现有术语14,000条,使用IBM370/168计算机。法国克莱蒙费廊大学(Université de Clemont-Ferand)开发了一个小型的术语数据库CEZEAU,仅存建筑工程方面的英语和法语术语。委内瑞拉加拉加斯的西蒙·博利瓦尔大学(Universidad Simon Bolivar)语言学系也正在开发一个术语数据库,以搜集、储存和传播与该大学有关的各技术领域的标准术语。除此之外,正在开发的数据库还有:美国国家标准局在华盛顿的术语数据库,采用UNIVAC计算机和KWIC软件。加拿大IBM公司在蒙特利尔的术语数据库,采用IBM计算机和STAIRS软件,现有工作人员18人。法国IBM公司在巴黎的术语数据库,采用IBM计算机和一个支持文献翻译的软件。日本科学技术情报中心在东京的术语数据库,采用HITACHI8450计算机和一个词汇控制系统的软件,已收术语35,000条。日本国际医学情报中心在东京的术语数据库,采用IBM370计算机。瑞士的Brown Boveri & Cie公司在巴登(Baden)的术语数据库,采用IBM370/158,这个术语数据库是从LEXIS移植的。瑞士人造丝及合成纤维标准化国际管理局在巴塞尔(Basel)的术语数据库,现有3名工作人员美国Weidner通讯公司在犹他州的术语数据库,使用DEC11/70计算机,现有工作人员17人。这个术语数据库可以支持该公司的机器翻译系统。世界气象组织在瑞士日内瓦的术语数据库,采用IBM370/158计算机,现有工作人员11人。联邦德国Ruhrgas公司在埃森(Essen)的术语数据库,采用IBM计算机,软件是在EURODICAUTOM的基础上修改而成的。英国伦敦不列颠图书馆也正在开发一个术语数据库,现有工作人员4人。由此可以看到,术语数据库的研制现在已经风靡全球。特别是在科学技术比较发达的国家,术语数据库的研制进展得非常迅速。研制术语数据库软件包的耗费是巨大的。LEXIS,TEAM或EURODICAUTOM的程序耗资都各超过了50万美元。因为术语数据库软件的研制是一个全新的领域,需要采用别具一格的富于创造性的新的软件技术。既使是一些在计算机方面颇有经验的单位,也需要在过去的基础上研制一套新的程序,其耗资也不会少于20万到25万美元。为了存储大量的数据,进行联机的或脱机的输入并进行检索,目前所有的大型的术,语数据库系统都使用了大型的计算机设备,采用了现代化的输入手段。在大多数情况下,输入仍采用脱机方式,只是在修改术语库或有紧急任务时,才采用联机输入。输出一般也是采用脱机方式,因为计算机终端的价值较高,而且有些用户不习惯于直接使用这种现代化的计算机设备。当然,随着计算机科学的进一步发展,联机输出将会越来越普遍。我们把LEXIS、TEAM、EURODICAUTOM、TERMDOK、NORMATERM五个主要术语数据库的详细特征,列表比较见下页表。表中未列出TERMIUM及TERMNOQ的详细情况,因为这两个术语数据库的设计人员认为,现有的软件已满足不了工作的要求,他们拟把原系统作根本性的修改。从表中可以看出,LEXIS,TEAM和EURODICAUTOM三个术语数据库是当今内容最丰富、条目最完备的数据库。目前,微型计算机的技术日益先进,有的微型计算机的性能已达到了中型计算机的水平,因此,采用微型计算机来建立术语数据库,也是有可能的。上述各主要术语数据库的研制目的不尽相同。EURODICAUTOM是为了翻译人员的需要,NORMATERM是为了标准化的需要,而TEAM则采用一般性的办法,以适应各种不同的需要,甚至还可以满足词书出版商的需要。在各种不同的研究背景下,这些术语数据库不能彼此兼容,它们的数据库磁带难于互换。就是研制目的相同的术语数据库,术语条目的格式、数据的结构也不完全一样,彼此之间也很难兼容。这些情况说明,有必要协调世界范围内的术语和术语数据库的工作,这就是术语数据库的标准化问题。研制术语数据库的动因之一是术语标准化,而术语数据库研制的实践又出现了术语数据库本身的标准化问题,对标准化又提出了新的要求。国际标准化组织ISO TC37技术委员会和设在奥地利维也纳的国际术语情报中心INFOTERM在术语数据库的标准化方面起着重要的作用。ISO制定的标准ISO DP 6156-1980“用于记录术语/词汇的磁带格式”(Maguetic Tape Format for Terminological/Lexicographical Records)以及INFOTERM提出的“用于机器处理的术语数据记录方式指导草案”(Draft Guidelines for the Recording of Terminological Data for Machine Processing)都是设计术语数据库时必不可少的参考资料。如果我们对于术语数据库的标准化问题以及术语数据库之间的兼容问题给予足够的重视,那么,将会减少重复性工作,最大限度地发挥术语数据库的潜力。  相似文献   

3.
术语数据库对于术语学的发展作用明显。文章介绍了欧盟互动术语数据库和加拿大政府术语数据库,列出了二者各自具备的一些优点及不足之处,并提出中国建设类似术语库的建议,以期为术语研究者提供借鉴。  相似文献   

4.
术语在线(termonline.cn)由全国科学技术名词审定委员会精心打造,定位为术语知识服务平台。以建立规范术语"数据中心""应用中心"和"服务中心"为目标,促进科技交流,支撑科技发展。平台聚合了全国科学技术名词审定委员会权威发布的审定公布名词数据库、海峡两岸名词数据库和审定预公布数据库累计45万余条规范术语。覆盖基础科学、工程与技术科学、农业科学、医学、人文社会科学、军事科学等各个领域的100余个学科。提供术语检索、术语分享、术语收藏、术语纠错、术语推荐、术语征集等功能,欢迎访问体验。  相似文献   

5.
随着高新技术的飞速发展,学科间相互交叉、渗透,产生了大量新的术语。利用新的科学技术手段实现对术语维护更新是一个新的课题。本文在对术语现状分析的基础上,提出了利用数据库和网络技术实现对术语维护与更新管理的方法。  相似文献   

6.
随着高新技术的飞速发展,学科间相互交叉、渗透,产生了大量新的术语.利用新的科学技术手段实现对术语维护更新是一个新的课题.本文在对术语现状分析的基础上,提出了利用数据库和网络技术实现对术语维护与更新管理的方法.  相似文献   

7.
受国家技术监督局和新闻出版暑的派遣,我们于1991年8月下旬参加了国际术语网(TermNet)在奥地利维也纳举办的第三届暑期学校学习。国际术语网是在联合国教科文组织所属的国际术语情报中心倡议下,为了加强国际上术语工作的合作和交流而成立的国际组织。TermNet成立于1988年,每年举办一届暑期学校。其目的是进行术语学知识的传播和人员培训。学员来自世界各国和地区,对术语网成员实行减免学费。本期学习有两个内容:(一)术语学原则与方法在术语工作实践中的应用,内容包括:①术语工作的理论基础,②术语工作的组织,③术语编排的方法,④术语数据库,⑤文献编目中的术语学,⑥术语标准化,⑦术语学与知识工程等。(二)术语数据库的培训,其内容为:CDS/ISIS软件在术语数据库的应用,包括①介绍CDS/ISIS软件及其应用,②讨论术语数据库的类目,不同术语的编排及处理问题,③数据库的联接问题,④四种语言micro CDS/ISIS软件介绍。本次学习的教师为国际术语情报中心主任、国际术语网的执行秘书加林斯基先生(G.Galinski),国际术语研究所主任、北欧术语学协会理事皮特教授,(H.Picht)国际术语情报中心布丁博士(G.Badin),所用的教材是费尔伯教授(H.Felber)的《术语学手册》(Terminology Manual,Unesco,Paris,1984)、有关专家学者的术语学及其应用方面的论著及选自国际标准、工具书的实例等。参加学习的学员有40多人,来自16个国家。其成员分别来自标准化、语言学、情报与文献工作、翻译、辞书编纂、出版、计算机技术、系统工程等不同的岗位和部门。有个别学员刚刚大学毕业,为了了解和掌握术语学,自费参加了学习。暑期学校的讲授方法是讲课、讨论、参观和演示。在讲授一个题目后,分发与讲授内容有关的参考资料并分组进行讨论,然后由一名学员,阐述本组的意见,有时会引起热烈的讨论。整个学习进行得紧张、生动、活泼。暑期学校的学习时间虽然只有短短的半个月,但我们学到了术语学的基础理论和应用知识;了解到国际上术语活动的情况和进展;加强互相间的联系,为今后更好地开展术语工作打下了基础。  相似文献   

8.
加拿大国家翻译局术语语言服务中心[Terminology and Linguistic Services Directorate(TLSD)]是世界上著名的术语研究机构之一,也是闻名的术语数据库TERMIUM所在地,其总部设在首都渥太华地区,在蒙特利尔市和魁北克市都设有分部。术语学在加拿大的起步虽比欧洲晚,但发展迅速。加拿大是官方语言为英语、法语的国家。在政治、法律、文化和日常生活中的几乎各个方面,都需要有这两种语言的相互等价的翻译,因而术语学的工作、研究实际上是必不可少的。术语学在加拿大,根据其具体国情,自成一派,在基本理论和工作方法上都有独到的特点。术语语言服务中心的各项工作实际上是反映加拿大术语学派特点的一个缩影。一、基本的术语学定义他们认为,术语学是通过收集和分析语言材料中的术语,对专业科学概念和定义的名称进行系统研究,目的是记录、存储和向使用者推广这些正确的名称及其用法。这一定义很简明又注重了实际应用。它表明术语学研究既不同于纯语言学理论研究,也区别于专业学科的科学研究。更不等于文字的翻译。术语学的研究离不开具体的学科和实实在在的语言材料(或context)。研究的主要内容就是术语和它们所指称的定义或概念。这一定义的重要特点便是它强调了术语学研究的目的是推广和正确使用术语。换言之,术语学所研究的术语及其正确的涵义,源于应用了这些术语的实际语言文献材料;而术语学研究的成果则为进一步规范、推广术语及其正确的使用方法。二、基本的工作方法术语研究实质上就是对与概念相关的术语资料作分析和记录。大致过程如下:1.针对文献资料,确定其中的术语单位(术语)术语(term,terminology unit,terminological unit)是在具体的学科知识中指称某一特定概念的单词(简单术语)或组合词(复合术语)。即在文献中术语一般具有以下特征:——在某一学科中具有一定的、精确的内涵;——符合语言学和专业用法规律的词或表达结构,其指称某一概念;——在某特定的学科领域中,其意义不随周围词的组合或语言环境而改变。为在文字资料中准确确定术语,除必需明确这些特征外,还应对语言本身和语言所描述的专业知识有相当的了解。如,语言中的词性,固定搭配,习惯用法等都会影响对术语的识别。像“红上衣”和“红宝石”中的两个红字都是形容词,没有什么差别,但它们在两个词中的作用不同。前者的“红”仅为一般的描述性修饰语(红色的);而后者则为术语中不可分割的部分。再如,若不了解语言学和逻辑学,可能很难从大段文字中将“所指”和“能指”识别为两个术语。2.整理和储存术语材料在文献资料中,确定了术语的形式和位置后,需要对文献中与术语有关的材料进行整理、记录和储存,目的是进一步确定是否所有的术语都属于所研究的专业学科,同时分析上下文,尽可能提出术语所代表的定义或概念。从理论上讲,一个定义通常是由一系列的语义元素构成,这些语义元素分别描述了定义所指的各种特征属性。通常科学研究文献是描述科学理论、方法或研究成果,其直接目的并不是详细指明其中所使用的每个术语的内涵。因此,在单一文献中虽然有某术语出现,却很难保证术语的真义也出现在该文献中,一般能得到的,只可能是描述该术语的部分语义元素,或某种使用方法。对此术语工作者应注意收集,而且应对之进行加工并记录在案,以便随时补充修正使之完善。获得一个术语及其完整的定义实际上是一个动态过程,并不能像查找字典中的生词及其解释一样,是不可能一蹴而就的。计算机术语数据库对于术语学研究是非常重要的。计算机实际上是一个庞大的、动态的和高效率的存储提取媒介。加拿大术语语言服务中心拥有的是世界上闻名的TERMIUM计算机术语数据库。术语库的基本构成单位是术语记录。一个完整的记录应包括术语,同义词,定义,参考上下文,应用举例,资料来源,甚至图片,声音等。计算机数据库的优势在于它提供了检索、分类和快速查找等功能,因而利用数据库很容易便可再现已有的术语资料,并随时对其补充、更新或更正。在术语语言服务中心,研究工作目的一项必要程序便是访问TERMIUM。针对研究过程中出现的术语,首先检查数据库中是否已有相同的术语记录,再参考新的材料对TERMIUM中的相关记录进行必要的修正、补充或删除,必要时须建立新的记录。这样保证了TERMIUM的术语记录内容随着社会发展而不断完善。3.广泛的全球性联系这是当今术语学工作的重要部分,因为术语学研究要求保证最新的、高质量的科技文化等资料,同时作为记录介质的计算机数据库的开发完善需要最新的多功能的计算机系统。此外,世界上权威学术机构对资料的审查、评定等同样需跨部门、跨国界。对于多种文字的术语工作则更是如此。在这方面加拿大的术语中心与设在北美、欧洲等几乎遍布全球的权威院校研究机构有着密切联系。其计算机数据库也是在一定约束下共享的。例如,在电子计算机领域的术语工作中,他们除了科研部门外,还同IBM公司紧密合作。这也反映了术语研究和术语应用的密切联系。三、为社会服务每年加拿大术语语言服务中心都出版一些专业学科的术语词典、词汇等。这些既反映了他们术语研究的成果,也表现了他们对传播术语信息的重视。这些出版物直接面向加拿大和世界其他各地的科研、翻译工作者。出版物的内容并非仅是TERMIUM数据库内容的翻版复制,而是和TERMIUM相互补充的。出版物的编成参考了TERMIUM的记录,而出版物又对TERMIUM补充了新的内容。除了出版读物工具,加拿大术语语言服务中心还设有一部全年工作的术语服务电话台,随时回答来自各地、不同层次的科技翻译工作者的询问,通过查询TERMIUM,解决他们针对英法两种语言的等价术语等问题。如通过查询TERMIUM,不能完满回答电话里的问题,便需和咨询人进一步联系,根据其所提供的线索,由中心术语工作人员进行针对性研究,以完美地回答咨询。这实际上是不断地为术语工作者提出新的课题,通过研究,又补充了术语数据库的内容。另外也增进了术语研究工作和术语应用间的联系反馈。为了进一步扩大和拓广TERMIUM的影响和社会效益,加拿大术语语言服务中心开发和销售了“激光盘TERMIUM”(TERMIUM on CD-ROM),使TERMIUM术语数据库进入了个人计算机系统。综上所述,术语学工作从始至终都离不开具体的学科知识,具体的语言文字资料和术语的实际应用。现今世界科技、文化都在飞速发展,术语学工作的重要性日益增加。世界上发达地区,语言学、术语学和计算机技术结合已经出现了“语言工业”(linguistic industry)。加拿大的这种注重现实应用的术语学工作很值得刚起步的中国术语学工作研究借鉴。  相似文献   

9.
术语是概念的载体,术语规范统一是科学研究的基础。全国科技名词委作为中国官方术语审定机构,多年来代表国家进行术语审定工作,已经取得了丰硕的成果。为了方便用户检索,全国科技名词委建立了术语数据库,但是,现有的术语数据库存在诸多问题,亟待解决。  相似文献   

10.
我们在《汉语单词型术语的结构》(见本刊2004年第1期)一文中讨论的内容仅仅限于汉语中的单词型术语。然而,在一个术语系统中,绝大多数的术语都是词组型术语。我1986年在德国夫琅禾费研究院研制的“英汉数据处理术语数据库”GLOT—C中,词组型术语的比例占了75.17%。在其他的术语数据库中,也有同样盼隋况。为什么词组型术语会成为术语系统中全部术语的大多数呢?这是由“术语形成的经济律”造成的。因为每当出现新的概念的时候,人们往往不是重新造一个新的单词型术语来表示它,而是把原有的单词型术语结合起来,构成词组型术语来表示它。这样.虽然新的概念源源不断地出现,但是,术语系统可以在保持原来的单词型术语的数量基本不变的前提下。把原有的单词型术语结合起来表达新的概念,从而保证术语系统的经济性,这就使得在一个术语系统中。词组型术语的数量占压倒的优势。  相似文献   

11.
在即将迈入21世纪的今天,科学技术突飞猛进,科技方面新的名词不断出现,科技交流、国际合作已十分广泛。世界经济、科技已进入信息化时代。特别是电子与信息科学,随着其学科的发展,不断产生并引入表达新概念、新技术、新事物的新词,同时经济发展和日常生活也迫切需要运用科学的、规范的术语进行交流,有关术语的研究工作变得日益重要。我国的术语数据库工作近十多年发展较快,为名词术语的统一、规范化作出了贡献。一、我国的术语数据库工作术语数据库是实现术语信息管理自动化的工具。我国的术语数据库工作开始于20世纪80年代初,发展于90年代初。1981年与1984年奥地利国际术语信息中心主任、国际标准化组织术语技术委员会秘书费尔伯(H.Felber)教授先后两次来华访问讲学,介绍了国际上建立术语库的动态,引起了国内有关学者们的注意。1985年加拿大国务秘书部的朗德利(A.Landry)率领加拿大术语代表团访华。他们介绍了世界上最大的术语数据库(Termium)的工作情况,并为中加术语合作提供了有利条件。随后,我国国家出版局(现为国家新闻出版署)和全国自然科学名词审定委员会(现为全国科学技术名词审定委员会)派出了考察团,学习了有关术语数据库的先进经验。1989年以来,我国许多部委或所属的研究单位陆续开始建立不同类型的术语数据库。例如:机械部机械工程术语库、农业部农业科学院农业叙词库、化工部化工术语数据库、中国科技信息研究所的英汉科技分类词库、国家新闻出版署建立的中国百科术语数据库、国家语委的应用语言学术语库、测绘术语数据库以及全国科学技术名词审定委员会的科技术语数据库等等。术语信息是现代社会发展必不可少的信息资源,而建立术语数据库则为信息资源共享提供了便捷的途径。术语数据库的研究与开发,是术语学与术语标准化工作的重要内容之一,也是术语信息管理与使用的重要手段。为了我国术语数据库的建设,国家质量技术监督局近十年颁布了一系列有关术语学、数据库建设的国家标准。例如,《确立术语的一般原则与方法》(GB 10112-88)、《建立术语数据库的一般原则与方法》(GB/T 13725-88)、《术语数据库开发指南》(GB/T 15378.2-94)、《术语数据库技术评价指南》(GB/T 15625-1995)、《信息处理文本和办公系统标准通用置标语言(SGML)》(GB/T 14814/ISO8879)、《术语工作计算机应用:数据类目》(GB/T 16786-97)、《术语工作概念与术语协调》(GB/T 16785-97)等。这些标准与国际有关标准接轨。因此,遵循标准建设的术语数据库是规范的,并为数据交换,信息上网提供了便利手段。其中,标准通用置标语言(SGML,Standard Generalized Markup Language)就是为了适应日益发展的信息交流而建立起来的一种国际标准。目前,它对通用编码和通用置标概念的应用实行标准化,为描述用户选定的内容提供了一种清晰的且无歧义的语法。超文本置标语言(HTML,Hype Text Markup Language)是一种特殊的SGML语言,由于它在因特网浏览器上的日益广泛使用而受到重视。在HTML中,很容易实现文本的相互连接和跳转。建设术语数据库目的是信息交流,因此,数据的交换格式必须符合相关的国际标准。二、几个重要的术语数据库经过多年的工作,术语数据库在我国得到了发展,下面简要介绍几个主要的术语数据库:1.机械部机械工程术语库于1988年列入机械部科研计划,1991年成立了机电术语信息中心,负责组织实施。其第一期工程收录了44000多条术语数据记录,包括20多万个数据。分为机械工程、电工及仪器仪表三个部分。该库在设计上,认真学习了国际上建设术语库的经验,在微型计算机上用Windows作为操作环境运行。每个记录包括:定义、上位词、下位词、同义词、学科领域等,并附有相应的英、俄、德、日、法五种外文对应词及来源等,共计36个术语数据项目。其总框架以学科分类体系为主,兼顾专业,采用三级类目。编审工作是按照相应国家标准的要求进行的。1995年曾邀请联合国工业发展组织的专家组进行了评估;1996年第一期工程通过了验收,该库被认为达到了国际先进水平,并被评为全国科技信息系统优秀成果一等奖。有关部门与德国国际术语与应用语言学中心达成协议,出口该库部分数据,用以充实德方的术语库。此外,国内许多企事业单位也购买了该术语库的有关术语数据。现在,该库已开始获得经济效益,并准备开始第二期工程。2.中国百科术语数据库始建于1993年。它以我国首部综合性百科全书《中国大百科全书》(第一版)为依托。《中国大百科全书》有近8万个条目,涵盖56个学科,该库是我国首例大型的、面向概念的综合性多功能术语数据库,由以下子库组成:①百科全书:主要包括《中国大百科全书(第一版)》条目;《中国大百科全书(简明版)》条目和其他权威百科全书;②术语库(百科术语、国家标准术语等,每条术语含11项,主要包括术语编码、中文术语、汉语拼音、英文、定义、学科领域、国家学科分类代码、来源、等级等);③名人库(主要在《中国大百科全书》出现的中、外名人);④图片库。现有术语数据70余万条,该库的建立,不仅能提供多途径检索库中的知识,而且为编辑自动化提供了良好的基础。该库计算机系统采用client/server结构,主机选择的是DEC server 2100,数据库服务器上操作系统采用UNIX,数据库采用Sybase10及北大方正集团提供的信息检索系统(Inforbase),编辑自动化服务器上操作系统采用NT3.51,客户端采用Windows 3.11检索软件和编辑软件。在开发过程中,遵照了有关国家标准和国际标准,成功地开发了标准通用置标语言(SGML)中文软件,并提供了SGML格式到HTML(超文本置标语言)格式的转换表。现在,出版社内联网(intranet)已连通,并开始对用户服务。在新闻出版署的大力支持和跟踪管理下,中国百科术语数据库在1997年9月已通过验收,专家们认为该库的水平在国际已处于先进,在国内已处于领先。它已被新闻出版署评为1998年度科学技术进步一等奖。信息资源的建设是非常重要和艰苦的,在这方面他们所作的工作只是初步的,带有探索性的。现在即将开始百科术语数据库的扩建工程,逐步完成百科数据库多媒体工程和因特网上网工程,并依据有关国际标准和国家标准,进一步开发、完善这个数据库。3.1992年中国科学技术信息研究所开始建立机读汉-英、英-汉科技词库,收有50万条词,现已基本建成,拟发行《综合汉-英科技词库》印刷本及其机读版。以后拟将词量扩充到100万条,并进一步增加日、俄、德、法语种对照,建立语料库,最终将建成机读多语种词语知识库。此库建成后,将对语言学中的机器翻译,信息交流中的自动标引、自然语言检索和专家系统与人工智能等方面的研究起到重要的支持作用,并可用于编制或修订主题词表、辅助机读数据库,对录入的大量中外文词语进行书写校验;编辑出版多语种词典、手册(印刷本和机读版)等。4.1989年中国农业科学研究院开始建立农业叙词库。该库是农业部的科研项目。经过四年的工作业已完成,并被评为国家科技进步二等奖。5.1991年在社会科学基金支持下,国家语委应用语言研究所建立了应用语言学术语数据库(TAL术语库)。他们从专业书刊及辞书中挑选、输入了2万条术语记录,每条记录包括6个数据项,即分类号、英文名、汉文名、汉语拼音和结构(汉语名称的结构表达式)、出处等。该库是在IBM-PC机上以DBASE Ⅲ语言编制的。该库可用来辅助有关术语的标准化与规范化工作。该库还可通过结构的查询,研究汉语术语的构造问题,为构造术语提供了便利的条件。此外,该所1992年还建立了计算语言学的术语库。6.1995年由全国科学技术名词审定委员会建立的科学技术名词术语数据库主要收集了该委员会审定通过的科学技术名词。全国科学技术名词审定委员会是我国专门进行科技名词审定的部门,是代表国家进行科技名词审定和公布的权威性机构。经该委员会审定、公布的科技名词具有权威性和约束力,全国各科研、教学、生产、经营及新闻出版等单位均要遵照使用。参加名词审定工作的均为我国各学科领域的高水平的科学家。目前,该术语库已有13年来公布的物理学、数学、化学、生物化学、地质学、医学、电子学、计算机科学等40个学科的名词术语,约14万余条。该术语库主要是英汉词汇对照,按学科的相关概念体系排列,部分词汇有释义,例如,大气科学、煤炭科技、水利科技、船舶工程等。现已开始有计划地增加定义。另外,还建立了新术语子库,主要收集了当今世界上科技领域新出现的名词术语。该库采用dbase Ⅲ和Orcle编程。现在,已出版了公布的40个学科的名词术语,并准备出版电子出版物。该库正陆续增加新审定的名词术语,以便更好地消除术语混乱现象,促进我国科研、生产、教学和学术交流。术语库的建设是一项基础建设性工作,其投入大、工作量大、工期长、见效慢,但作为信息资源的一个重要的基础性品种,各行各业都是需要的。但我国的建库工作尚缺乏协调,内容有重复,浪费了力量,应引起国家有关部门的重视,并要加强领导力度。随着计算机技术的不断发展,计算机性能的不断提高以及计算机网络应用的日益普及,其应用也深入到社会的各个方面,正在逐渐改变着每个社会角落、每个人的生存环境和思维方式。目前,因特网技术日益成熟,并且迅速在全世界得到广泛应用。现在,我国加入因特网的用户已达几十万户。他们不仅在网上建立了自己的宣传阵地,而且要获取自己需要的信息。因此,发展网上术语数据库将加快术语的传播、交流,做到资源共享,推动术语的统一和发展,这一工作的重要性将逐步得到人们的重视。  相似文献   

12.
术语学是一门综合性的应用学科,主要致力于理论术语学研究和应用术语学研究。理论术语学研究对应用术语学研究具有重要的指导意义,应用术语学研究也不断影响着理论术语学的发展。理论术语学研究包括类型术语学、术语语义学、称名术语学、功能术语学和认知术语学等一系列研究方向;应用术语学研究包括术语词典学、术语标准化和术语数据库等内容。  相似文献   

13.
文章依据描述派的方法,以术语数据库的构建模式为切入点,对什么是术语工具及其相关的问题做出回答,目的是探讨技术对于术语工作的影响。术语工具应用带来的启示是,技术改变了术语工作与研究的方法,在构建中文的术语库时需要充分利用国内外的术语工具,并研发自己的术语管理工具。  相似文献   

14.
文章依据描述派的方法,以术语数据库的构建模式为切入点,对什么是术语工具及其相关的问题做出回答,目的是探讨技术对于术语工作的影响。术语工具应用带来的启示是,技术改变了术语工作与研究的方法,在构建中文的术语库时需要充分利用国内外的术语工具,并研发自己的术语管理工具。  相似文献   

15.
我国许多学者喜欢把术语叫做“名词”。这种叫法是极不确切的。事实上,相当数量的术语并不是名词,而是由名词或其它单词构成的词组。现代科学技术日新月异地发展,新的科学概念层出不穷,人们不可能给每一个新出现的概念都用一个新的单词来命名它,在大多数情况下,是采用原有的单词构成词组来表示新的概念,这样,就会形成许多以词组为形式的术语,它们叫做词组型术语。从目前发展的趋势来看,词组型术语越来越多,在整个术语系统中占了很大的一部分。这几乎成了现代术语发展的一个规律。我在1986-1988年间,受中国科学院和中国社会科学院的派遣,在联邦德国夫琅禾费研究院新信息技术与通讯系统研究部研究汉语的术语问题,使用VAX11/750计算机和UNIX操作系统以及INGRES关系数据库建立了中文术语数据库GLOT-C,该术语数据库收了国际标准ISO-2382从1975年以来的全部有关数据处理的术语,共计1510条。这些术语可以分为两类:一类是单词型术语,一类是词组型术语。单词型术语是只由一个单词构成的术语。如名词术语、动词术语等等。在GLOT-C术语数据库中,单词型术语只有375条,其中包括:名词术语:244条,如“数据”。动词术语:53条,如“打印”。名动同形词术语:75条,如“输入”。名形同形词术语:2条,如“对称”。名限同形词术语:1条(“限”指限定词),如“顺序”。在GLOT-C术语数据库的375条单词型术语中,名词术语只有244条。词组型术语是由单词组合而成的术语。如名词词组术语、动词词组术语等等。在GLOT-C术语数据库中,词组型术语有1135条,其中包括;名词词组术语:838条,如“计算机/程序”。动词词组术语:31条,如“改变/转储”。形容词词组术语:27条,如“自动/的”。名动同形词词组术语:239条,“信息/处理”。词组型术语占了全部术语的75.17%,单词型术语占了全部术语的24.83%,而名词术语只占了全部术语的16.15%。可见,在整个术语系统中,名词术语并不占优势,把术语称为名词,显然是不恰当的。如果我们从语言学的观点来看术语系统,那么,我们可以看出,单词只不过是术语的构成材料(它既是词组型术语的构成材料,也是单词型术语的构成材料),而术语(包括词组型术语和单词型术语)则是由这些构成材料形成的产品。因此,可以说,一切术语都是由单词构成的。在GLOT-C术语数据库中的1510条单词型术语和词组型术语,都是由858个不同的单词构成的。这858个单词,与1510条术语的数量比较起来,只是一个较少的数目。这种由少量的单词构成大量的术语的语言现象,反映了语言使用中的经济原则,我们把它叫做“术语形成的经济律”。早在十九世纪初年,德国杰出的语言学家和人文学者洪堡德(Von Humboldt,1767-1835)就观察到“语言是有限手段的无限运用”。但是,由于当时尚未找到能够证实这种论断的技术工具和方法,这种论断只是停留在假设的阶段。今天,我们有了电子计算机这个有力的技术工具,通过科学实验和数学计算来检验这个大胆假设的时机已经成熟。“术语形成的经济律”正是“语言是有限手段的无限运用”这一假设的一个科学实例。术语系统中单词数目是有限的,而由单词构成的词组型术语和单词型术语的数目却是无限的。由少量的有限的单词构成大量的无限的术语,这正是“有限手段的无限运用”这一原理在术语学中的具体表现。可见,“术语形成的经济律”是一个有着深刻的语言学和哲学背景的普遍性规律。在本文中,我们将讨论术语形成的经济律的三个基本概念:术语系统的经济指数、单词的术语构成频率和术语的平均长度。并且提出“FEL公式”来描述这三个基本概念之间的关系。一、术语系统的经济指数为了说明什么是术语系统的经济指数以及术语系统的经济规律,需要先定义如下的初始概念:1、系统的术语数:在一个术语系统中,不同的术语的总数,也就是术语系统的容量。系统的术语数用T表示,它的单位是“条”。2、单词的绝对频率:在术语系统中,某一单词的出现次数(或使用次数)。单词的绝对频率用α表示,它的单位是“次”。3、不同单词数:具有同一频率的不同单词的数目。不同单词数用ν表示,它的单位是“词”。4、不同单词总数:在术语系统中,具有不同绝对频率的不同单词的总数。不同单词总数用W表示,它的单位是“词”。不同单词总数的计算公式是:W=Σν5、运行单词数:具有同一绝对频度的不同单词ν和它的绝对频度α的乘积。运行单词数用ρ表示,它的单位是“词次”。运行单词数的计算公式是:ρ=αν6、运行单词总数:具有不同绝对频率的运行单词的总数。运行单词总数用R表示,它的单位是“词次”。运行单词总数的计算公式是R=Σραν术语系统的经济指数就是系统的术语数T被不同单词总数W来除所得的商。术语系统的经济指数用E来表示,这样,我们有如下公式:E=T/W……………………………………………………(1)E的单位是“条/词”,读为“每词多少条”。在大多数术语系统中,E>1;如果E≤1,则说明术语系统设计的经济效应不高。例如,在术语系统GLOT-C中,T=1510,W=858,则该系统的经济指数E为:E=T/W=1510/858=1.76这说明,当术语系统有1510条术语时,每个单词平均可构成1.76条术语。可见,这个术语系统具有较高的经济效应,也就是说,在该系统中,每个单词构成的术语条数较多。术语系统的经济指数的高低,受到系统中术语数的强烈影响。随着系统的术语数的增加,术语系统的经济指数也逐渐升高,在我们设计的“数据处理中文术语数据库”GLOT-C中,当系统的术语数为500条,不同单词数为342个词时,其经济指数为1.46;当系统的术语数增加到1000条,不同单词数增加到588个词时,其经济指数也增加到1.70;当系统的术语数进一步增加到1510条,不同单词数进一步增加到858个词时,其经济指数也进一步增加到1.76,如下表所示:这种情况,可图示如下:在一定的学科领域内,如果具有大量术语条目的术语系统具有较高的经济指数,那么,这个系统必定具有大量的由少数基本单词构成的词组型术语,而这些词组型术语构成了该术语系统的主要部分。二、单词的术语构成频率在术语系统中,每个单词的绝对频率并不是一样的。有的单词经常使用,叫做高频词,有的单词不常使用,叫做低频词。随着术语条目的增加,高频词的数目一般来说也相应地增加,而新词出现的可能性越来越小。这时,尽管术语的条数还继续增加,不同单词总数增加的速率却越来越小,而高频词则反复地出现。在术语数T与不同单词总数W之间,存在着如下的函数关系:W=Φ(T)这种函数关系可粗略地用下图表示:术语系统的高频词越多,则由这些高频词构成的术语也越多,单词构成术语的这种能力,叫做单词的术语构成频率。单词的术语构成频率就是在一个术语系统中运行单词的总数R被不同单词数W来除所得商。单词的术语构成频度用F表示。这样,我们有下面的公式:F=R/W…………………………………………………(2)F的单位是“次”。事实上,因为R的单位是“词次”,W的单位是“词”,所以F的单位就是“词次/词”,它恰恰等于“次”。F的值不能小于1,即F≥1;对于同一个术语系统来说,单词的术语构成频率F不能小于术语系统的经济指数E,即E≤F,因为我们总是有T≤R。在我们设计的“数据处理中文术语数据库”GLOT-C中,1510条术语的运行单词总数为3216个,而构成这1510条术语的不同单词总数为858个,即R=3216,W=858,这样,我们有:F=R/W=3216/858=3.75这说明,当GLOT-C系统的术语数为1510条时,其单词的术语构成频率为3.75,也就是说,平均每个单词可以出现3 75次。因此,这个值也可以代表这些单词构成术语的平均频率。单词的术语构成频率也受到术语系统中术语数的影响。在GLOT-C术语数据库中,当术语数为500条时(T=500),单词的频率表如下:在这种情况下, W=Σ ν=342并且 R=Σ ρ=987因此 F=R/W=987/342=2.89当系统中的术语数为1000条(T=1000)时,单词的频率表如下:在这种情况下 W=Σ ν=588并且 R=Σ ρ=2072因此 F=R/W=2072/588=3.52当系统的术语数为1510条(T=1510)时,单词的频率表如下:在这种情况下, W=Σ ν=858并且 R=Σ ρ=3216因此 F=R/W=3216/858=3.75我们可得到如下的表:从表中可看出,随着系统中术语数的增加,单词的术语构成频率也相应地增加,图示如下:在上图中,虚线表示系统的经济指数E的变化情况,实线表示单词的术语构成频率F的变化情况,如果术语数T相同,单词的术语构成频率F的值不小于系统的经济指数E的值,即F≥E。仅当术语数T=1,系统中只有一个单词时,F等于E,在其它场合,F永远大于E。从上面三个频率表中还可看出,随着单词绝对频率α的增加,具有同一绝对频率的不同的单词的数目ν相应地减小,这种关系可用下图来描述;这说明,在一个术语系统中,高频词只占了不同单词总数的一小部分,而它们却能构成大量的术语。例如,在“数据处理中文术语数据库GLOT-C中当术语数T为1510条时,绝对频率大于10的高频词只有62个,而它们的出现次数却是1342词次,由这些高频词构成的运行词总数占了全部的运行词总数的41 4%。术语系统中的高频词越多,则该系统中单词的术语构成频率也就越高。三、术语的平均长度包含在术语中的单词数,叫做术语的长度。在一个术语系统中,术语的最小长度为1单词型术语的长度永远等于1,每个单词型术语只能包含一个单词。例如,“程序”这个单词型术语的长度为1。词组型术语的长度永远大于1。例如,“程序/设计”这个词组型术语的长度为2,“数字/字符/子集”这个词组型术语的长度为3,“条件/控制/转移/指令”这个词组型术语的长度为4,“平均/无/故障/工作/时间”这个词组型术语的长度为5,……等等。从术语经济原则的观点看来,术语的长度太长,不便于使用和记忆,因而,我们有必要研究术语的长度问题。从术语系统的整体来看,还应该研究术语的平均长度。在一个术语系统中,术语的平均长度就是运行单词总数R被术语数T来除所得的商。术语的平均长度用L表示。计算公式为:L=R/TL的单位是“词次/条”,读为“每条多少词次”。L的值永远不小于1,即L≥1,在每一个术语都只由一个单词构成的术语系统中,L=1,在其它场合,L>1。在我们设计的“数据处理中文术语数据库”GLOT-C中,R=3216,T=1510,所以,该系统的术语平均长度为:L=R/T=3216/1510=2。130这意味着,在GLOT-C中,当术语数等于1510条时,平均每条术语由2 130个单词构成,即每条术语中含有2.130词次。随着术语系统中术语数的增加,术语的平均长度也有增加的趋势。在GLOT-C系统中,当术语数为500条时,术语的平均长度为1.974词次/条;当术语数为1000条时,术语得平均长度为2.072词次/条;当术语数为1510条时,术语的平均长度为2.130词次/条。当然,术语的平均长度不能太长,每个术语系统都能在其运行过程中,不断地把术语的平均长度调节到最佳值。在这个调节的过程中,某些太长的术语被淘汰了,某些较短的术语变长了,这样,术语的平均长度就可以保持相对的稳定。四、术语构成的经济律——FEL公式前面我们讨论了术语构成的三个主要概念:术语系统的经济指数E、单词的术语构成频率F和术语的平均长度L。现在我们进一步研究这三个概念之间的关系。仔细观察GLOT-C术语数据库的实验数据,我们可以发现:术语系统的经济指数E与术语的平均长度L的乘积与单词的术语构成频率之值是近似地相等的。实验数据如下:当T=500时,我们有E×L=2.88304,而这时F=2.89;当T=1000时,我们有E×L=3.52140,而这时F=3.52;当T=1510时,我们有E×L=3.74880,而这时F=3.75。可以看出,E×L之值与F之值几乎是相等的。根据这些实验数据,我们可以在E、F和L之间建立如下的数学关系:或者 E×L=F F=EL事实上,由于 E=T/W (1)以及 F=R/ W (2)(2)÷(1)得到 F/E=R/T (3)根据术语平均长度的定义,我们有 L=R/T (4)比较(3)与(4),可以得到: F/E=L因此,可有 F=EL这就是上面的FEL公式。由此,我们可以作出结论:在一个术语系统中,术语系统的经济指数E与术语的平均长度L的乘积恰恰等于单词的术语构成频率F之值。我们把这个规律,叫做“术语形成的经济律”。从FEL公式,我们还可得到如下的推论:1、在一个术语系统中,当术语的平均长度L一定时,单词的术语构成频率F与术语系统的经济指数E成正比。术语系统的经济指数越高,单词的术语构成频率也越高。这时,FEL公式变为:F=k1Ek1是一个常数。这说明,为了提高术语系统的经济指数,应该增加单词的术语构成频率,使得每个单词能构成更多的术语。2、在一个术语系统中,当系统的经济指数E一定时,单词的术语构成频率F与术语的平均长度L成正比。术语的平均长度越长,单词的术语构成频率越高。这时,FEL公式变为:F=k2Lk2是一个常数。这说明,为了提高单词的术语构成频率,必须增加术语的平均长度,因为系统的经济指数是一定的,每个单词只能被包含到有限数目的术语之中,所以,只有增加术语的平均长度。3、在一个术语系统中,当单词的术语构成频率F一定时,系统的经济指数E与术语的平均长度L成反比。系统的经济指数的增加将会引起术语平均长度的缩小,而系统的经济指数的减少将会引起术语平均长度的增长。这时,FEL公式变为:EL=k3k3是一个常数。这说明,在不改变单词的术语构成频率的条件下,如果我们想提高术语系统的经济指数使得每个单词能够构成更多的术语,那么,我们只好从原有的术语中,抽出一些单词来构成新的术语,这样,术语的平均长度就缩短了。因为在这种情况下,运行单词总数是不变的,我们必须从原有的术语中,一般是从较长的术语中,抽出一部分单词来造成新的术语,而这将引起术语数目的增加。其结果,术语系统的某些术语中所包含的单词数可能会减少,而新术语的长度不可能太长,因而系统中术语的平均长度就缩短了。由此可见,FEL公式反映了术语系统的经济指数、单词的术语构成频率以及术语的平均长度之间的相互依存和相互制约的关系,这个公式是支配着术语的形成和变化的一个经济规律。从FEL公式,我们可得到:E=F/L由此我们可知,提高术语系统的经济指数的方法有两个:1、在不改变单词的术语构成频率的条件下,缩短术语的平均长度;2、在不改变术语的平均长度的条件下,提高单词的术语构成频率。一般地说,在一个术语系统中,最好不要过大的改变术语的平均长度,术语的平均长度改变过大,往往会使术语系统改变到人们难以辨认的程度。由于这个原因,我们最好不要使用缩短术语平均长度的方法来提高术语系统的经济指数。看来,提高术语系统的经济指数的最好方法,还是在尽量不过大地改变术语的平均长度的前提下,增加单词的术语构成频率,这样,在术语形成的过程中,将会产生大量的词组型术语,使得词组型术语的数量大大地超过单词型术语的数量,而成为术语系统中的大多数。在我们设计的“数据处理中文术语数据库”GLOT-C中,词组型术语占了75.17%。这个事实,正是术港形成的经济律作用的结果。而术语形成的经济律又是洪堡德提出的“语言是有限手段的无限运用”这一普遍假设在现代术语学中的实际体现和科学证明。  相似文献   

16.
一、术语学在中国的发展术语学是门综合了信息科学、语言学和逻辑学的专门研究概念的定名、应用及相互交叉的科学。它的创始人是20世纪30年代的奥地利学者E.维斯特。20世纪70年代末传入我国,奥地利和加拿大术语学家为它的传播作了很多的工作。1984年奥地利术语学家,E.维斯特的学生H.费尔伯教授到中国介绍了术语学及其应用;1986年加拿大国家翻译署专家A.朗德利教授在北京介绍了术语学在加拿大建设术语数据库的应用。1987年由全国术语标准化技术委员会、全国科技名词审定委员会和中国大百科全书出版社组织了我国首届“术语学理论与应用研讨会”。参加者约为160多人。会上ISO/TC37主任、奥地利术语学家C.加林斯基先生系统地讲授了术语学理论与应用。我国科研、生产、教育、标准化及出版等领域的专家学者分别介绍了其工作中术语学和标准化工作,并进行了研讨。术语学在中国的传播,使我国标准化工作、科技名词审定工作以及辞书编纂工作更趋于规范。国家技术监督局、中国科学院和新闻出版署为此做了大量工作。近20年来,我国的一批专家学者为术语学的应用和发展,为术语标准化做出了积极的贡献。科学技术的飞快发展,使得人们更加认识到术语在科学技术的传播、工农业产品和出版物质量中的重要作用。术语是专业领域的词或词组,是学科领域描述相关知识的最基础的信息承载单元。术语是各种知识的基础要素,标准化是信息准确交流的保证。因此,国家制定了有关术语工作,包括术语学理论和方法、术语制定、辞书编纂和信息技术等标准,并根据发展需求,作了多次补充和修订。特别是《确定术语的一般原则和方法》(GB/T10112—88)成为制定国家各个领域和行业标准的术语的基本标准。现在该标准修订为《术语工作的原则和方法》(GB/T10112—1999)。在辞书编纂方面的国家标准从1988年就开始制定,并不断修订。现有的是《辞书编纂的一般原则与方法》(GB/T 19103—2003);《辞书编纂符号》(GB/T 11617—2000);《术语工作 辞书编纂基本术语》(GB/T 15238—2000)。这些国家标准为辞书出版的质量提供了保障。二、术语学与百科全书的编纂中国有悠久的辞书编纂历史。辞书往往作为一种标准书而被使用者和编纂者所广泛承认。百科全书是以条目为主体,概述人类一切门类知识或某一门类全部知识的完备的工具书。它不以提供系统阅读为主要目的,而是作为读者查考和寻检知识时使用的辅助工具。百科全书是作为一种大型工具书,其编纂工作是一项十分庞杂的系统工程。为了使各项编纂工作能有条不紊地进行,也为了保证全书的质量和使用功能,在条目设置、释文编写、图片配制、编排方法、检索方式等方面,都有一套严格的要求,这些就是百科全书编纂体例。并在体例中明确规定了要遵循相关的国家标准和全国科技名词审定委员会公布的名词术语。特别是在条目纂写中,强调了所用术语要标准,概念要具有准确性、科学性和系统性。从1978年到1993年,历时15年,我国首部现代的大型工具书——《中国大百科全书》(第一版)胜利完成。它有7.9万个条目,66个学科,汇聚了我国2万个专家学者的辛勤劳动,共计74卷,是一项浩瀚的文化工程。《中国大百科全书》释文内容的科学性、学术性和知识性为国内一流水平。其名词术语得到广泛采用。这些名词术语不但数目多,而且涉及面广。不少条目的术语都附有严格或可直接引用的定义。《中国大百科全书》(第一版)出版十多年来,已得到社会上的好评,被人们作为查询知识的权威工具书和标准答案。它获得1997年国家图书一等奖。1993年至2003年,中国大百科全书出版社以《中国大百科全书》第一版的电子资料为基础,根据有关的术语标准、辞书编纂标准和建立术语数据库的国际标准及国家标准建立了我国首例面向概念的综合性百科术语数据库,完成了一期、二期、三期工程,开发了通用辞书编辑平台。中国百科术语数据库计算机系统设有辅助建库系统和编辑自动化系统。在建库工作中紧紧抓住了标准化这个关键,其术语数据的处理和计算机软件开发均符合国家标准和国际标准。中国百科术语数据库计算机系统充分利用现代网络技术和大型关系型数据库技术,创造性地完成了百科术语数据库的全文检索系统,这是一个体系结构先进、开放型的全文检索系统,综合了包括快速数据库索引、中文切词、区域查询等多项技术。数据标记符合国家和国际有关标准,采用了国际标准置标语言(SGML,XML)进行术语条目的信息编码,有效地解决了百科术语条目的存储和管理问题。它不仅为《中国大百科全书》第二版提供了编辑自动化的手段,而且为广大用户提供了检索知识的平台。由于该数据库系统开发难度大、技术起点高;在中文辞书编辑自动化方面独具特色作到了编辑出版一体化,处于国内领先水平;在综合大型术语数据库领域属国内首创,达到国际先进水平。《中国大百科全书》学科覆盖面很宽,涉及了人类所有知识的门类、学科领域,包括数百万知识点、概念和术语。为了充分利用我社十多年编纂百科全书积累的资源,建立了百科术语数据库。它包括百科全书库、术语库和图片库。其中术语库,是把可进入国家标准术语和一般术语的内容分别进行加工,按照术语学原则和相关国际标准进行制作,每条术语设有中文名称、汉语拼音、英文对应词、定义、学科领域、学科代码、来源、编辑、修订人、日期等10项。现共计有18万条术语,并不断增加。德国康斯坦丁大学和奥地利维也纳大学均使用了该术语库的术语。电子出版物和网上出版物的迅速兴起和普及,使得百科全书也正在由单一文字图片信息的纸介质出版物向纸张、光盘、网络等多介质和文字、声音、图像、动画、影像等多媒体集成发展。跨介质出版物已成为新世纪出版发展的趋势。中国百科术语数据库已经建立了跨介质制作发布系统和学术著作网络出版系统。随着科学技术的发展,新的知识分类体系正在形成。为了满足用户不同层面的需求,有必要在百科全书原有知识框架体系上进一步细分和综合,并开发更强大的标引和检索系统,以适应不同领域和职业的多种需要。为了适应各领域发展所带来的知识信息的迅速膨胀,满足日新月异的信息服务需求,中国大百科全书出版社已经开始研制知识元数据库管理体系,按照术语学及其相关国家标准和国际标准,建立知识元框架体系和知识元数据库。计算机技术的飞速发展,促进了辞书编纂的自动化和半自动化。特别是术语工作、计算机应用、词汇和辞书编纂相互关系更加密切,术语学在辞书编纂方面得到了发展和应用。术语工作——辞书编纂的相关国际标准和国家标准也补充了新的内容,并结合汉语特点进行了修订,增加了电子出版物的内容。《中国大百科全书》第二版正在编纂中,它继续遵循着术语学和其相关的辞书编纂标准,利用中国百科术语数据库的计算机编辑自动化平台,为社会提供高质量的百科全书。  相似文献   

17.
对术语审定中的查重工作做了概述,并揭示和解决了术语查重工作中的几个关键问题,对术语工作者,尤其是多语种术语数据库工作者有一定帮助。  相似文献   

18.
对术语审定中的查重工作做了概述,并揭示和解决了术语查重工作中的几个关键问题,对术语工作者,尤其是多语种术语数据库工作者有一定帮助。  相似文献   

19.
一、前言方毅同志于1985年4月致全国自然科学名词审定委员会成立大会的贺信中曾指出“自然科学名词审定是我国科技工作中一项极为重要的基础工作。尽快实现科学技术名词术语的标准化、规范化、逐步建立具有我国特色的术语数据库是发展科学技术、提高全民族科学文化水平的迫切需要和广大科技工作者的共同愿望。”我们认为这段话十分正确、重要、精辟。1987年以来,随着自动化名词审定委员会审定工作的逐步深入,更加体会到开发一个适应我国国情,并具有中国特色的术语数据库的迫切性。本文所要介绍的ITDBS——智能化术语数据库系统正是在这一背景和思想基础上,结合自动化名词的审定而研究开发成功的。二、国内外术语数据库发展概况近年来在国内术语数据库的研究与开发,已引起不少单位的重视,但从总的情况看,基本上处于起步阶段。在国外不少发达国家和地区,早已建起了一定规模的术语数据库,如欧洲共同体,加拿大、前联邦德国、法国、瑞士、前苏联、丹麦等。这些数据库的运行,正在产生着巨大的经济效益和社会效益。其共同点是:大多是在容量较大的计算机上开发的(中、小型机、甚至是大型机),存贮容量大,运算速度快;多语种,具有先进的外围设备;得到了国家或地区的支持,投资大,人员多。尽管它们的硬件设备先进,但如果以是否引入人工智能技术为标志去划代(即未引入人工智能技术者为第一代术语数据库,已引入人工智能技术者为第二代术语数据库),那么上述国外各个术语数据库,据我们最近调查和了解的情况看,大都属于第一代。第一代术语数据库存在着一些共同的缺点:即需要一套专门的查询命令,这对非专业人员很不方便;而且数据库规模愈大,查询效率愈低;只能查询事先存入的信息,不能查询非直接存贮信息。不利于充分发挥数据库的潜在功能。其原因主要是第一代术语库缺乏知识支持,缺乏推理功能。因此,把数据库技术与人工智能技术结合起来,已成为数据库技术当前的重要发展方向。此外随着微电子技术的日益发展,微型机的存储容量及运算速度已有大幅度提高。今日的高档微型机已可与过去的中型机相媲美。因此在微型机上开发术语数据库是当前术语数据库技术的另一个重要发展方向。三、ITDBS运行环境及总体结构(一)运行环境本系统是在IBM-PC/XT及其兼容机上开发的内存,640KB,硬盘20兆,操作系统采用CC DOS2.10,此外还采用了C-dBASEⅢ数据库管理系统。(二)总体结构及其组成ITDBS的总体结构如图1所示。从系统的总体结构图即可看出,本系统主要共有三大组成部分:图1.ITDBS的总体结构(1)智能前端(IFE)IFE为一典型的专家系统,它是由知识库、推理机构及全局数据库构成。知识库是专家系统的核心。库内存放以下一些知识:<Ⅰ>术语数据知识:目前存放的是自动化名词委员会首批审定通过的自动化名词术语近2000条、根据自动化名词术语系统的学科分类,全部术语共划分为14个术语文件,驻于磁盘,根据需要,可有顺序地调入内存。这14个术语文件是1.通类;2.古典控制理论;3.现代控制理论;4.大系统;5.系统工程;6.过程控制与仪表;7.计算机应用;8.电气自动化;9.空间运动体控制10.仿真;11.智能控制;12.机器人;13.经济控制;14.生物控制论。<Ⅱ>ASCII文件与术语第一个字符ASCII码值之间的关系。在建立推理数据库时,要用到这种知识。这里所说的ASCII文件是根据中文、英文术语第一个字符的ASCII码值,分别按一定的数值范围构成,共有46个ASCII文件,其中19个是按中文术语第一个字符的ASCII码值构成,27个是按英文术语第一个字符的ASCII码值构成。14个术语文件反映了全部词条的各种信息;46个ASCII文件只起着指针作用,这有利于提高检索查询速度。<Ⅲ>隐含于术语词条(即术语号)中的领域信息。<Ⅳ>自动化名词术语系统的有关知识,它包括总系统、子系统、子子系统间的上下隶属关系<Ⅴ>ASCII文件。本知识库根据所采用的Turbo Prolog语言的特点,将知识的基本单元写成谓词逻辑构成的事实和规则。IFE的推理机构包括操作规则及其原理。它知道如何使用知识库,并推出合理的结论。其推理策略采用了正向推理和反向推理策略。此外在Turbo Prolog中,系统本身即具有搜索、匹配功能,即合一子程序和回溯子程序。前者可自动地为已知参数选配相应的事实;后者可自动找出某一询问的全部解答。ITDBS系统的推理机构功能不仅仅是“合一”和“回溯”,而且在Turbo Prolog的支持下,还利用关键字分析技术,开发了一套用于“智能检索”的推理机制,这是ITDBS系统的重要特征之一。IFE的全局数据库用来存放、记录与当前问题有关的各种数据。它是由推理机构针对知识库中的知识,根据需要有选择地或顺序地调入内存而构成。(2)后端(BE)后端由dBASEⅢ和术语库组成。ITDBS选择dBASEⅢ的主要理由是:dBASEⅢ是目前在微型机上最流行的DBMS之一,从构成理论或实践均比较成熟,语言简单灵活,对每一查询,机会均等,查询时间与存取位置和存取路径无关。其潜力也较大,每条记录可包含128字段,备注型字段可达4000字符(2000个汉字),每个库文件可达10亿条记录,同时可打开10个库文件。因此,目前后端的术语库完全是按照dBASEⅢ的数据结构及命令格式开发的。(3)前后端间的界面利用Turbo Prolog 2.0所开发的这个界面既可以利用IFE调用后端的DBF文件,又可利用IFE向DBF文件的数据进行插入、修改和删除,此界面的设置使ITDBS系统得以采用双文件工作制,即公共文件与工作文件。公共文件置于前端、工作文件置于后端。一般用户只接触公共文件即可。无需也不许随便访问工作文件。只有工作人员或个别专家用户由于工作需要,方可访问后端。四、ITDBS主要功能及其特点ITDBS除一般的存取、操作、管理功能外还具有以下一些特点:1.反映在人、机信息交互功能方面:由于具有IFE,故可用知识驱动代替指令驱动;可自动适应不同水平用户的要求(初级用户,中级用户及专家用户);有较强的检错能力和在线帮助能力。2.反映在查询功能方面:既可进行精确查询(exact retrieval),也可进行非精确查询(inexact retrieval);由于采用了双文件工作制,既有利于查询,又有利于维护;英、汉术语均可进行查询。此外,ITDBS的软、硬件环境均易于推广使用。如果能把ITDBS与局域网(LAN)技术结合起来,其意义和作用将更加巨大。五、查询举例<例一>用户欲查询“积分饱卷”的有关信息,查询情况如下:+=======智能查询=======+?→求助.E→退出.Enter→查询.+==============+?选择术语输入方式<1.中文2.英文>:*1?输入术语:*积分饱卷—对以下问题作出回答或按回车键—?输入的术语精确吗[y/n]*Y?输入术语文件名[.]*?输入学科领域<中文>:*?输入上一级领域<中文>:*输出术语信息:术语号:1.1.032中文术语:积分饱卷英文术语:integral windup注释:由于积分控制器过饱和,使积分作用停止的现象。*以上输出是你需要的信息吗?〔y/n〕y您想知道有关这条术语的知识吗?〔y/n〕y^本术语所属领域:通类^上一级领域:通类^本术语在数据库文件gn1.dba中。<例二>用户欲查询术语“turing machine”的有关信息,查询情况如下:+===========智能查询==========+?→求助.E→退出.Enter→查询+=========================+?选择术语输入方式<1.中文2.英文>:*2?输入术语:*turing machine—对以下问题作出回答或按回车键—?输入的术语精确吗[y/n]*y?输入术语文件名[.]*?输入学科领域<中文>:*?输入上一级领域<中文>:**输出术语信息:术语号:5.1.001中文术语:图灵机英文术语:turing machine注释:*以上输出是你需要的信息吗?[y/n]y您想知道有关这条术语的知识吗?[y/n]y^本术语所属领域:智能控制^上一级领域:智能控制与机器人^本术语在数据库文件inc.dba中<例三>用户欲查询“工效学”(ergonomics)的有关信息。仅知道英文术语ergonomics的前六个字母,查询情况如下:+===========智能查询==========+?→求助.E→退出.Enter→查询+=========================+?选择术语输入方式<1.中文2.英文>:*2?输入术语:*ergono—对以下问题作出回答或按回车键—?输入的术语精确吗[y/n]*?输入术语的词首(第一个汉字/英文单词英文字母)准确吗[y/n]*y?输入术语文件名[.]*?输入学科领域<中文>:*?输入上一级领域<中文>:*!按前六个英文字母查找*输出术语信息:术语号:5.1.107中文术语:工效学英文术语:ergonomics注释:*以上输出是你需要的信息吗?[y/n]y您想知道有关这条术语的知识吗?[y/n]y^本术语所属领域:智能控制^上一级领域:智能控制与机器人^本术语在数据库文件inc.dba中<例四>用户欲查询“随机下推自动机”(stochastic pushdown automaton)的有关信息,仅知道pushdown这一个单词,查询情况如下:+===========智能查询==========+?→求助.E→退出.Enter→查询+=========================+?选择术语输入方式<1.中文2.英文>:*2?输入术语:*pushdown—对以下问题作出回答或按回车键—?输入的术语精确吗[y/n]*?输入术语的词首(第一个汉字/英文单词英文字母)准确吗[y/n]**?输入术语文件名[.]*?输入学科领域<中文>:*?输入术语文件名[]*?输入上一级领域<中文>:*!按第一个单词和最后一个单词查找*输出术语信息:术语号:5.1.009中文术语:下推自动机英文术语:pushdown automaton注释:*以上输出是你需要的信息吗?[y/n]y!按英文单词查找*输出术语信息:术语号:5.1.014中文术语:随机下推自动机英文术语:stochastic pushdown automaton注释:*以上输出是你需要的信息吗?[y/n]y您想知道有关这条术语的知识吗?[y/n]y^本术语所属领域:智能控制^上一级领域:智能控制与机器人^本术语在数据库文件inc.dba中.六、结束语ITDBS成功地把人工智能技术用于术语数据库的开发,并有效地采用IFE结构形式,它在学术上是有一定意义的。因为它既可以提高人、机界面的能力,又可以充分发挥术语库的潜在作用,符合术语数据库的发展方向。此外由于ITDBS的软硬件环境是IBM-PC机及dBASEⅢ系统,极便于推广应用于自然科学名词审定委员会所属的各个分支学科。而且利用ITDBS和局域网技术,即可解决全国自然科学名词术语各学科子库的联网问题,既方便又经济,有极大的现实意义和实用价值。参考文献[1]王子平,开发具有我国特色的自动化名词术语系统,自然科学术语研究,1987,(1)。[2]葛志忠,自动化名词术语系统及智能化术语数据库的开发,北京理工大学研究生论文,1991。[3]冯志伟,国外术语数据库的研究概况,自然科学术语研究,1988,(2)。[4]粟武宾,第二届术语学与知识工程国际会议概况报告,1990。  相似文献   

20.
分析了单词型术语和词组型术语在术语数据库GLOT—C中的分布,试图从理论上解释在术语系统中词组型术语占大多数的这一重要术语现象,在此基础上提出了“术语形成的经济律”,并且用FEL公式来描述这个定律。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号