首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
文章基于术语学理论,对面向翻译的船海核相关专业汉英俄术语库的构建提出初步构想,并分析建库的可行性和适用性,拟构建一个船海核相关专业动态的汉英俄对照术语知识库。文中主要阐述术语库建设的理论原则、术语库的数据来源和知识结构,术语库建设流程及更新和维护。术语库建设需要学科专家、术语工作者、语言工作者通力合作,共同完成。希望构建的术语库能够资源共享,为学科发展奠定科学严密的基础,为国际学术交流提供专业的语言信息服务。  相似文献   

2.
以联合国术语库建设为研究对象,对联合国术语库从无到有、从局部到全球的发展历程,术语库的组织架构、业务范围、运营管理等现有情况做了较为详细的阐述,并对中国当前的术语库建设提出了几点建议。  相似文献   

3.
针对目前乌兹别克语、哈萨克语等中亚语种急缺专业领域词典、术语库及知识本体库的问题,文章以安全领域为例,利用现有术语作为种子词,自动采集维基百科及双语专业词典中的术语对,人工校对后构建了中型中、俄、乌、哈多语种专业领域术语库。以此术语库为基础,搭建了包含人员、组织、地域、技术、设备、活动、文件7大类及35个子类的领域本体,最后讨论了该专业术语库及领域本体库的扩展潜力和应用前景。本成果是一项重要的基础性工作,对中亚语种的术语词典编撰、术语学、自然语言处理和语言教学研究均有较大现实意义。  相似文献   

4.
当前主流计算机辅助翻译系统(CAT)借助翻译记忆(TM)和术语库(TB)提高翻译效率。翻译记忆以自然句为主要匹配单位,需要整句相似或重复,匹配难度大。与之相比,术语库以词块为匹配单位,较为灵活,可弥补翻译记忆的缺陷。术语库的构建涉及术语自动提取,需要参考特定文本类型中高频语块的词性规则。文章使用n-gram提取英语民航规章文本的复现语块,探究不同词项长度和复现频数下高频语块的词性组合特征;并将其与文学文本进行对比。研究发现,在英语民航规章文本中,适用于计算机辅助翻译系统术语库的复现语块以名词短语为主,与文学文本存在显著差异。  相似文献   

5.
“敦煌文化汉英术语库” 聚焦国际显学——敦煌文化及其核心术语。文章介绍了该术语库的建设及术语管理过程,分析现存困难,并对其他中国文化术语库建设提出一些建议,希望能有一定帮助和启示。  相似文献   

6.
TERMIUM术语库     
一、委任加拿大政府术语库建立于1974年。那是在内阁令国务秘书部翻译署负责“整个联邦政府部门和向加拿大国会汇报工作的所有政府机关所用的英、法术语的核实和标准化”之后,建立的。完成此项委任任务,当时尤其需要组织和促进术语学研究项目,建立一个目的在于增进各领域翻译工作效率的术语库,以及发展与加拿大国内和国外的语言研究和标准化中心之间的合作关系。遵循1983年内阁作出的决定,翻译署的任务扩展到包括负责促进使用两种官方语言。此术语库现在已被认为是在私营部门和公众中促进使用英、法两种语言,及在技术和其他领域内鼓励使用恰当的法语术语的一种工具。二、背景本署的最初数据库来源于两个方面:蒙特利尔大学的计算机化术语库中的15万件记录和历年来本署翻译人员积累的几十万件术语记录。1975年年底,国务秘书部获得了经五年研究出来的蒙特利尔大学术语库(TER-MIUM)。它原先主要是作为一种翻译工具而创立的,所以最适合本署的需要。1977年1月,当软件的必要适应工作一经完成(产生第二代TERMIUM),此系统即被转移到渥太华的能源矿产部的一个计算机中心。取消了重复记录,筛选掉不准确资料,并合并了关于相同概念的记录。到1980年12月底,此术语库已拥有60万件记录,全部可以联机使用。不久迹象表明,由于第二代系统的技术可能性的局限,国内外TERMIUM用户网的扩大,从而需要一个新的系统。因此,从1982到1985年,国务秘书部发展了它自己的第三代系统,采用的是BASIS软件包与可用项目单和彩色图形的Telidon工艺相连的办法。为了确保术语库需要和便利用户存取资料,还购置了一部计算机。数据转换到新系统后,术语库存取的总记录数为83万5千件,大约代表2百万个术语。三、结构这第三代的发展结果,使得加拿大政府术语库改名为TERMIUM术语库。选用这个更具有吸引力和能更好地围绕术语库进行宣传的新名字,是使TERMIUM数据库能越来越为更多人们所利用而迈出的第一步。TERMIUM术语库现在是由四个语言数据收集系统和一个文件数据库组成。1.术语数据收集系统这个数据收集系统包含英、法两种语言的术语记录,它又分为三个文件存储器。1)单概念文件存储器保留校对的记录,这些记录提供的数据足够完整而能证实输入术语的等同性。2)主文件存储器保留校对的记录,优先保留单概念记录,储有不够完整而不能完全证实输入术语等同性的术语资料。3)工作文件存储器分成可储有多概念、不完整或未校对的记录的一些隔室。2.多语言数据收集系统这个数据收集系统主要是为本署多种语言服务局使用及与其他语言数据库交流资料而建立的,它又分为三个文件存储器。记录中必须包含成对的术语词,其中一个必须是英文或法文,而另一个是德文或西班牙文(后者是现在收编到TERMIUM中的两种外国语)。术语及其等同词大部分是由多种语言服务局的翻译人员提供的。3.专有名称数据收集系统这个数据收集系统储有输入专有名称的记录。最普通的例子是组织、委员会、规划和地方的名称,商号名称以及条例、规章和文件的正式题称。4.翻译问题数据收集系统这个数据收集系统储有关于翻译(诸如措词、格言和谚语)和语言(诸如词或短语的意义、词法、句法和文体)方面各种问题的记录。5.文件数据库TERMIUM术语库中的这个数据库是用来对出现于术语记录中的源码进行联机译码,并给用户提供来自储于UTLAS(多伦多大学图书馆自动系统)中的约二万五千件完整的书目的参考资料和文件定位。四、实施支持TERMIUM术语库这个系统得以实施的,涉及许多要做的事情和物力问题。这些是:1.筛选最初用系统方式筛选此数据库,可是现在是在项目的承办过程中筛选记录,以满足特定用户的需要。术语学家在每项指派的研究任务开始时,先查询术语库,把他们查到的录在记录上,此记录在装入时就替换掉已成为多余的入口。因此,这种筛选是一种行进过程,它与术语库提供的最佳服务需要相一致。2.数据分类对各种各样项目的广泛研究证明,文件分类法用到术语上是不适合的。因此翻译署选用了TERMIUM分类法。它是蒙特利尔大学术语库创立的,并且特别是为术语数据分类而研究出来的。此三级分类法以字母表的字母为基础,每个字母构成一个类的标题。26个类构成这个分类系统的基础,包括生成术语的主要活动领域(如医学、管理等)。每类又可分为26个部分,代表主要活动的次领域,每部分又可分为26个节或特定的次领域。这样,NCE节(眼外科)属于NC部分(外科),这个部分又是N类(医学)的一个次部分。这个分类工具是为了便于从术语库检索各种专业数据而设计的。从理论上讲,这个分类法为多至19,500个节的创造提供了可能性。内部分级结构使人可以检索很有限的子集数据(例如眼外科),也可检索很大的子集数据(如像医学领域)。五、术语库的操作TERMIUM术语库操作是依靠通过一系列终端与本库连接的术语学家和专家网,也依靠已适应了经过处理的术语信息类型的数据输入和查询方法。1.研究人员网研究网包括大约一百位本署的术语学家,他们的工作方法是以全世界公认的术语学研究原则为基础。其他参加人员有本署的各翻译组和本署外的术语库用户雇用的术语学家、翻译和编辑。各术语科经常地收到全网内用户的研究请求单。这些请求单随后转交给专门研究该课题领域的术语学家,并且将研究结果储入TERMIUM。此外,从网的各点用户收到的数据则装入术语库,使人人都能获益,即使某些研究结果可能仅仅是尝试性的。2.终端网为了使全署的翻译人员,联邦雇员和署外各种范畴的用户都能从数据库进行存取,TERMIUM术语库的扩展计划要求尽可能安装最大数目的终端。除了联邦政府部门和机关以外,外界的用户有省政府,国内和国际组织、市政府、大学、研究机构和私营公司。根据1986年7月的资料,有279个终端在工作。终端联接请求单是根据需要并按照上面概述的合作原则加以审查的。术语库的固定开支(发展系统、研究和数据处理)全部由翻译署承担。用户负责操作费用,即终端购置或租赁、电话线路的使用和计算工作时间的费用。有些终端直接与计算机连接,而其他的则通过电话相接。所以几乎可能使用任何类型的终端,字处理机或微计算机来查询术语库。术语库的终端也可以用来查询其他数据库(如可从加拿大国内或国外的其他组织得到的计算机化术语进行存取)。3.记录术语记录包含各种各样的信息块,其中有基本的数据元,诸如每种语言的入口名词术语、上下文或定义、来源、主题领域、作者和日期。此记录对所属的数据采集及其术语的任何有价值注释也有所指明。这些记录的输出格式可以是连续的(先是一种语言,然后是另一种),或是并行的(两种语言位置并排),这取决于用户的愿望。用户也可决定所接收的信息数量;例如,他(她)可希望看到全部记录或只是用两种语言的入口术语。某些记录可能含有图形,用以支持某个特定名词术语。这些计算机图形只有在用户恰当配备终端时才能使用。没有配备这种终端的用户,可以从翻译署术语局取得这些图形的硬拷贝。4.查询TERMIUM术语库主要是为了解决翻译上的需要而设计的,即为个别查询的术语词条(与全部词汇相对)提供立即答复。为此,提供了一种直接通讯方式,该方式能使用户按键输入一个术语词或一组术语词,并立即在显示屏上看到、或打印出一个或多个记录。也可借助脱机打印而存取数据。这样虽然较费时间,但可使用户以计算机列表形式得到两种语言词汇表或以主题领域、创作者或这些的组合所检索出的大量记录。每个用户有一个用户姓名、口令和个人简介,以确定让他(她)如何查询TER-MIUM。此系统所显示的一系列项目单,使用户既迅速又容易地获得答复。假如所请求查询的术语词是术语库中没有的复合单元,可以对这个术语词的一部分进行寻索,或可查询计算机化索引,找出有关的术语词或字母拼法与之不同的术语词。此外,可以通过电话信息服务(SVP)查询TERMIUM,即没有终端设备的用户可用打电话方法(或有时书面交来),查询术语词。5.术语学和〔1〕这个词还没出现时,他就已经是术语学者了,加拿大电台的术语卡片是在蒙特利尔术语库上最先使用的,自1970年10月1日开始,Robert Dubuc和他的小组与大学计算中心Jean-Francois Grégoie的小组紧密合作,日积月累地整理了术语词汇卡片和设计了为处理、储存、及发行这些卡片的“术语”系统。为了保证相邻步骤的统一性和保证术语研究的方法正确,Robert Dubuc对上述处理的每一步骤都进行细致地记录、描叙和解释。这种方法是体现和听从了科学界人士的意见和批评后精心制作的,同时也体现了Robert Dubuc对待工作谦虚朴实,循序渐进的深厚功底,也就是在这方法的基础上,他在蒙特利尔大学翻译学院进行了教学工作,并且把这种方法贯穿在整个“术语实用手册”这本书之中。今天他把这本手册介绍给他的同事们,他的学生们,甚至可以说呈献给整个法语区的人们。在这方面不能忘记的是由国际法语学会协助出版了这手册。这著作是献给人们最珍贵的礼物,并给Robert Dubuc锦上添花。这也使得所有在蒙特利尔大学术语库的合作者们,所有使用法语,保护法语和为它争光,为它做出加拿大人贡献的人感到由衷的高兴。我不试图解释那些令我们信服的学者们在对待术语学和词典学之间所提出的不同看法,而在这手册里,Robert Dubuc用他的经验承担了这项工作。尽管如此,强调一下这个推动我们建成美洲第一个术语库的原因,也就是翻译人员迫切需要它的这个事实,不是没有用的。术语学面临的问题,不是词典学要解决的问题,而在词典学里,一些概念的定义是有唯一答案的。事实上,所有的在用两种语言工作时所考虑到的词,它们之间并不能总是正确的一一相互对应,既使它们的词义是相符合的,也不能把它与它所处的上下文割裂开来,必须联贯起来看,才能正确地确定词义。这就是Robert Dubuc为什么能成功地提出用“比较术语学”这个词来阐述这项研究工作的原因。为了给翻译人员在给定文章中必须翻译的用语提供合适的词汇,术语学工作者不得不做这项研究工作。在使用两种语言和多种语言的情况下的语言研究工作,既使有时情况是能互相适用的,人们总能清楚地把它们区别开,而它与在使用单一语言情况下“用于命名任务级别和设想的专门体系研究”的方法有很大的差别。Robert Dubuc是第一个研究建立这种方法和步骤的“比较术语学研究者”和第一个把它记载在清晰、条理的优秀著作之中的人,这不仅对那些打算从事这个职业的人有帮助,就连对不管他们有什么样经验的翻译人员也会是有收益的。对作家们也不例外,手册将给他们提供保障,使他们明白了在他们自己还不知道的情况下做了术语学工作,也使他们明白了当他们的“语句”研究工作愈来愈感到困难时,术语学工作者能给予他们以可贵的协助,使得他们能有更多的时间来细心考虑他们的文笔,这样将保障他们避免出现大量的挫折。著名的词典学家,小Robert词典的秘书长Alain Rey先生建议用明确的条文把从事术语工作的专家称为“术语编辑家”,而不是“术语学者”。无论是从Robert Dubuc所具有的才干来看,还是他的“术语实用手册”一书很好地符合了小罗贝尔词典第二条定义来看,术语编辑家Robert Dubuc对术语学做出了贡献。这是因为他不满足于做卡片,而是高瞻远瞩地论述了编写这些卡片的原则和方法。正是由于他,现在这个新职业有了它的规范章程。  相似文献   

7.
双语术语对齐库是自然语言处理领域的重要资源,对于跨语言信息检索、机器翻译等多语言应用具有重要意义。双语术语对通常是通过人工翻译或从双语平行语料中自动提取获得的。然而,人工翻译需要一定的专业知识且耗时耗力,而特定领域的双语平行语料也很难具有较大规模。但是同一领域中各种语言的单语术语库却较易获得。为此,提出一种基于两种不同语言的单语术语库自动实现术语对齐,以构建双语术语对照表的方法。该方法首先利用多个在线机器翻译引擎通过投票机制生成目标端“伪”术语,然后利用目标端“伪”术语从目标端术语库中检索得到目标端术语候选集合,最后采用基于mBERT的语义匹配算法对目标端候选集合进行重排序,从而获得最终的双语术语对。计算机科学、土木工程和医学三个领域的中英文双语术语对齐实验结果表明,该方法能够提高双语术语抽取的准确率。  相似文献   

8.
网络非正规语言表达(Network Informal Language Expression, NILE)具有的创新性强、超常规化、表达方式口语化等特点,为许多自然语言处理任务带来了挑战。在使用网络语言进行交流的过程中,部分网络非正规语言表达逐渐标准化和规范化,形成网络非正规语言表达术语。通过对46万余条Twitter数据的收集、处理和分析,英语网络非正规语言表达可以在音、形、义层面划分为13类,并对其特征进行分析和总结。结合统计方法和规则方法的优点,设计了统计和规则融合的英语网络非正规语言表达自动识别方法。最终构建规模为7000余条的网络非正规语言表达术语库。  相似文献   

9.
简要分析了德、俄等语种按专业建立双语术语库的迫切性与可行性;指出专业工具书的短缺和滞后,严重制约了这些语种科技翻译总体水平的提高;呼吁尽快按专业建立股份合作式的商业性双语术语库,以便直接和国际先进翻译模式接轨。  相似文献   

10.
术语规范及相关标准国际化成为中国高铁“出海”的重要基础。文章以概念系统为切入点,阐述了多语种高铁术语库建设的内容与方法,包括术语的收集、提取、翻译与审核,术语库的创建、维护与管理等。术语库建设完成后,可应用于高铁相关翻译实践、高铁术语词典编纂与BTI、MTI翻译教学等领域,促进术语标准化建设,完善术语规范与统一。开展中国高铁术语库建设具有重要现实意义,有利于中国高铁产品、技术和服务真正“走出去”,打造中国高铁国际竞争话语权,彰显中国智造和文化自信,提高中国国际影响力。  相似文献   

11.
在全球化时代,如何保证术语传播和使用的一致性和准确性是一个需要解决的问题。长期以来,大型机构如欧盟、联合国等面临着多语言术语使用与管理的问题,也在实践中积累了不少成功经验。文章梳理了欧盟IATE术语库的设计、术语来源与可靠性、功能、管理与审核等内容,结合使用及学习经验探讨了其存在的不足,以期为中国术语管理机构与相关领域提供借鉴。  相似文献   

12.
由全国自然科学名词审定委员会和科学出版社的黄昭厚、卢慧筠、李立和荣毓敏一行四人组成的术语数据库考察团,应加拿大联邦政府翻译署的邀请,于1988年11月13日-12月5日到加拿大进行了考察访问。重点考察了加拿大政府国务秘书部翻译署的术语工作和TERMIUM Ⅲ术语库。并访问了魁北克省政府的法语库BTQ。还顺访了Lava1大学国际双语研究中心和蒙特利尔市的加拿大通讯部信息研究中心。加拿大是以英、法双语为官方语言的国家。语言问题的处理在加拿大会影响到民族关系,并涉及到国家的政治、经济、文化等各方面。因此英语、法语在社会生活中的使用是很谨慎的。由此也就确定了英语、法语的翻译在国家各项活动中,占据了重要地位。1974年加拿大内阁决定国务秘书部翻译署负责整个联邦政府部门和向国会汇报工作的所有政府机关所用的英、法术语进行核实和标准化的工作。为完成此任务,政府在人力、物力和财力上给予很大支持,大力开展术语研究,建立目的在于提高各领域翻译工作效率的术语数据库。由于立足于社会需要,他们在术语研究工作中,以实际提出的要求为研究课题,制定和规范了各领域的大批专业术语。在多年的术语工作中,形成了一套术语理论。由此出发,形成和逐步完善了加拿大术语数据库的独特结构,使它成为翻译工作的强有力工具。在术语学的研究方法上,他们首先搞清要研究的术语所在领域的知识,及该术语在其领域中的意义。然后收集有关的文献资料,选择和评价这些资料,并收集术语数据。而且做出概念匹配,即对已有的英文术语和定义做出相应的法文术语和等价定义。若是法文中没有的词,研究创造法文新词。当有新概念出现时,要研究创立新的术语。正由于术语工作立足于社会的实际需要,故除政府在资金上给予支持外,很多工作得到企业的资助,或者说有的项目本身就是企业提出的。他们将术语工作成果输进数据库,提供使用,同时还抓紧出版。出版物的形式繁多,有正规辞书,也有小册子,图解辞典和挂图解说。这些在推广规范化的术语上,起了很大作用,并有一定经济收益。现在加拿大政府的TERMIUMⅢ术语库,是1982-1985年间在原来的TERMIUMI和TERMIUMⅡ基础上发展起来的。选用的机器是VAX 11-8550(5000京字节,6万指令/秒),VAX-785机。主机在渥太华,通过哈尔的PDP 11/24机作交换中心处理机。使用BASIS软件包,通过网络、电话电缆与国内外用户终端联机。终端的IBM系列(PC/XT,PC/AT)微机,可联机处理也可脱机处理。采用彩色图形显示Telidon,增加了系统符号容量,除了英、法文外,还可用德、西、拉丁和希腊等多种文字。改进后的TERMIUMⅢ产生记录、修改、检索和查询都很方便,适合广大用户的不同要求,可供200用户同时使用,响应时间约4秒。现库存约300万条术语,90万记录,平均每周更新5千条,用户约300家。最近发展起来的CD-ROM,是值得注意的。CD-ROM是只读贮存加密盘,即激光盘。它的容量极大,一个光盘相当1500片普通软盘。可把TE-RMIUMⅢ的全部库存数据和操作系统软件,都存在一个光盘中。只要在IBM PC系列微机上接上适当接口,CD-ROM驱动器、相应的软件(IBM PC-DOS 2.0,2.1……),即可使用TERMIUM Ⅲ术语库,不需租用电缆线与主机相联。使用CD-ROM,可普及微机,方便用户,用户不需付昂贵的电缆租用费。通过考察体会到,建库首先要目的明确,紧密结合社会经济活动的需要。库的结构系统完整,可借鉴的有:学科领域分类;结构中的三类文件;记录结构;可从术语、同义词、缩写词、定义、上下文来查询检索。可考虑先在微机上建库,同时考虑采用光盘技术,最后考虑大型机的联网服务。库的内容要不断定期修订和纯化。术语可先搞两个文种对照,以后要做定义注释。(本刊编辑组)  相似文献   

13.
文章基于对《冰区船舶快速性》专业文本术语的篇章分析,尝试创建“海冰”主题的俄汉双语术语库。主要分析了术语在具体使用中呈现出的形式语义特点,规定了术语提取的原则和术语译文处理的方法,尝试设计了术语条目的知识结构,旨在阐释专业(学科)领域术语的科学认知与应用价值,为航海领域专业人士的学术交流提供语言信息支撑。  相似文献   

14.
21世纪第二个十年,为适应现代社会的需要,克罗地亚政府启动了"克罗地亚科学术语项目",旨在将多学科的克罗地亚语术语系统化,并创建了克罗地亚语国家术语库,其基本构建原理是依照基于传统术语学理论的国际术语工作原则(ISO/TC 37)制定的。克罗地亚人类学研究院的几位学者,参与了术语库人类学部分的建造。在人类学术语规范化工作的具体实践中,学者们发现:以传统术语学为基础的术语工作原则,与人文社会科学学科特色有不相容的一面,他们将国际术语基本工作原则与法国学者福柯有关话语的论断相结合,创造性地完成了克罗地亚人类学术语的规范化工作。  相似文献   

15.
针对国防缩略术语不断涌现、猜证难度大、查询不便等突出问题,尝试综合运用计算术语学、术语知识工程学等相关理论和方法,揭示国防领域不同语种的缩略术语构成机制和规律,构建多语种国防缩略术语查询系统,以期促进国防缩略术语使用处理的规范化和标准化。  相似文献   

16.
法律术语特征研究   总被引:1,自引:1,他引:0  
阐述了以三种方式快速获取候选法律术语集,并对该候选法律术语集进行人工术语标注来构造法律术语库的过程。再通过研究法律术语库,最终获得了法律术语的长度和一系列构词法特征。  相似文献   

17.
阐述了以三种方式快速获取候选法律术语集,并对该候选法律术语集进行人工术语标注来构造法律术语库的过程。再通过研究法律术语库,最终获得了法律术语的长度和一系列构词法特征。  相似文献   

18.
正在中国翻译史中,术语翻译实践是一个显著的语言文化现象。关于这一点,周有光先生~([1])曾专门撰文详述。这种实践显著性可以说一直延续至当代,并在数据科学大潮中发展成为服务于中国话语构建的基础资源建设方法体系。对此,在2017年中国翻译协会年会上发布的"中国特色话语对外翻译标准化术语库"这一由中国外文局、中国翻译研究院主持建设的首个国家级多语种权威专业术语库~(1)便是最好的说明。与此同时,面向翻译的术语  相似文献   

19.
一、引言术语是知识传播、技术传递、科技文化交流、贸易往来的工具,存在于社会生活和经济建设的各个领域。术语标准化,简而言之就是运用标准化的手段,通过对概念的严格定义,明确其内涵与外延,反映出其本质特征,进而为概念选择或寻求最适当的术语,力求达到术语的精确性和单义性,即一词一义(避免多义词)、一义一词(避免同义词),从而避免信息交流过程的歧义与误解。术语标准化通常是各专业领域实现标准化的前提和基础。术语数据库(又称术语库)是利用计算机和数据库技术对术语信息实现现代化管理的工具,是计算机辅助术语工作的最重要手段之一。利用术语库可以全面、迅速、准确地从大量术语数据中提取所需的信息;可以发现库中所存术语的多义性、歧义性,排除数据的冗余性、不一致性,进而维护数据的正确性;可以根据用户的不同要求提供服务。面向概念的术语库,含有对概念的严格定义,是标准化工作的支持工具;多语种术语库是翻译工作、语言研究与教学、科技文化交流、经济贸易往来所需要的;而向知识型的术语库(有时又称概念库)又是专家系统、知识库系统、机器翻译系统、以至于人工智能的实现所必不可缺的。因此,术语库的研究与开发,对科技、教育、出版、贸易、语言研究、标准化管理,以及国际间政治、经济、科技文化等方面的交流都会产生积极的影响。二、术语库研究与开发工作的若干特点1.基础性。术语库的研究与开发是术语标准化工作的重要组成部分,是术语信息管理和质量控制的工具,术语标准化工作的基础性特征决定了术语库研究与开发工作的基础性。2.综合性。术语学是涉及到语言学、逻辑学、本体论、信息科学、科学分类法和各种具体学科及专业领域的一门综合性学科。术语库的研究与开发更涉及到计算机科学和技术、情报学、管理科学以及电信技术、数据存储技术、数据库技术等。3.紧迫性。现代社会的信息量与日俱增,新概念、新术语大量涌现,以手工方式对大量的术语进行分类编目处理、分析研究以及检索已经越来越困难。根据ISO/TC37文件,国际标准化组织已发布国际术语标准大约300个,正在制订过程的国际术语标准草案(DIS)国际术语标准建议草案(DP)合计大约200个。我国现已发布国家术语标准600余个,所含术语词条10多万条,并且在其他非术语标准中也包含了大量的术语词条。这样大量的术语,若没有一个国家级标准化术语库进行管理,极易出现各种问题,给标准化管理工作带来困难。4.复杂性。一般来说,术语库中的数据有以下特点:(1)数据量大。通常每条术语及其定义需占用计算机存储容量的上千字节;(2)数据类目多。比较完善一些的术语库的数据类目通常有数十项甚至上百项;(3)数据类型复杂。有些定义中含有图形(片)、公式、复杂的符号等计算机较难处理的数据类型;(4)数据关系多样。例如概念间的属种关系,整体与部分关系;术语间的同义、反义、近义关系,行话与方言的限定关系等,既有一一对应关系,又有一对多关系,还有多对多关系。设计术语库的数据结构,记录或字段间的拼链是非常复杂的工作。5.艰巨性。术语库的研究与开发难度大,且综合性强,涉及多种学科以及高新技术,其中一些技术至今在世界上仍处于开发阶段。例如,大数量汉字处理问题,简繁汉字及日本、南朝鲜所用汉字的兼容处理问题;图形(片)、符号、公式处理问题;数据库标准化与术语库专用软件的开发问题;批量数据输入输出技术(如光电识别、语音识别);异机种联网等。大型多功能术语库的开发必需具有足够的人力、物力、财力。据有关资料,国外几家大中型(含10万或10万条以上术语)术语库,仅术语库应用软件的开发一项就都耗资十万美元以上。财力、物力的不足,使得大型术语库的开发在经济不发达国家受到限制。6.社会效益显著。无论各行各业都有术语,无论是在行业内部,还是在各行业之间,以至于国际间的政治、经济和技术方面的交流,想要尽力避免歧义和误解,都必须进行术语标准化工作,而术语库的开发有利于促进术语标准化工作的顺利进行。毋庸赘言,术语库的建立具有明显和现实的社会效益。7.经济效益长远。信息交流是技术进步的基础,术语标准化、术语库的建设又是信息交流所不可缺少的。同时,术语库的研究又涉及到信息处理技术、计算机技术等一些经济上极具开发价值的领域,对电子辞典、知识库系统、专家系统、机器翻译系统等具有商品价值的实用计算机系统的研制具有推动和促进作用,因此,它具有潜含和长远的经济效益。三、国外术语库概况及问题分析术语学是本世纪三十年代刚刚形成的一个新兴学科。术语库的研究与开发则在六十年代刚刚开始。六十年代末,欧洲共同体翻译公司希望利用计算机为翻译人员迅速地提供多语种术语。欧共体的重要文件需使用英、法、德、荷兰、丹麦、葡萄牙、希腊等多种语言,建立多语种术语库可以为翻译人员迅速查询新术语提供方便,并在一定程度上,促进欧共体以上几种官方语言文件中的术语协调和统一。欧共体术语库——EURODICAUTOM于七十年代建成,该库存有25万条术语,17万5千条术语缩略词,每年更新术语1万条左右,并包含了以上除希腊语(因为是非拉丁字母的语言)外的所有语种。该库由欧共体提供财政支持。六七十年代建成的一些比较有影响的术语库有:法国标准化协会(AFNOR)的术语库——NORMATERM。该库主要用于标准化管理,最初是为编辑《国际标准化组织叙词表》提供资料。该库只收录法国国内和国际标准中的术语,存有2万多条术语,使用法语,提供英语对应词,每年新增术语约1000条。经费来自法国政府提供的财政支持和工业的赞助。加拿大政府的术语库——TERMIUM。该库主要用来满足对加拿大两种官方语言英语和法语术语进行核实和标准化。现存有术语大约300万条,包含90多万个记录,其中英、法两种语言的术语数据记录80万个,专名数据记录9万个,惯用法数据记录1万个,以及包含英、法、德、西班牙四语种对应词的数据记录3万个。加拿大政府提供全部财政开支。德国语言管理局的术语库——LEXIS。该库主要用于翻译目的,现存有上百万条术语,使用英、德、法、俄、波兰、荷兰、意大利七种语言,年更新/新增术语3万多条,经费由德国政府提供。德国西门子公司的术语库——TEAM。该库是出于公司生产和贸易的需要和用户的要求而建立的。现存有术语上百万条,使用德语、英语、法语、西班牙语、俄语、荷兰语、阿拉伯语、葡萄牙语。年更新新增术语1万条,对外实行有偿服务,现已自付盈亏。瑞典技术术语中心的术语库——TERMDOK。该库主要用于标准化管理,只收录官方规定的标准化术语,对用户提供免费服务,现收有近十万条术语。据有关资料统计,截止到1977年,世界上共有术语库16个。术语库的研究与开发不断受到重视,1979年4月国际术语情报中心(Infoterm)为此召开了第一届国际专题学术会议,并出版了一本“术语数据库(Infoterm Series 5:Terminological Data Banks,Proceedings of the First International Conference)”论文专集。八十年代,术语库得以迅速发展,ISO/TC371986年底统计,世界上有各类术语库46个,1989年再次统计时已达到74个。世界上术语库统计情况见小表:注1:国际组织的术语库有3个设在美国;2个设在法国;2个设在瑞士;1个设在意大利。注2:多国术语库中一个为欧洲——阿拉伯术语库,总部设在德国法兰克福;另一个为阿拉伯联盟教育、文化和科学组织的术语库,设在突尼斯。注3:地区性组织的术语库为:欧共体术语库,设在卢森堡;经济合作与发展组织(OECD)术语库,设在法国巴黎。注4:以上所列术语库中,有少部分是正在开发中,例如中国机械科技情报所的机电工程术语库。八十年代建成的比较有影响的术语库有:前苏联技术情报、分类和编码研究院的术语库——ASITO。该库主要用于标准化管理,提高国民经济术语信息服务的效益,已收录标准化术语12万余条,年处理能力为1万条左右,含俄、英、法、德术语索引。该库使用两台大型计算机,有45个终端,工业部门和480余个科研、教育、出版、科技情报、图书馆等部门使用该库。丹麦术语库——DANTERM。该库建在哥本哈根经济学院,用于研究、教学和对外咨询,含有丹麦、英、法、德、西班牙等各种术语,已录入了从8000多篇论文中摘录的术语。德国夫浪和费研究院的术语库——GL0T。该库主要用于科学研究,使用德语,含有英语、法语术语对应词,并根据中-德科技合作协定,由我国学者为该库配加了国际标准ISO 2382《数据处理词汇》的中文(汉字)术语。随着计算机技术的发展,最近又有不少术语库在微机上建成。1989年11月下旬,国际术语情报中心又召开了“术语工作与高级微机的应用”专题国际学术会议,国际术语网通讯(TermNet News)出版了一期专刊,介绍了若干在微机上建成的术语库系统。据国际术语情报中心主任加林斯基先生介绍,现在世界上有各类术语库达200余个。根据对现有的统计数据的分析,现有的术语库大致可分为:政府或官方机构建立的,多用于管理目的,例如标准化管理、语言管理等;科研与情报部门建立的,多用于科学研究、科技交流、翻译等;大学或教育、文化机构建立的,多用于语言、翻译等方面的研究与教学,对外咨询等;工业部门或企业公司建立的,多用科技交流、经济贸易和商业目的等。并且越是经济发达,技术先进,科技、教育、文化、贸易等发展的国家与地区,术语库的研究与开发就越受到重视。根据表1的统计,欧洲术语库占世界术语库总数的近70%,但是其中东欧、前苏联术语库仅占欧洲术语库总数的不到10%;亚洲术语库占世界术语库总数为不到10%,其中有半数又是建在日本。这可以从两方面来解释:一方面发达国家具有足够的经济技术实力来开发高质量、多功能的术语库;另一方面,这些国家对信息传递的数量、速度和质量有更高的要求,实践过程中,认识到了术语库研究与开发的重要性和迫切性。ISO/TC37最近又向ISO中央秘书处建议,建立国际标准化术语数据库。国际上术语库研究与开发工作进展很快,但是同时也存在着一些问题。例如:1.兼容性差,库间信息资源共享困难。由于国际标准化组织在早些时候没有制订关于术语库开发方面的国际标准,因而,各国际组织、各国所建术语库在硬件、软件、数据项、数据格式等方面都有不小的差异,兼容性较差。这个问题已经引起了ISO/TC37的重视,正在着手制订有关标准,现已完成ISO 6156《术语/辞书编纂记录用磁带交换格式》、WD 11(工作草案)《计算机辅助术语工作—技术报告》、WD 15《计算机辅助术语工作和术语编目的数据元目录》;并提出新工作项目:NWI 16《面向翻译工作的术语编目》、NWI 18《术语工作文献管理》等。但是,在术语库标准化的国际活动中也还存在着一些分歧,例如,前苏联对ISO 6156的修订就提出了非常强硬的意见(ISO/TC37/SC3 N45,en)。2.质量层次不一,规模大小不一。现已建成的术语库有的含定义,有的不含定义;有的术语和定义选自权威性的标准、辞书,有的仅选自一般性的词典;大的库专业领域覆盖面广,词条数量大,语种包含多,用户遍及各行各业,小型库专业狭窄,词条数少,属于建库单位自建自用。各库之间的科学性、实用性、易用性、可靠性、可维护性、安全性等技术指标都无法比较与评价。3.重复开发,浪费现象严重。有的库最初设计未考虑到未来的发展,不得不经常变换计算机机型,重新开发软件。有些库换代频繁,加拿大的TERMIUM库建于1974年,现已开始运行第四代;苏联ASITO库第一代1981年开始使用,1985年就改用第二代;欧共体的EURODICAUTOM库一开始运行在IBM 370/158计算机上,以后又改用Siemens 7760计算机;瑞典技术术语中心的术语库TERMTOK一开始使用微机,随着数据量的增加,不得不改用DEC-10数字计算机,IR系统3RIP对话式数据库。4.中文(汉字)术语库的开发尚处于初级阶段。目前世界上只有个别术语库含有少量的中文(汉字)术语,尤其是简繁汉字、日本和南朝鲜汉字兼容处理问题仍未真正解决。5.多语种术语库有待进一步完善。多语种术语库,尤其是含汉字术语库,无论在计算机技术方面,还是在建立各语种对应的术语概念分类体系方面都还有待进一步研究和完善。6.术语库的综合利用不够,经济效益不显著。利用术语库制作出版物、电子辞典,以及支持开发具有商品价值的机器翻译系统、专家系统、知识库系统等有待进一步研究。7.发展不平衡,经济不发达国家的术语库开发进展缓慢。在术语库研究与开发方面需要更多的交流与合作。四、国内术语库开发简况我国术语库研究与开发工作于1989年年初开始。中国标准化与信息分类编码研究所于1989年年初决定建立标准化术语库,拟收录国家术语标准、其他国家标准中的术语词条,IS0、IEC等国际组织的术语标准及标准中的术语词条,以及其他一些国家(如美国、英国、加拿大、德国、日本、前苏联等)的标准化术语。现该库仍处于调研和试开发阶段。机电部机械科技情报所1989年开始建立机电工程术语库,规划收录五十万条术语,第一期工程拟收录专业术语25万条,分20几个门类,100多个专业。该库小型试验库在微机上完成,使用中国科技情报所与联合国教科文组织合作开发的Micro CDS/ISIS通用信息管理系统软件,该软件具有较强的数据库定义功能,能较方便地按用户需要定义数据库,每个数据库记录最多可有200个字段,其下还可以定义子字段,字段均为不定长,可重复;用户可根据需要设计录入工作单,对数据库记录进行追加、修改、编辑等操作;该软件具有多种检索(顺排全文本,倒排各种逻辑操作)功能,多种数据输出格式,可以方便地对数据库进行维护;该软件留有用户编程接口,用户可开发设计自己的应用程序,并与其衔接;该软件还支持光盘存储和IBM-PC局部网络,是一种比较适合于术语库开发用的软件。该术语库多语种处理采用信通公司和清华大学联合开发的QSML多语种处理系统软件,效果也不错。总之该库模拟库的开发是比较成功的。该库开发中目前也存在一些问题:1.根据其计划,建设该库过程中,大量的人力、物力、财力要耗费在对入库术语和定义的组织审定及外文对应词的选配上。2.这样大型的,多语种的术语库,还没有解决数据批量输入的问题,靠人工键盘录入无论是在术语库生成(需要大量数据的录入)阶段还是日常的数据维护与更新,都是比较困难的。3.许多机电工程方面的概念,其定义需要用图象(片)加以说明,如何开发图象(片)数据库,并解决与文字库的联接问题也是该库急需解决的问题之一。4.现有的多语种处理软件还不十分理想,不能同时处理简繁汉字、日文、南朝鲜文中汉字,而且俄文处理是采用双字节,字母间隔大,比较难看,也需进一步完善。目前,机械情报所正在通过国际术语情报中心邀请国外有关专家对该库进行评估。此外国家语委语言应用研究所利用微机建立了一个含有二万条应用语言学术语的术语库。该库设有六个数据项,含术语的英文对应词;中国科技情报所周智佑研究员等利用微机建立了一个情报与文献标准术语库,收录了28项有关文献与情报国家标准中的术语约200条,该库设有10个数据项,配有英文对应词。以上两个库均使用dBASEⅢ软件,在IBM-PC微机上开发而成,属小、微型自建自用术语库。dBASEⅢ数据库软件是国内比较流行,并且汉化较好的一种软件,但也有一定局限,例如,可处理数据的容量小,处理速度慢;采用定长记录,空间浪费较大等,不十分适合大型多功能术语库的开发。目前,还有全国自然科学名词审定委员会、中国大百科全书出版社、科学出版社、化工部、地矿部等单位均表示了建术语库的意向。总的来看,我国术语库的研究与开发工作起点低、起步晚、进展慢,无论是理论研究还是实践经验,以及经济的实力,技术的保障等方面都与国际上发达国家有很大的差距。同时各有关建库单位对国际上的经验研究不够,缺乏足够的国际资料,而现有的资料又利用率不高。各单位分散开发,缺少必要的交流与合作。针对上述问题,全国术语标准化技术委员会采取了以下措施:1.1990年3月成立了第三分委员会——计算机辅助术语工作分委员会。该分委会由术语学、辞书编纂学、电子计算机、信息技术、机器翻译等方面的专家组成,代表十多个单位,以加强该领域内的协调与合作。2.利用走出去,请进来的办法吸收国外的先进经验。1989年以来组织各有关单位的专家和学者出国参加国际会议10多人次,邀请国外专家访华,组织报告会和座谈会近10次。3.报请国家技术监督局,申请加入国际术语网(TermNet),以获得完整的国际资料和更多地参与有关国际活动。4.决定搜索、整理现有的国际资料,翻译出版《计算机辅助术语工作译文集》。5.提出并制订一套建库国家标准,以对我国各单位建库工作进行标准化管理,保证建库质量以及未来各术语库间信息资源共享。五、术语库开发用系列国家标准的构想1.基础工作由于我国有许多单位已经开始建库工作,而在建库标准化方面并无直接可参照使用的国际标准,因此,我国建库国家标准的制订必须从两方面入手。其一,研究国外的经验与教训,从理论的高度分析考虑建库中的各种问题;其二,收集并综合国内各建库单位建库过程中的实践经验,使制订的标准适合我国术语库开发的实际需要。2.标准制订的三个阶段鉴于目前我国建库的进展状况,建库系列标准应分三步走。首先,在研究国外经验,相关的理论和技术的基础上制订《建立术语数据库的一般原则与方法》,解决建库过程应该考虑什么,必须注意那些问题,做那些工作。但是只提出原则性规定。因为在建库方面国内尚无成熟的经验,规定宜粗不宜细,要在各单位建库之前或之中搞好标准化原则与方法的协调。其次,在积累经验的基础上,制订一部分特殊(具体)规定,解决建库工作应如何做的问题,例如制订:《术语数据库开发规范》;《术语数据库开发用文件编制指南》;《计算机辅助术语工作和术语编目的数据元目录》(参照ISO/TC37/WD 15);《对入库术语信息源、数据项、数据结构的基本要求》;《对术语库计算机系统的基本要求》;《术语/辞书编纂记录用磁带交换格式》(参照ISO 6156);《术语库间数据交换的方法与技术要求》;最后,解决术语库建成后的检验、评价、管理、维护等方面的问题,例如制订:《术语库的审查与验收》;《术语库的运行与维护》;《计算机辅助术语工作的技术要求与评价》(参照ISO/TC37/WD 11)等。3.标准制订过程的协调在制订标准过程中,需吸收术语学、标准化学、辞书编纂学、计算机科学与技术、语言学、逻辑学、情报学、管理学以及各有关专业学科的专家参与,也要吸收各建库单位的代表参与,搞好标准化协调工作。4.加强国际交流与合作首先,向国外介绍我国正在开展的有关工作。在最近召开的有关国际会议,我们介绍了我国建库及建库国家标准制订方面的工作,引起了一些国际反响。ISO/TC37/SC 3以编号文件的形式分发了我国的有关资料:《建立术语数据库的基本规定》(国家标准草案讨论稿纲要,英文本)ISO/TC37/SC 3 No.73。《中国的术语标准化工作》(英文本)ISO/TC37/SC 3 No.74。其次,促请国外有关机构和个人对我们的工作提出建设性意见,并向我们提供他们的经验。目前,我们已收到加拿大有关机构来信,希望我们提供我国建库标准草案的中文本,并表示愿意译成英文,法文后,与我国有关专家共同研究讨论。奥地利、加拿大、日本、德国、挪威等国的有关机构也向我国提供了他们建库方面的有关资料。最后,是加强与国外或国际有关机构的双边和多边合作。奥地利、前苏联、日本、加拿大等有关方面均有意向与我国在该领域内进行双边或多边交流与合作。六、我国术语库标准化工作的进展情况1.两项国家标准91年完成审定报批:《建立术语数据库的一般原则与方法》;《术语/辞书编纂记录用磁带交换格式》。2.已翻译有关国际文件:ISO 6156《术语/辞书编纂记录中用磁带交换格式》;ISO/TC37/WD 11《计算机辅助术语工作——技术报告》;ISO/TC37/WD 15《计算机辅助术语工作和术语编目的数据元目录》;ISO 1087《术语学词汇》;ISO/DP 10241《国际术语标准的制订与编排》;ISO/TC37/WD 10《概念体系(发展与表述)》;ISO/TC37/WD 860《概念和术语的国际协调》;Infoterm 8-87 en《奥地利标准的术语数据库》;Infoterm 11-8 en《计算机辅助术语文献工作与知识传播——发展中国家的术语工作和知识管理》;Infoterm 12-87 en《术语数据库的分类体系》等。3.有关专家撰写论文及背景材料,例如:冯志伟《国外术语库研制概况》;安树兰、姜树森《ISO 6156参考资料——书目信息磁带交换格式》等。4.两项新国家标准项目已列入计划,落实经费:《术语数据库开发规范》,中国标准化与信息分类编码所负责起草,制订期为1991-1993年;《计算机辅助术语工作的技术要求与评价》,国家语委负责起草,制订期为1991-1994年。七、《建立术语数据库的一般原则与方法》国家标准草案基本框架《建立术语数据库的一般原则与方法》国家标准草案的主要内容有:1.术语库开发的宏观管理建议分为三级:国家级标准化术语库;部委行业术语库;基层术语库。分别提出管理要求。2.术语库类型及其结构描述类型划分为:面向概念型、面向翻译型、面向特定领域型和其他特殊用途型四类。结构划分为:信息源、输入端人机接口、术语库主计算机系统、术语库中处理的数据、输出端人机接口、库间(机-机)接口、用户等若干功能块。分别提出技术要求和管理要求。3.质量控制对构成术语库系统的各功能部分提出质量要求,对术语库系统在质量、性能、功能、效益费用比、兼容性等方面规定了若干基本要求。4.过程控制对建库过程规定了若干阶段及基本要求。5.生成和使用对术语库生成和使用的有关方面,例如数据输入、检索、排序、输出、更新等规定了一些基本要求。6.维护与管理简述了维护与管理的几个方面及基本要求。7.信息资源共享简述了库间信息资源共享的几个层次和基本要求。八、《术语与辞书条目的记录交换用磁带格式》国家标准草案的基本内容该标准草案提供了术语与辞书条目数据在磁带上的组织和标识方法,为单语种和多语种术语与辞书条目数据的交换规定了一种通用的格式。该标准还包括四个附录:附录A是经国内著名语言学、术语学专家研究确定的“汉语术语库推荐用术语数据项及其标识符”;附录B为“ISO 6156规定的术语数据项及其标识符”;附录C是“信息交换说明书”示样;附录D是相关的国际标准目录。该标准不仅为我国各单位术语库间磁带交换提供了统一格式,而且还为国际上术语库间涉及到汉语术语与辞书条目数据的交换提供了依据。九、结语术语数据库的开发,建库标准的制订是相互联系密不可分的两项工作,要搞好这两项工作,需要各有关学科领域的专家,各有关单位积极配合,要吸收借鉴国外的经验,加强国际间的交流与合作。我们迫切需要进一步与国内外专家学者一道研讨术语库的研究与开发,及其标准化工作中的一系列问题。  相似文献   

20.
研究关于环境科学的多语言术语知识库EcoLexicon,总结其对于术语学研究及术语知识库构建的启示。通过查阅相关文献及资料,针对EcoLexicon网站主要功能和实际应用进行分析,梳理EcoLexicon术语库的理论背景和结构框架。总结出对术语学研究及术语知识库构建的四点启示:多语言、领域性、可视化、互操作性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号