共查询到20条相似文献,搜索用时 85 毫秒
1.
提出了一种汉-维句子对齐混合算法,它是以基于词典的方法为主、基于长度的方法为辅的一种混合对齐算法.目的在于建立一个以汉文-维文平行语料库及面向政府文献的汉-维机器翻译为应用背景的,实用汉-维句子对齐系统. 相似文献
2.
分段对齐在双语句子对齐的过程中发挥着重要的作用,文章提出了一种新的基于锚点句对的分段对齐方法,并把它和传统的基于回车符的分段对齐方法相结合,形成了一种多层次的分段对齐方法. 相似文献
3.
阐述了汉文-维吾尔文双语对齐语料库构建的一些技巧,通过实践提出了建设汉文-维吾尔文双语对齐语料库的方法.语料库收集汉文-维吾尔文双语句子对齐语1000句左右,可进行汉文和维吾尔文关键词检索,查询语料库中的汉文-维吾尔文对译句子,进行汉文-维吾尔文句子对比分析研究. 相似文献
4.
传统的基于长度的汉英双语句子对齐算法大都以字节作为句子长度的计算单位.提出了以句子所含动词、名词、形容词、实词、字节及全部词语总数等6种单位作为句子长度的计算方法进行汉英句子对齐研究.针对传统基于长度对齐算法消耗内存大、效率低的特点,提出了不受文本大小限制的分组对齐算法.实验结果表明,汉英句子对齐以词语作为长度计算单位的算法性能较高,准确率达到99.01%,召回率达到99.50%. 相似文献
5.
华却才让 《青海师范大学学报(自然科学版)》2010,26(4)
介绍了藏汉句子自动对齐系统及其对齐方法,详细地分析了基于平行语料的藏汉句子自动对齐问题,提出了利用大规模高效藏汉双语词典进行句子局部对齐的策略,并做了验证. 相似文献
6.
针对从模板生成的网页中自动抽取web数据的问题,提出了一种新的树对齐算法.该算法能够确定输入网页的最大匹配结构.经过一系列的对齐操作之后,多棵树被合并成为一棵记录着合并前多个网页上的统计信息的合并树,树对齐算法可以发现合并树中的重复模式,在最可能内容块上构建包装器,并按照重复模式从网页上抽取数据.实验结果表明,该算法的抽取结果具有较高的准确性和良好的稳定性. 相似文献
7.
针对纳西语、汉语因句法结构差异较大而导致双语词语自动对齐较为困难的问题,提出一种融合特征约束模型的纳西-汉语双语词语对齐算法.首先在语料中统计纳西-汉语词语区间扭曲和位置转换特性,并由此建立2个双语词语对齐的特征约束模型;然后将提出的特征约束模型融入词语对齐的对数线性模型框架,并结合最小错误率算法训练模型参数;最终搜索出最佳的词语对齐结果.实验以IBM Model3为词语对齐比较模型,结果表明,该双语词语对齐算法可以使纳西-汉语词语的对齐准确率提升21.9%. 相似文献
8.
纳-汉双语语料库构建及双语语料对齐 总被引:1,自引:0,他引:1
当前存在着部分纳西语-汉语双语互译文本,利用这些双语互译文本构建大规模的双语语料库,是双语互译文本的深层加工及其双语词典编纂、跨语言信息检索面临的关键问题.提出了一个大规模纳-汉双语语料库的构建方案,包括其总体规划标准制定、实施方案和流程细节.通过组织构建纳-汉双语语料库,实现双语语料库在统计的机器翻译系统中的应用,并实现纳-汉之间的双语对照翻译系统,较好地提高翻译的准确性和可读性,进而推动少数民族语言信息化的发展. 相似文献
9.
针对当前神经机器翻译在捕捉复杂句内小句间的语义和结构关系方面存在不足,导致复杂句长文本翻译的篇章连贯性不佳的问题,提出一种融合小句对齐知识的汉英神经机器翻译方法.首先提出手工和自动相结合的标注方案,构建大规模小句对齐的汉英平行语料库,为模型训练提供丰富的小句级别的汉英双语对齐知识;然后设计一种基于小句对齐学习的神经机器... 相似文献
10.
汉文-维吾尔文句子对齐模型的XML标记规范 总被引:1,自引:0,他引:1
近些年来,在语言信息处理研发、双语教学和对比研究以及双语词典编纂研究中,双语语料库的作用日益凸显出来.在双语语料库中,不仅要描述双语文本在句子一级的对齐信息,还要详细描述收入语料库中的双语文本的所有者、领域、时间等方面的属性信息.为便于数据交换和共享,所有语料文本均采用XML编码方式来描述信息.详细阐述了构建的汉文-维吾尔文平行语料库的对齐句子和一些属性信息的XML标记规范和XML标记算法的设计方法. 相似文献
11.
异种语言的机器翻译问题的提出已近百年 ,其技术开发和产业化不仅是知识和技术高度密集 ,同时还是资金密集和管理密集的高技术难题。目前 ,资金问题已经成为解决我国机器翻译技术产业化进程中的最大问题之一 ,这需要从融资和资本运营、管理和规模化以及市场细分和国际化问题等方面着手。研究我国机器翻译技术产业化中的融资和技术资本化战略 ,以期提出机器翻译技术产业化中的“资本领先战略” ,探索支撑我国机器翻译技术产业化的金融和股份制改造模式 ,推动国内机器翻译技术产业的发展 相似文献
12.
罗维 《北京大学学报(自然科学版)》2013,49(1):88-94
围绕翻译模型构建流程的瓶颈——词语对齐,着手翻译模型的增量式训练.在基于无监督学习的词语对齐模型的基础上,提出一种基于初始化同时应用迭代训练收敛速度更快的online EM算法,以替换通常所用的batch EM算法,实现增量式训练.实验表明,所提出的方法既高效又能保证词语对齐质量和机器翻译质量. 相似文献
13.
Introduction The construction of the bilingual knowledge base is vi- tally critical to the development of example-based ma- chine translation systems[1]. In the translation process, the application of bilingual examples is concerned with how examples are … 相似文献
14.
为向基于深度学习的机器翻译质量估计模型提供高效的训练数据, 提出面向目标数据集的伪数据构造方法, 采用基于伪数据预训练与模型精调相结合的两阶段模型训练方法对模型进行训练, 并针对不同伪数据规模设计实验。结果表明, 在构造得到的伪数据下, 利用两阶段训练方法训练得到的机器翻译质量估计模型给出的得分与人工评分的相关性有显著的提升。 相似文献
15.
与现有的根据知识图谱的结构信息或实体属性特征进行相似度匹配的实体对齐的方法不同,提出了一种基于表示学习的知识图谱实体对齐方法.首先,在低维向量空间下,通过机器学习方法学得实体和关系的语义表示,这种表示形式蕴含了知识图谱的内在结构信息及实体属性特征;其次,将人工标注的实体对作为先验知识,学习知识图谱间实体对的映射关系.经实验验证表明:与基于特征匹配的方法SiGMa相比,本文方法能够有效提高知识图谱实体对齐的精确率,同时保持较高的F1值. 相似文献
16.
基于流形正则化的在线半监督极限学习机 总被引:1,自引:0,他引:1
在基于流形正则化的半监督极限学习机(SS-ELM)的基础上,利用分块矩阵的运算法则,提出了在线半监督极限学习机(OSS-ELM)方法.为避免在实时学习的过程中由于数据累积引起的内存不足,通过对SS-ELM的目标函数的流形正则项的近似,给出了OSS-ELM的近似算法OSSELM(buffer).在Abalone数据集上的实验显示,OSS-ELM(buffer)在线学习的累计时间与所处理的样本个数呈线性关系,同时,9个公共数据集上的实验表明,OSS-ELM(buffer)的泛化能力与SS-ELM的泛化能力的相对偏差在1%以下.这些实验结果说明,OSS-ELM(buffer)不仅解决了内存问题,还在基本保持SS-ELM泛化能力的基础上大幅度提高了在线学习速度,可以有效应用于在线半监督学习当中. 相似文献
17.
计算机应用能力的CAI软件在近年来已有很大应用市场,很多出版社都发行了这类软件的光盘.但是,迄今网上的有关软件很少.随着因特网的日益推广使用,网上计算机应用能力CAI软件的需求也日益紧迫本文介绍了一种通用的开发工具,可以用来开发各种不同软件的计算机应用能力CAI软件 论文主要讨论了该软件的设计目的、设计思想以及面向对象设计、分析等内容. 相似文献
18.
Three-dimensional (3-D) surface anthropometry can provide much more useful information for many applications such as ergonomic product design than traditional individual body dimension measurements. However, the traditional definition of the percentile calculation is designed only for 1-D anthropometric data estimates. The same approach cannot be applied directly to 3-D anthropometric statistics otherwise it could lead to misinterpretations. In this paper, the influence of alignment references on 3-D anthropometric statistics is analyzed mathematically, which shows that different alignment reference points (for example, landmarks) for translation alignment could result in different object shapes if 3-D anthropometric data are processed for percentile values based on coordinates and that dimension percentile calculations based on coordinate statistics are incompatible with those traditionally based on individual dimensions. 相似文献
19.
为了增强新一代车辆的功能和安全性,收集了大量的车辆行驶历史数据,利用机器学习方法创建基于规则的计算模型,以检测车队中的故障车辆。详细介绍了模型的设计步骤,并通过低压电池的电气故障测试进行该方法的有效性验证。分析结果可供后续车型台架测试参考。 相似文献
20.
面向维汉神经机器翻译的双向重排序模型分析 总被引:1,自引:0,他引:1
在维吾尔语到汉语等低资源语料库上, 神经机器翻译的拟合训练容易陷入局部最优解, 导致单一模型的翻译结果可能不是全局最优解。针对此问题, 通过集成策略, 有效整合多个模型预测的概率分布, 将多个翻译模型作为一个整体; 同时采用基于交叉熵的重排序方法, 将具有相反解码方向的翻译模型相结合, 最终选出综合得分最高的候选翻译作为输出。在CWMT2015维汉平行语料上的实验结果表明, 与单一的Transformer模型相比, 改进后的方法提升4.82个BLEU值。 相似文献