首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 453 毫秒
1.
提出一种基于翻译日志的统计机器翻译模型的剪枝方法。该方法利用翻译规则在翻译日志中的命中频数对机器翻译规则进行过滤, 保留当前机器翻译模型所需的最小规则表。实验表明, 该方法能够在仅保留原有模型1%~3%翻译规则的前提下达到原有模型的翻译效果。  相似文献   

2.
针对不同语种的被动和可能语态的句法结构差异影响机器翻译质量的问题,提出融合语态特征的最大熵翻译模型。首先从日语端分出被动语态、可能语态和其他语态,然后从英语端对被动和可能语态进一步分类,抽取双语特征训练最大熵规则分类模型,将语态特征融合到对数线性模型中以改善翻译模型。提高解码器在翻译被动语态和可能语态时规则选择的准确性。实验结果表明,该方法可以有效地改善日英统计机器翻译的句法结构调序和词汇翻译,提升被动语态和可能语态句子的翻译质量。  相似文献   

3.
提出一种基于层叠有限状态自动机(CFSA)的中文军事文本时间表达式识别与规范化算法C-TERN。C-TERN首先利用成熟的分词工具识别出文本中的时间词, 然后将从通用语言和军事语言中提取的时间表达式规则分成多层, 逐层进行时间信息的精细识别。在规范化过程中, 通过4个步骤分别对特殊时间表达式、简单时间表达式、时间段表达式和绝对/相对时间表达式进行推理计算和规范化。算法考虑了规则集提取的正确性、规则之间冲突的消解以及匹配方式的合理性。在多个数据集上的实验结果显示, C-TERN不但能有效地识别标准时间、偏移时间和不确定性时间表达式, 而且能完成对简单、特殊以及隐含的时间点、时间段和偏移时间的推理与规范化, 能够满足军事文本时间信息处理的需要。  相似文献   

4.
为了将统计机器翻译技术中的规则信息引入到端到端的神经网络模型中,提出了一种将规则信息转化为近似等价的序列信息的方法.在此基础上,提出了两种融入规则信息的神经机器翻译模型,并在基于注意力机制的循环神经网络(RNN)模型上进行了验证.相对于未融入规则信息的基准模型在美国国家标准与技术研究院(NIST)评测集上的评测结果,上述两种模型的双语互译评估(BLEU)值均有所提高.实验表明,将规则等外部知识融入到神经机器翻译系统中是提升模型翻译质量的一种有效途径.  相似文献   

5.
切分歧义是影响汉语自动分词系统精度的一个重要因素.时间语词包括指明事件发生确定时间位置的时点时间词和指明动作或状态持续一段时间的时段时间词.基于现代汉语语料库加工规范,特定类型的时间语词存在切分歧义及考察时间语词的语用,提出了基于时间语词上下文词性信息的统计语言模型和基于极大似然原理的消解这类歧义的算法,其开放测试正确率约为90%.  相似文献   

6.
新词识别是中文信息处理领域中的一个难点,也是自然语言处理、信息检索和机器翻译等领域的一项基础研究.根据新词特点提出不限领域的基于概率统计技术和规则方法相结合的概念抽取方法,比较了规则和统计结合的方法与纯统计的新词识别方法,通过增加权重设置很好地结合了两种方案.  相似文献   

7.
目前,基于深度学习的神经机器翻译已经成为机器翻译领域的主流方法.神经机器翻译模型相较于统计机器翻译模型具有更庞大的参数规模,因此其翻译质量取决于训练数据是否充足.由于与维吾尔语相关的平行语料资源严重匮乏,神经机器翻译模型在维汉翻译任务上表现不佳,为此提出了一种利用伪语料对神经机器翻译模型进行增量训练的方法,可有效提升神经机器翻译在维汉翻译任务上的质量.  相似文献   

8.
针对传统的基于实例的机器翻译(EBMT)方法中系统构筑复杂度和成本较高的问题,提出一种基于依存树到串的汉英实例机器翻译方法。与传统方法相比,该方法只需进行源语言端的句法结构分析,可以大大降低构筑系统的复杂度,有效降低成本。为了提高翻译精度,引入中文分词、词性标注和依存句法分析联合模型,可以减少汉英EBMT中源语言端基础任务中的错误传递,提高提取层次间特征的准确性。在此基础上,结合依存结构的特征和中英语料的特性,对依存树到串模型进行规则抽取以及泛化处理。实验结果表明,相对于基线系统,该方法可以提高实例对抽取质量,改善泛化规则和译文质量,提高系统性能。  相似文献   

9.
介绍了机器翻译方法和统计翻译模型,利用国际开源软件构建了一个基于短语的蒙汉机器翻译系统.初步试验结果表明,基于短语翻译方法的蒙汉机器翻译系统具有较好的翻译效果.  相似文献   

10.
命名实体识别研究中常见的公开数据集普遍存在数据类别标记不平衡的问题,限制了基于统计学习模型方法性能的进一步提高.针对上述问题,提出了基于遗传算法的数据类别标记平衡方法.该方法基于原始数据集中已有的标记数据,通过修改遗传算法中的指标适应度函数和基因组合规则,合成类别分布均衡的文本用以扩充原始数据集,降低标记数据不平衡性从而改善命名实体识别的效果.为验证该方法的有效性,采用Bi-LSTM-CRF模型分别基于CoNLL 2003及JNLPBA数据集设计了该方法与平衡欠采样、随机过采样方法的对比实验.从实验中发现,提出的方法在CoNLL2003数据集上模型召回率提高3.26%,F_1值提高1.70%;在JNLPBA数据集上召回率提高2.44%,F_1值提高1.03%.实验结果表明,提出的方法能够有效地缓解类别标记失衡问题达到提高命名实体识别效果的目的.  相似文献   

11.
以汉语为研究对象, 提出构建大规模高质量汉语复述平行语料的方法。基于翻译引擎进行复述数据增强, 将英语复述平行语料迁移到汉语中, 同时人工构建汉语复述评测数据集。基于构建的汉语复述数据, 在复述识别和自然语言推理任务中验证复述数据构建及其应用方法的有效性。首先基于复述语料生成复述识别数据集, 预训练基于注意力机制的神经网络句子匹配模型, 训练模型捕获复述信息, 然后将预训练的模型用于自然语言推理任务, 改进其性能。在自然语言推理公开数据集上的评测结果表明, 所构建的复述语料可有效地应用在复述识别任务中, 模型可以学习复述知识。应用在自然语言推理任务中时, 复述知识能有效地提升自然语言推理模型的精度, 从而验证了复述知识对下游语义理解任务的有效性。所提出的复述语料构建方法不依赖语种, 可为其他语言和领域提供更多的训练数据, 生成高质量的复述数据, 改进其他任务的性能。  相似文献   

12.
为了提升身体动作的识别效率,减少身体动作中整体位移对识别效果的影响,提出了一种基于规则的动作快速识别方法.首先,建立简化的关节点模型,并以髋关节中心点建立投影坐标系;其次,定义身体关节夹角和中心参数,设计动作判别函数,基于实验数据建立判别规则库与动作分类库;最后,将实时采集的关键帧数据与规则进行匹配,实现动作的快速识别...  相似文献   

13.
针对目前诊断推理中知识库构建存在知识获取困难,提出了一种基于粗糙集和决策理论的诊断知识库构建模型.该模型引入决策技术和粗糙集理论,对源数据进行预处理,构建决策表,通过属性约简和属性值约简获取故障诊断的最小约简属性集和诊断规则,并建立诊断规则知识库.实例证明在保持故障诊断分类结果的情况下,该方法可以提取出最能反映故障的特征知识,并能有效地解决诊断知识库构建中规则获取的知识冗余或缺失问题,显著提高故障诊断的精度和效率.  相似文献   

14.
局部匹配的人脸识别方法   总被引:1,自引:1,他引:0  
从人类认知方式出发,提出了一种基于统计学习的局部匹配人脸识别方法。该方法将人脸图像划分成若干小块,各个子块中包含不同的人脸形状特征,而不同的子块则描述了人脸主要部件之间的相对位置关系,然后根据各个子块鉴别能力的差异,将每个子块看成一弱分类器,利用Adaboost学习算法组成一个强分类器,提高最终的分类效果。实验结果表明该方法可以有效提高人脸的识别准确率并对人脸的表情和光照具有较好的鲁棒性。  相似文献   

15.
为了改进弹道导弹目标识别过程中多传感器系统传输数据容易产生冲突,以及现有D-S改进算法对冲突证据与不冲突证据难以统一融合的问题,提出了基于专家信任度的弹道导弹目标识别算法,并给出了基于专家信任度的弹道导弹目标识别系统模型和专家知识库模型。新算法将收集到的证据分为冲突证据和不冲突证据,冲突证据集采用专家评判系统进行评判,不冲突证据采用传统D-S理论进行融合,然后将两者得到的结果进行再融合,得到决策结果。实例分析表明,与现有方法相比,新方法不仅能够在证据一致性很好时具有很高的精度,而且当证据高度冲突时也具有很好的融合效果。  相似文献   

16.
针对存在大角度透视变形的集装箱图像,提出一种新的集装箱箱号识别方法.首先对图像进行透视变换校正,然后利用深度卷积神经网络模型定位并识别出集装箱图像中的26个大写英文字母和10个阿拉伯数字,最后利用集装箱箱号的先验知识,通过级联决策规则从候选字符集中识别出集装箱箱号.此方法应用于重庆港集装箱1 035张实景图像,箱号识别精度达97%,基于NVIDIA GeForce GTX1080图形处理器加速的箱号识别速度为每秒2~5帧.  相似文献   

17.
多模医学图像间可能存在复杂的非刚性形变,矫正这类形变需要采用具有较高自由度的非线性变换模型.直接求解非线性变换的高维参数,不仅会增加配准时间,而且也影响配准精度.为此,本文提出一种基于统计形变模型的配准算法,该算法利用统计形变模型对大量多模图像间的非刚性形变进行统计学习,利用由此建立的模型大幅减少变换模型的参数,达到提高图像配准效率和精度的目的.大量的实验结果表明:与基于传统自由形变模型的配准算法相比,本文提出的基于统计形变模型的配准算法其效率可以提高52%,同时目标配准误差平均减少0.503 2个像素.  相似文献   

18.
为了有效利用句法信息指导翻译过程,提出了基于贪心搜索的树-串句法统计翻译模型的正向解码算法.该算法以对数线性模型为整体框架,采用翻译模型概率、语言模型概率和空译文罚分作为特征函数.在解码过程中首先生成初始译文,然后通过遍历句法分析树反复迭代来改进译文.重点研究了解码过程中译文片断的打分方法.实验在IWSLT2004数据集上进行并采用BLEU方法评价翻译结果.实验结果表明正向贪心解码算法在翻译质量和速度上均好于现有的反向解码算法,这说明正向贪心解码算法能够更为有效地利用句法结构信息,更适合于树-串统计翻译模型.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号