首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
阐述了汉文-维吾尔文双语对齐语料库构建的一些技巧,通过实践提出了建设汉文-维吾尔文双语对齐语料库的方法.语料库收集汉文-维吾尔文双语句子对齐语1000句左右,可进行汉文和维吾尔文关键词检索,查询语料库中的汉文-维吾尔文对译句子,进行汉文-维吾尔文句子对比分析研究.  相似文献   

2.
建立了一种德语语料词性标注方法以及基于词性标注的统计方法.初步实验证明了上述方法对德语语料标注和标注后的语料进行单词、词类、短语结构和句子的统计是正确和有效的.  相似文献   

3.
为了提高词性标注模型训练语料的质量,设计了一种利用FP-Growth算法从训练语料库中自动获取词性标注规则的方法,并将该方法与基于Apriori算法的词性标注规则获取方法进行了对比实验.实验结果显示,对于0.1万、0.2万和1万词级的小规模语料库,2种方法获取的词性标注规则条数均相同,但基于FP-Growth算法的时间耗费分别仅为基于Apriori算法的0.013 866%,0.010 399%,0.003 132%;对于10万、100万词级的训练语料库,基于Apriori算法无法获取任何规则,但基于FP-Growth算法依然可以在合理时间内获取有效的规则.这说明,基于FP-Growth算法的词性标注规则获取方法是可行且高效的,满足在优化训练语料库时能从不同规模的语料库中自动获取词性标注规则的实际需求.  相似文献   

4.
汉语–新蒙古文命名实体翻译在跨汉语–新蒙古文信息处理中具有重要意义,而直接使用机器翻译的方法不能达到满意的结果。针对上述问题,提出一种从汉语–新蒙古文平行语料中自动抽取汉语–新蒙古文命名实体翻译对的方法。该方法只需对汉语端进行命名实体标注;然后基于双语HMM词对齐结果,利用滑动窗口的方法抽取所有候选命名实体翻译对;最后基于融合5种特征的最大熵模型,对所有候选翻译单位进行过滤,选取与汉语端命名实体相对应的置信度最高的新蒙古文命名实体翻译单位。实验结果表明,该方法优于基于HMM的方法,在对齐模型只是部分准确的情况下,也获得较高准确率的汉语–新蒙古文命名实体翻译对。  相似文献   

5.
针对隐马尔可夫(HMM)词性标注模型状态输出独立同分布等与语言实际特性不够协调的假设,对隐马尔可夫模型进行改进,引入马尔可夫族模型。,该模型用条件独立性假设取代HMM模型的独立性假设。将马尔可夫族模型应用于词性标注,并结合句法分析进行词性标注。用改进的隐马尔可夫模型进行词性标注实验。实验结果表明:与条件独立性假设相比,独立性假设是过强假设,因而基于马尔可夫族模型的语言模型更符合语言等实际物理过程;在相同的测试条件下,马尔可夫族模型明显好于隐马尔可夫模型,词性标注准确率从94.642%提高到97.126%。  相似文献   

6.
构建大规模的汉英双语平行语料库   总被引:1,自引:0,他引:1  
刘荣 《太原科技》2006,(10):84-85
鉴于互联网上存在着大量的双语互译文本.如何通过这些双语互译文本来建立大规模的双语语料库.是对双语互译文本深加工和不同目的应用的关键问题。主要提出了一个大规模汉英双语平行语料库的构建工作.包括其总体规划、实施模型和流程细节。  相似文献   

7.
基于连接文法的双语E-Chunk获取方法   总被引:2,自引:0,他引:2  
提出了一种面向机器翻译领域的扩展Chunk概念·EChunk是在Chunk概念基础上基于语义惟一性的一种扩展形式,其具体形态表现为具有无歧义性、复现性、可嵌套性、内部结构句法自足性的无歧义机器可翻译单元·讨论了使用连接文法的连接因子进行英语EChunk的识别技术和双语EChunk获取方法·双语EChunk库的建立必将为基于Chunk的机器翻译技术提供极大的支持·  相似文献   

8.
针对藏语区别于英语和汉语,分析藏语的构形特征,得到词性标注集.从人工标注的语料中统计词和词性频率以及训练得到二元语法的HMM模型参数,运用Viterbi算法完成基于统计方法的词性标注.  相似文献   

9.
提出了一种汉-维句子对齐混合算法,它是以基于词典的方法为主、基于长度的方法为辅的一种混合对齐算法.目的在于建立一个以汉文-维文平行语料库及面向政府文献的汉-维机器翻译为应用背景的,实用汉-维句子对齐系统.  相似文献   

10.
随着对外交流的扩大,中国英语的相关翻译成为了汉译英中的一个难点问题,本文以自建的儒家经典双语平行语料库为例,提出建立经典文献的双语语料库,从中搜索相关内容的规范译文,来促进对外翻译水平的提高。  相似文献   

11.
一个改进的汉语词性标注系统   总被引:5,自引:0,他引:5  
汉语词性标注的难点在于确定具有多个词类的词(兼类词)在上下文中的词性。基于兼类词在词典中仅占很小的比例(约为3%),提出了具有双重状态的隐马尔可夫模型,它不但有一个常规的状态转移概率矩阵,还在逻辑上为每个具有多个词类的词保留一个专有的状态转移概率矩阵,使模型从一个状态转移到另一个状态的概率不再和观察无关,提高了模型的精确性。  相似文献   

12.
一种高性能英文词性标注器的设计与实现   总被引:3,自引:2,他引:3  
针对统计和规则方法各自的优点和局限,提出运用Viterbi和FTBL(fast transformation-based learning)算法相级联的算法,实现一种英文自动词性标注器.该级联方法以FTBL算法为整体算法,在它的规则学习和最终标注两个阶段,均以Viterbi算法作为其初始化过程.实验结果表明此算法优于其中任何一种单独的算法,达到了98%的高准确率,验证了自然语言处理中统计与规则并举的主流设计思想.  相似文献   

13.
在对蒙古语语法信息进行研究的基础上,设计了蒙古语单词词性自动识别系统.介绍了词性识别所需要的知识库及识别系统的设计和实现方法.  相似文献   

14.
介绍了针对歌曲检索中出现的中英混合现象所开发的中英双语识别系统。在双语混合语音识别中,主要面临的2个问题:①在保证双语识别率的前提下控制系统的复杂度;②有效处理插入语中原用语引起的非母语口音现象。为了解决双语混合现象以及减少统计建模所需的数据量,通过音素混合聚类方法建立起一个统一的双语识别系统。在聚类算法中,提出了一种新型基于混淆矩阵的两遍音素聚类算法(TCM),并将该方法与基于声学似然度准则的聚类方法进行了比较。实验结果表明:利用TCM进行音素聚类的识别性能优于基于声学似然度音素聚类的性能,最终得到的中英双语识别系统在纯英文测试集上的短语错误率(PER)相对基线单英文识别系统下降7.19%;在双语混合测试集上PER相对基线混合模型下降13.78%;同时在纯中文测试集上保持了基线单中文识别系统的性能。  相似文献   

15.
针对在实体对齐任务中,由于缺少噪音实体对的标记,导致对齐准确率不高的问题,提出采用健壮性实体对齐(Robust Entity Alignment,REA)方法,设计了噪声感知实体对齐模块和噪声检测模块.首先,噪声感知实体对齐模块是基于图卷积神经网络(Graph Convolutional Networks,GCN)的知识图编码器,将知识图谱中的实体对更新嵌入;然后,基于生成对抗网络(Generative Adversarial Networks,GAN)设计了噪声生成器和噪声鉴别器,从而将实体对中的噪音实体对区分出来;最后,通过一种交互的强化训练策略,迭代使噪声感知和实体对齐相结合.实验结果表明,在DBP15K数据集上测试,新方法能有效提高在涉及噪音情况下的实体对齐精准度,与GCN-Align和IPTransE这些基准嵌入模型相比,Hits@1、Hits@5、MRR 3个评价指标上均有较大的提升.  相似文献   

16.
词类标注是自然语言理解中的的一个关键问题,是句法分析和语义分析的基础.本文分析了汉语的多类词现象.提出了在基于神经网络的词类标注方法的基础上,根据汉语的语法结构增加了规则的排歧处理阶段,增加了上下文词类信息的处理能力.实验表明:在原有神经网络方法的基础上,利用规则的方法进行修正,可以提高词性标注的正确率.  相似文献   

17.
在二维零位光栅原理的基础上提出了一种透反式二维零位光栅系统,从理论上分析了系统的可行性,并进行了对准性能的试验.实验数据表明透反式光栅系统比一般的光刻对准技术的对比度更强,判别零位的性能更好.该系统作为一种新型的掩模-硅片对准技术,应用于光刻机中可获得优于20 nm的定位对准精度.  相似文献   

18.
基于MapReduce的中文词性标注CRF模型并行化训练研究   总被引:1,自引:0,他引:1  
针对条件随机场模型面对大规模数据传统训练算法单机处理性能不高的问题, 提出一种基于MapReduce框架的条件随机场模型训练并行化方法, 设计了条件随机场模型特征提取及参数估计的并行算法, 实现了迭代缩放算法的并行。实验表明, 所提出的并行化方法在保证训练结果正确性的同时, 大大减少了训练时间, 效率得到较大提升。  相似文献   

19.
基于HTK的普米语孤立词的识别,通过对特定发音人和非特定发音人的语音进行特征分析、预处理、提取MFCC特征参数,从而建立每个普米词的HMM模型,最后采用Viterbi算法进行模型的训练和匹配.实验表明:对特定发音人和非特定发音人,随着普米词个数的增加,识别率虽有所下降,但是变化很小,识别率均超过了95.00%,识别效果很好.语料的信噪比和发音人的发音稳定性是导致识别率下降的重要原因.  相似文献   

20.
基于幅度差平方和函数的基音周期提取算法   总被引:10,自引:0,他引:10  
为了在任意采样率下都可以高效、准确地进行基音周期提取,提出基于归一化幅度差平方和函数的基音周期提取算法。导出高效计算幅度差平方和函数的方法,时间复杂度是O(N lbN),给出该函数的归一化定义。归一化幅度差平方和函数的取值反映语音信号的非周期性程度,由此定义了基音周期的状态损失函数和转移损失函数,从而能在后处理过程中利用V iterb i算法,确定最优的基音周期序列。实验结果表明:与通用基音提取算法相比,在保证实时性的基础上错误率降低了9.31%,证明使用该算法提高了基音周期提取的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号