排序方式: 共有55条查询结果,搜索用时 183 毫秒
41.
人名识别是自然语言处理中具有挑战性的任务之一。该文实现了基于条件随机场的维吾尔人名识别。首先从对维吾尔语黏着性特点的分析入手,研究总结了维吾尔人名的构成特点,实现了以词形、词性、词干、后缀、首音节、最后一个音节和最近一个动词等为特征,基于条件随机场的维吾尔语人名识别方法,并设计了选取最佳特征模板的贪婪算法。实验结果表明:该方法达到了较高的性能,识别维吾尔人名的准确率、召回率和F-score分别达到了90.03%、82.96%和86.35%。 相似文献
42.
描述基于统计机器翻译的汉语到维吾尔语的一对一词对齐系统。系统进程分为两个模块:预处理和词字对齐。预处理过程,包括中文文本预处理和维吾尔语文本预处理过程:首先将维吾尔语通过专用工具转换为拉丁维文,然后将拉丁维吾尔语中的特殊文字转换成无歧义的字符。词对齐的实现过程:首先使用IBM模型1,其次利用IBM模型2,构建出一个词对齐系统。实验表明,该系统实现的词对齐比GIZA++中实现的正确率可以提高2.6个百分点。 相似文献
43.
时间名词是汉维两种语言共有的,是一种比较特殊的名词小类.从它的特点来看,汉语名词小类的特点主要表现在句法功能上,而维吾尔语名词小类的特点表现在句法功能以及进入句子时显示的形态特征上. 相似文献
44.
就近年维吾尔语的研究而言,外来词研究的人越来越多,但是外来语素却鲜有涉及。语素是语言中最小的语音语义结合体,相当一部分语素都具有能产性。因此维吾尔语外来语素的研究在词汇学上是很有意义的。本文拟对维吾尔语主要的四种外来语素及其特点进行初步研究,并简单介绍维吾尔语固有语素,以资比较。 相似文献
45.
耿世民 《中央民族学院学报》2004,31(1):126-130
回鹘文《弥勒会见记》是近年出土的用古代维吾尔语写成的重要佛教文献之一。关于本书的文体是剧本抑或是唱本或一般佛经故事,是长期以来国内外学者争论的问题。本文发表了作者新的观点。 相似文献
46.
面向维汉神经机器翻译的双向重排序模型分析 总被引:1,自引:0,他引:1
在维吾尔语到汉语等低资源语料库上, 神经机器翻译的拟合训练容易陷入局部最优解, 导致单一模型的翻译结果可能不是全局最优解。针对此问题, 通过集成策略, 有效整合多个模型预测的概率分布, 将多个翻译模型作为一个整体; 同时采用基于交叉熵的重排序方法, 将具有相反解码方向的翻译模型相结合, 最终选出综合得分最高的候选翻译作为输出。在CWMT2015维汉平行语料上的实验结果表明, 与单一的Transformer模型相比, 改进后的方法提升4.82个BLEU值。 相似文献
47.
48.
维吾尔语是一种黏着语,基于单词的语言模型不太适合于维吾尔语大词汇连续语音识别任务。该文提出了适合维吾尔语的基于音节的语言模型,引入最大匹配分词算法评价音节语言模型在大词汇连续语音识别任务中的单词识别性能。实验结果表明:基于音节的语言模型在未登录词和模型复杂度等方面表现出比基于单词的语言模型更加优越的性能,并且使识别系统的单元错误率比基于单词的系统减少了50%。因此,在维吾尔语语音识别任务上可以将音节作为识别单元。 相似文献
49.
由于相同的宗教信仰,回民汉语方言和维吾尔语中都存在着大量的阿拉伯语和波斯语借词。文章从借词进入借入语后在语音、词义、语义等方面的不同发展变化,尤其是在词义、语义方面的变化,比较了相同的阿拉伯语和波斯语借词进入回民汉语方言与维吾尔语中的不同发展与变化。 相似文献
50.
维吾尔语是一种黏着语,单词不太适合作为维吾尔语大词汇连续语音识别系统识别单元。针对维吾尔语大词汇连续语音识别系统中的识别单元选择问题,设计更适合维吾尔语的子词识别单元,提出维吾尔语单词和子词相结合的组合识别单元构建方法,并对单词、子词和组合识别单元的语言模型和语音识别性能进行评价。实验结果表明,所提出的识别单元在单元数量、语言模型复杂度等方面表现出更加优越的性能,并且使识别系统的单词错误率比基于单词的系统相对减少22%。 相似文献