首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
层次化蒙古语统计语言模型   总被引:1,自引:0,他引:1  
蒙古文具有典型的构词、构形词缀的特点,一个蒙古语单词往往可以切分成词干和词缀等若干个部分.根据蒙古语的特点,提出了一种层次化的蒙古语语言模型,将蒙古语语言模型分为词干和词干、词干和词缀、词缀和词缀三个层次.在这三个层次上分别计算出独立的语言模型.把这种层次化的蒙古语语言模型方案应用到了一个统计汉蒙机器翻译系统中,实验证明所构造的层次化的蒙古语语言模型能够有效地提高汉蒙机器翻译的效果.  相似文献   

2.
根据维吾尔语黏着型的特点,以及形态化单词和频率进行统计分析之后的结果,为解决因单词形态而导致的数据稀疏问题和兼类词标注的问题,提出了维吾尔文的融合词干、词缀等形态特征的基于最大熵的词性标注模型。在通用的词性标注模型的基础上,构造了相应的词性标注特征模版,并设计了它的特征函数。实验结果分析表明,最大熵模型可以较好地处理维吾尔文词性标注的问题,其中词缀特征对提高兼类词和未登录词的词性标注有着十分显著的效果,与其他只用词形的词性标注系统相比准确率比以前提高了2.64%,达到了96.85%。  相似文献   

3.
英文作文的自动拼写检查研究   总被引:1,自引:0,他引:1  
基于自动拼写检查的研究现状,将英文作文中的拼写错误进行了分类,并分别采用规则匹配和统计建模的方法对单词的非词错误和真词错误进行了研究,从而扩大了对英文单词进行拼写检查的研究范围.真词错误检查主要是利用贝叶斯定理,并通过建立一些特定的混淆集的方法来实现.通过实验数据分析,该系统的准确率达到了80%以上.  相似文献   

4.
针对维汉机器翻译中存在的维吾尔语(下文简称维语)形态复杂性和数据稀疏性问题,提出了一种层次化融合多个维语语法特征的神经网络机器翻译模型.该模型采用4种特征(词干、词性、词缀、词缀形态)作为源端语言附加信息,用于辅助单一词汇形式表示的维语语句;同时引入层次化多特征融合的神经网络结构,用于分层处理维语的词干级和词缀级特征,以增强机器翻译系统对维语的句法结构和语义知识的学习能力,从而提高维汉机器翻译质量.在维汉公开数据集上的实验结果表明,所提出的层次化多特征融合模型可以有效提高维汉机器翻译系统性能,其双语互译评估(BLEU)值和字符匹配度(ChrF3)值均有明显提升.  相似文献   

5.
为了解决基于词语的维吾尔语语音识别系统集外词过多的问题,采用形态分析生成的语素或数据驱动切分生成的统计子词代替词语作为识别系统的词典单元。在此基础上,提出一种根据语素识别系统和统计子词识别系统在声学模型训练数据上的音素错误率差别选择词语最佳分解结果,从而构建语素-统计子词联合词典的方法。在维吾尔语电话交谈式语音识别任务上比较各个系统的性能。实验结果表明,语素或统计子词的运用能有效缓解词语系统集外词过多的问题。与词典大小为200K的词语系统相比,55K的语素-统计子词联合系统使测试集上的音素错误率从45.4%下降到43.8%。  相似文献   

6.
该文使用事件相关电位(event-related potentials,ERPs)以词汇判断的实验范式探讨了维吾尔语形态复杂词加工的认知神经机制。实验刺激材料设计了4个因素,分别为单语素词(没有带任何词缀)、单语素假词(真词中替换2个音构成)、屈折词(单语素名词后加格附加成分构成)、屈折假词(假词干真词缀的词)。实验材料的长度严格控制在平均词长为6个字母。脑电实验数据显示,屈折词和屈折假词在350~550ms时间窗口出现比较明显的N400效应。其中屈折假词的N400效应是被试加工假词时词汇搜索失败的标志,但屈折词的N400效应则反映了词汇通达时词干和词缀之间的交互作用。另外还发现单语素词、屈折词和屈折假词这三者的认知神经基础也不同。在大脑右半球屈折词引发的负波平均振幅比左半球要大。结果表明:母语为维吾尔语者的被试在加工维吾尔语屈折词时按其语素分解加工,但是加工维吾尔语单语素词时是整体加工及存储的。  相似文献   

7.
维吾尔语是一种黏着语,基于单词的语言模型不太适合于维吾尔语大词汇连续语音识别任务。该文提出了适合维吾尔语的基于音节的语言模型,引入最大匹配分词算法评价音节语言模型在大词汇连续语音识别任务中的单词识别性能。实验结果表明:基于音节的语言模型在未登录词和模型复杂度等方面表现出比基于单词的语言模型更加优越的性能,并且使识别系统的单元错误率比基于单词的系统减少了50%。因此,在维吾尔语语音识别任务上可以将音节作为识别单元。  相似文献   

8.
提出了一种基于统计方法和分词的匹配模型,该模型能够根据简称找出最可能的全称。这一模型由三个部分组成:针对不同类别的全称,对兴趣点全称进行分类,将全称划分成机构、公司、行业、区域和未知五类单词;把单词按照长度分为六类,然后在此基础上建立隐马尔可夫统计模型;在越频繁使用的全称越有可能产生简称的假设下,建立一个流行度统计模型。实验表明上述模型的首选准确率达到近85%,比现有搜索引擎的匹配能力有了显著的提高。  相似文献   

9.
针对维吾尔语中构形词缀种类多、构形复杂以及发生音变现象等问题, 提出一种基于字符级的维吾尔语形态协同分析方法。该方法最大的特点是同时进行维吾尔语的形态切分、形态标注以及音变还原, 将词素边界、形态标记以及音变信息用一个复合标记描述, 采用字符序列的标注方法进行训练。实验结果显示, 形态切分、形态标注及音变还原的正确率分别达到96.39%, 92.78%和99.79%, 系统总体正确率达92.59%。  相似文献   

10.
自然拼读法在字母的发音和单词的发音及拼写之间建立起直接的联系,把单词的“音”与“形”相结合,符合语言学习的规律。与“国际音标”相比,该方法只有两个标注符号,简单易懂,有助于学习者掌握字母或字母组合的发音与拼写之间的对应关系,快速提高学习者的单词拼读与拼写能力,是中国人英语学习方法的一次革命。  相似文献   

11.
维吾尔语是一种黏着语,单词不太适合作为维吾尔语大词汇连续语音识别系统识别单元。针对维吾尔语大词汇连续语音识别系统中的识别单元选择问题,设计更适合维吾尔语的子词识别单元,提出维吾尔语单词和子词相结合的组合识别单元构建方法,并对单词、子词和组合识别单元的语言模型和语音识别性能进行评价。实验结果表明,所提出的识别单元在单元数量、语言模型复杂度等方面表现出更加优越的性能,并且使识别系统的单词错误率比基于单词的系统相对减少22%。  相似文献   

12.
针对维吾尔语事件时序关系识别问题,提出了一种结合注意力机制的双向长短时记忆模型.基于维吾尔语语言及事件时序关系的特点,抽取13项基于事件间内部结构信息的特征.将词向量作为双向长短时记忆模型的输入,挖掘给定事件句隐含的上下文语义信息.结合事件触发词建立注意力机制,获取该事件句的事件语义特征.将事件内部结构特征和语义特征相融合,作为softmax层的输入,进而完成事件时序关系的识别.实验结果表明,该方法在获取事件句隐含语义信息的同时也能获取对应的事件语义特征.融合事件内部结构特征后,识别准确率为89.42%,召回率为86.70%,衡量模型整体性能的F值为88.03%,从而证明了该方法在维吾尔语事件时序关系识别任务上的有效性.  相似文献   

13.
基于SVM的分类算法与聚类分析   总被引:5,自引:0,他引:5  
运用结构风险最小化原理和聚类原理,将支持向量机中有监督的分类算法与统计中无监督的聚类算法有机地结合起来。对线性可分与线性不可分两种情况分别建立了无监督的分类模型,模型的求解转化为一个二次规划问题。同时此模型也适合于多分类情况,在应用到心脏病的医疗诊断中,准确率为88.5%,较以前的方法有了明显的提高。  相似文献   

14.
中学生活泼好动,争强好胜,模仿力强,好奇心重,他们的性格特点决定了他们对英语课堂的要求应是轻松、愉快的。若是教师的教学总是沿用一种模式,只会使他们对英语的兴趣逐渐减小,不利于发挥他们的主观能动性。在多年的教学实践中,发现游戏对保持学生英语学习兴趣,对英语教学有着积极的作用。下面介绍几种学生喜欢的英语教学游戏。1单词接力赛通过这个游戏可以检查学生的词汇量及记忆单词的准确率,比单纯地由教师读、学生写的效果要好。具体做法如下:把学生分成两个组,各组的第一个学生同时在黑板上写出一个单词,第二个学生接着写出第二个单词,要求第二个单词的第一个字母必须是第一个单词的最后一个字母,且不能与本组已写过的单词重复。看哪一组在单位时间内写的单词多而且拼写正确,字迹工整为胜。例:rice-egg-great-tea-ask……2查词典比赛做这个游戏时,最好查阅学生即将学习的单词,可以起到预习作用。做法如下:教师读出一个单词的各个字母,连读3遍,读时学生不许动笔,读完后,学生迅速记下字母,然后查词典,要求查出这个单词的读音、第一种词义、第一种词类,最先查到的学生记一分,看谁的成绩最高。例:教师读c、a、p、i、t、a、l,学生查出读音...  相似文献   

15.
针对传统BOV(Bag-of-visual words)模型,存在的歧义视觉单词影响分类精度和效率等问题,采用粗糙集属性约简,提出一种视觉单词生成方法。首先,利用BOV模型,生成训练图像集和视觉词典,并将其抽象为决策信息表,其中:决策表中对象按类分别标记作为决策属性,视觉词典中的视觉单词标记为条件属性;然后根据决策表中决策属性的等价集和条件属性的等价集,建立不相容对象等价集,并对决策表中每一个条件属性进行启发式学习,保留能够引起不相容等价集数目变化的视觉单词,形成必要视觉单词集合;其次,根据必要视觉单词集合,结合相对知识粒度,来衡量决策表中不必要视觉单词的重要度,保存重要度值高的视觉单词,消除属性重要度低的视觉单词,形成约简视觉单词集合,从而有效地消除了视觉词包中,存在的歧义视觉单词;最后通过实验验证了该方法对视觉单词约简是有效的和可行的。  相似文献   

16.
TREC2004 Robust任务有一项新要求,就是要把检索主题按照从易到难的顺序排列.针对新的要求,提出了基于单词歧义性大小的检索主题难易度模型.根据WordNet和它附带的Brown语料库构造了单词义项分布词典,再把检索主题中的单词按歧义性大小分为7类,通过计算平均单词容易度来度量检索主题的难度.实验结果表明,该模型有一定的预测能力.最后用此模型预测了TREC2004 Robust任务的250个检索主题的难易度.  相似文献   

17.
人名识别是自然语言处理中具有挑战性的任务之一。该文实现了基于条件随机场的维吾尔人名识别。首先从对维吾尔语黏着性特点的分析入手,研究总结了维吾尔人名的构成特点,实现了以词形、词性、词干、后缀、首音节、最后一个音节和最近一个动词等为特征,基于条件随机场的维吾尔语人名识别方法,并设计了选取最佳特征模板的贪婪算法。实验结果表明:该方法达到了较高的性能,识别维吾尔人名的准确率、召回率和F-score分别达到了90.03%、82.96%和86.35%。  相似文献   

18.
文章研究的是在维吾尔文字语料库建立过程中,从MS-DOS系统上排版的书刊,杂志中获得维吾尔语单词,并转换到WINDOWS环境上RTF格式的一种快速解决方法,然后提出维吾尔文字Unicode代码对应的RTF代码表和动态生成维吾尔文RTF文件的简单方法。实践证明这种方法有助于提高语料库构造中的大单词收集的效率和质量。  相似文献   

19.
采用模糊切分实现非特定人连接数字语音识别   总被引:1,自引:0,他引:1  
选用倒谱特征、△倒谱特征、能量类特征等多个语音信号特征,采用多码本和HMM/VQ技术实现非特定人连接数字语音识别。在识别阶段,使用帧同步型网络搜索识别算法结合模糊切分实现非特定人连接数字语音识别。数字串识别准确率达到81%以上,而数字识别准确率更高,达到94.4%。  相似文献   

20.
针对维吾尔语命名实体识别存在无法关注词序列依赖关系等问题,提出一种基于迁移学习的联合深度模型(TBIBC).首先通过BERT(Bidirectional Encoder Representations from Transformers)预训练中文数据集生成具有语义信息的词向量,再将词向量序列通过空洞卷积神经网络(IDCNN)进行膨胀操作以减少神经元层数和参数,输出向量输入到双向门控循环单元(BiGRU)进行上下文语义信息提取,然后通过CRF层得到最优标签序列.模型采用共享深度神经网络隐藏层的方法将训练好的中文实体识别模型迁移到维吾尔语模型上.结果表明,该模型的准确率为91.39%,召回率为90.11%,F1值达到90.75%,能显著提升维吾尔语命名实体识别性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号