首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
基于分类的统计语言模型是解决N-gram语言模型中数据稀疏问题的有效方法之一,词的自动聚类算法一直是一个难点.如何设计一种计算速度快、收敛性好的算法是关键.提出一种根据词的上下文环境,综合考虑语言模型的困惑度和词的相似度的自动聚类算法.把词的自动聚类和提高基于分类的语言模型的性能联合起来考虑.实验结果表明,该算法执行效率高、聚类效果好.  相似文献   

2.
互联网大数据的飞速发展对知识库的自动构建提出了迫切需求,互联网定义挖掘是知识发现研究的基础.文章基于N-gram语言模型提出了一种改进的N-gram Plus语言模型,综合了词语、词性、语法依赖关系和定义的语言学模式等多种特征.通过定义挖掘框架生成互联网语料库,在定义抽取研究中引入N-gram Plus特征集和句子最大定义隶属度,将句子转换为多特征向量,比较使用几种分类器进行学习和分类.该方法在实验中取得了较好的F2-measure成绩.  相似文献   

3.
张磊  褚昆  郭黎利 《应用科技》2009,36(4):28-31
针对二元模型,提出了一种基于互信息的回退(MI Back-off)平滑算法.从互信息的角度,分析词之间的搭配关系,根据模型中每个二元对的互信息对其概率进行不同程度的折扣,并利用低阶模型对零概率事件进行补偿,通过极小化困惑度的原则体现新算法的合理性.在不同类别测试集下,该平滑算法与传统Katz平滑算法相比,模型困惑度下降均超过20%。  相似文献   

4.
一种适应域的汉语N-gram语言模型平滑算法   总被引:4,自引:0,他引:4  
针对基于汉语词的 Ngram 模型统计数据稀疏问题和应用域变化造成原统计模型识别性能降低,提出具有应用域适应能力的 Ngram 模型平滑算法。对两种应用域的语料进行了前、后向 0 到3 元文法统计,采用隐马尔可夫模型( H M M)在语音识别中的成功经验,由 Baum w elch 算法来获得优化权值,每个权值代表相关模型的统计可靠性。由前后向的3gram 模型可得到5gram 文法约束的平滑算法,以弥补统计矩阵数据的稀疏现象。将《人民日报》语料的统计结果作为先验统计结果,和《计算机世界》作为转换域的专业语料进行后继训练,得到一种适应应用域的3gram 模型。实验结果表明,前后向约束的3gram 文法得到的5gram 平滑可以较小的存储代价得到较高的文法约束,大大降低了统计模型的困惑度  相似文献   

5.
基于统计的自然语言处理模型采用统计方法进行自然语言建模,实际应用过程中可根据具体情况在多种模型中选择适当的模型,本文简要介绍了N-gram模型和最大熵模型,并给出了几种参数估计和数据平滑方法,为自然语言建模提供了一定的参考。  相似文献   

6.
数据平滑是用来解决统计语言模型在实际应用中遇到的数据稀疏问题.现有平滑技术利用不同的折扣和补偿策略来处理数据稀疏问题,在计算复杂性与合理性方面各有其优缺点.针对二元模型,笔者提出了一种基于全局折扣GD(Global Discount)的平滑技术,其基本思想是对模型中每个二元对的频率值都进行不同程度的折扣,并用低阶模型对零概率事件进行补偿,通过极小化困惑度原则体现了模型的合理性.实验结果表明该平滑技术优于目前常用的Katz平滑技术.  相似文献   

7.
针对传统神经网络语言模型方法只关注词语之间关系或者词语内部信息而导致维吾尔语语言模型困惑度(PPL)过高的问题,提出了融入词素信息的维吾尔语神经网络语言模型.该方法在传统神经网络语言模型的基础上添加了词内结构建模层及合并层,利用双向长短时序记忆网络来捕捉词内结构信息,并与word2vec训练好的词向量相结合作为神经网络语言模型的输入;同时还采用重构N元语法(N-gram)语言模型的方式将神经网络模型应用到汉维统计机器翻译中.实验表明该模型的PPL降低了19.93,在汉维统计机器翻译任务中机器双语互译评估(BLEU)值提升了0.28个百分点.  相似文献   

8.
为了解大学英语大班精读课堂教学过程中学习者的语料理解、处理和语言输出的具体情况,促进大班英语课堂教学,设计了课堂输入语料、语料加工和语言输出的调查问卷.经分析,发现大班精读课堂上学习者的语料理解水平存在较大差异,语料加工和语言输出方面也存在许多问题,建议教师采取措施提高学习者输入语料的理解水平,并对吸纳的话料进行深加工,积极从事语言输出.  相似文献   

9.
为了获得无人水面艇航行的最优路径,提高航行的安全性和航行路径的平滑度,提出一种基于量子粒子群优化的无人水面艇路径规划算法。首先,通过引入动态控制参数来提高该算法的寻优能力和搜索精度,并由测试函数验证其可行性;然后,在航行安全的前提下,以路径长度和路径平滑度为规划目标,在不同环境下对无人水面艇进行路径规划仿真实验。仿真结果表明,该算法在路径长度、路径平滑度及路径安全性方面表现较好,能找到全局最优路径。  相似文献   

10.
可比语料库由于其自身优势和广泛用途逐渐成为语料库研究的热点方向之一,而目前国内俄汉可比语料库相关研究未见学者涉及。通过梳理国内外相关研究成果,设计了一种基于维基百科构建俄汉可比语料库的思路和方法,研制了语料自动获取系统,以篇章对齐为基础建立了俄汉可比语料库,语料字(词)总数达到了百万级,最后利用跨语言相似度计算的方法对俄汉语料的可比度进行计算。计算结果表明该方法能够有效获取可比度较高的俄汉语料,所构建的语料库可被用于俄汉翻译、话语分析及计算语言学研究中。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号