首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
数据平滑是用来解决统计语言模型在实际应用中遇到的数据稀疏问题.现有平滑技术利用不同的折扣和补偿策略来处理数据稀疏问题,在计算复杂性与合理性方面各有其优缺点.针对二元模型,笔者提出了一种基于全局折扣GD(Global Discount)的平滑技术,其基本思想是对模型中每个二元对的频率值都进行不同程度的折扣,并用低阶模型对零概率事件进行补偿,通过极小化困惑度原则体现了模型的合理性.实验结果表明该平滑技术优于目前常用的Katz平滑技术.  相似文献   

2.
文章在Linux环境下搭建Srilm建模平台,然后对语料进行分块处理,并用N-gram count和N-gram进行计数和语言模型的建立,利用几种平滑算法对其进行了困惑度的测试,最后对这几个困惑度的数值进行比较和数据分析,总结出一个适用于当前语料和语言环境下最优的平滑方法.  相似文献   

3.
一种适应域的汉语N-gram语言模型平滑算法   总被引:4,自引:0,他引:4  
针对基于汉语词的 Ngram 模型统计数据稀疏问题和应用域变化造成原统计模型识别性能降低,提出具有应用域适应能力的 Ngram 模型平滑算法。对两种应用域的语料进行了前、后向 0 到3 元文法统计,采用隐马尔可夫模型( H M M)在语音识别中的成功经验,由 Baum w elch 算法来获得优化权值,每个权值代表相关模型的统计可靠性。由前后向的3gram 模型可得到5gram 文法约束的平滑算法,以弥补统计矩阵数据的稀疏现象。将《人民日报》语料的统计结果作为先验统计结果,和《计算机世界》作为转换域的专业语料进行后继训练,得到一种适应应用域的3gram 模型。实验结果表明,前后向约束的3gram 文法得到的5gram 平滑可以较小的存储代价得到较高的文法约束,大大降低了统计模型的困惑度  相似文献   

4.
在原二次指数平滑模型的基础上 ,提出了一种带有动态平滑参数的指数平滑优化模型 ,包括差分 指数平滑模型 ;通过引入动态参数 ,建立了不需选取平滑初值的新模型 ;采用Fibonacci算法优选并自动生成平滑参数使模型得以优化 .从而较完整地解决了指数平滑预测中 ,平滑参数靠经验确定且为静态、平滑初值难以确定并易导致预测偏差等问题 .  相似文献   

5.
针对位置语言模型没有考虑词与词之间语义关系的问题, 提出一种结合语义的位置语言模型。首先采用高斯核函数来度量词与词之间的位置关系; 然后提出一种平滑互信息的技术来度量词与词之间的语义关系, 证明了平滑互信息能够有效解决大量词对之间无法通过互信息来计算转移概率的问题; 还证明了位置语言模型是结合语义位置语言模型的一个特例; 最后将结合语义的位置语言模型应用于信息检索, 得到一个基于该模型的检索模型。实验结果表明, 基于该模型的检索模型在性能方面要优于基于位置语言模型的检索模型。  相似文献   

6.
数据平滑技术主要是用来解决统计语言模型在实际应用中数据稀疏问题,它是语言建模的核心技术,Katz平滑方法是应用最广泛的方法之一.本文对Katz平滑算法作了改进,使之应用于trigger对的平滑,并在汉语-蒙古语机器翻译系统实现了该算法,实验结果表明该技术可以提高翻译效果.  相似文献   

7.
基于条件互信息下聚类的朴素贝叶斯分类算法   总被引:1,自引:0,他引:1  
 采用条件互信息来度量任意2个条件属性之间的关联程度,采用互信息度量各条件属性与类属性间的关联程度,以此作为将各条件属性进行聚类的准则,提出一种新的将条件属性进行聚类的分组技术.同时,结合朴素贝叶斯分类算法,构造了改进的朴素贝叶斯分类模型.通过仿真实验表明该文提出的算法具有较好的分类性能.  相似文献   

8.
从二次指数平滑模型着手,针对现有指数平滑模型存在的平滑初值难以确定,平滑参数难以选取等问题,提出避免选取平滑初值的修正二次指数平滑模型,以及用斐波那契算法优选平滑参数的方法,预测了江苏省2000年的农业总产值,结果表明预测精度有所提高,针对二次指数平滑模型的新构思对其它指数平滑模型同样适用。  相似文献   

9.
针对位置语言模型没有考虑词与词之间语义关系的问题,提出一种结合语义的位置语言模型。首先采用高斯核函数来度量词与词之间的位置关系;然后提出一种平滑互信息的技术来度量词与词之间的语义关系,证明了平滑互信息能够有效解决大量词对之间无法通过互信息来计算转移概率的问题;还证明了位置语言模型是结合语义位置语言模型的一个特例;最后将结合语义的位置语言模型应用于信息检索,得到一个基于该模型的检索模型。实验结果表明,基于该模型的检索模型在性能方面要优于基于位置语言模型的检索模型。  相似文献   

10.
一种基于链码的轮廓平滑算法   总被引:2,自引:0,他引:2  
研究基于目标轮廓链码的轮廓平滑算法。方法通过对目标轮廓链码的分析,选出在人工目标中出现较少或不可能出现的边缘作为不平滑边缘,通过变换将之转换成平滑边缘。  相似文献   

11.
基于互信息的中文姓名识别方法   总被引:4,自引:0,他引:4  
提出并实现了一个基于互信息的中文姓名识别方法,该方法充分挖掘姓名和其上下文信息的关联程度以及姓名用字之间关联程度的信息,引入互信息对其进行定量的描述;提出中文姓名的上下文互信息、内部互信息等概念,并对其建立了动态评价函数,开放测试结果表明,该方法有效地提高了中文姓名识别的效果,保证了较高的精确率和召回率。  相似文献   

12.
提出了一种基于点互信息的全局词向量训练模型。该模型为了避免GloVe词向量模型中使用条件概率刻画词语关系时所产生的缺点,使用了另一种相关信息——联合概率与边际概率乘积的比值——来刻画词语间的关系。为了验证模型的有效性,在相同条件下,利用GloVe模型和我们的模型训练词向量,然后使用这2种词向量分别进行了word analogy以及similarity的实验。实验表明,模型的准确率在word analogy的Semantic问题中比GloVe模型表现更好,分别在100维、200维、300维的词向量实验中,准确率提升了10.50%、4.43%、1.02%,而在similarity的实验中,模型准确率提升也达5%~6%。结果表明,模型可以更有效地捕捉词语的语义。  相似文献   

13.
基于依存关系的句法分析统计模型   总被引:3,自引:2,他引:3  
利用语义、语法等语言知识,建立一种基于依存关系的句法分析统计模型,并利用改进的句法分析模型进行句法分析实验.研究结果表明:利用依存关系、互信息对词聚类,能解决模型数据稀疏问题;模型可同时考虑几种语义依存关系;该模型是一个词汇化的句法分析模型,能结合分词、词性标注进行句法分析;概率上下文无关语法中由概率的上下文无关性假设和祖先结点无关性假设引起的问题在该模型中得到有效解决;精确率和召回率分别为86.96%和85.25%,其综合指标F与Collins的头驱动句法分析模型的F相比提高4.75%.  相似文献   

14.
分析了个性化信息服务技术中的关键技术,重点研究了用户兴趣模型的创建与更新方法,提出了一种个性化服务系统的原型系统.研究中引入了相关的自然语言处理技术,能够有效实现挖掘、表示及更新用户兴趣模型的目标,并实现信息推送等服务.  相似文献   

15.
现有的文本自动摘要技术大多是运用向量空间模型将文本作为一个整体进行处理,忽略了段落及段落之间的关联程度,导致提取的摘要不能够全面反映所包含的主题,针对这一问题,文章提出了基于互信息的文本自动摘要方法。该方法利用互信息对文本中词语、句子及段落之间的关联程度进行计算,依据关联程度将整个文本划分成包含不同主题的较小单元,并针对每一单元运用优化的句子权重计算方法进行主题句提取,然后利用主题句生成文本摘要。实验验证了方法的有效性,在自动摘要提取方面取得了良好效果。  相似文献   

16.
基于互信息的混合蚁群算法及其在旅行商问题上的应用   总被引:1,自引:0,他引:1  
为了提高蚁群算法的求解性能,从医学图像配准算法的思想出发,提出了一种基于互信息相似度的混合蚁群算法.为了表示最优路径和待配准路径之间的互信息熵,在蚁群算法的概率算子中增加了一个新的相似度影响因子,从而可以增加原算法的全局搜索能力,同时可以加速算法在解空间的搜索速度.将该算法应用在旅行商问题上,根据旅行商问题的特定环境,...  相似文献   

17.
将二次互信息(mutual information)用作模式分类问题中特征选择的准则,分析了该准则在再生核希尔伯特空间中的几何意义.在二次互信息准则基础上,提出了基于Parzen窗密度估计和后向删除策略的特征选择算法PW-QMI,同时针对大规模数据集的情况给出了基于高斯混合模型的算法GMM-QMI,以减小算法的计算复杂度.通过与相关度算法和SVM-RFE算法的实验比较,证明了该算法在特征选择问题上具有更为稳定的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号