首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 578 毫秒
1.
针对文本信息抽取中训练数据来源的多样化,不利于学习到最优的模型参数的问题,提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法. 新算法利用文本排版格式、分隔符等信息,对文本进行分块,在此基础上,通过对训练数据分成多个形式模板训练隐马尔可夫初始概率及转移概率参数,最后,结合统一训练的释放概率参数,对文本信息进行抽取. 实验结果表明,新算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能.  相似文献   

2.
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际应用中模型参数极易陷入局部最优的问题,提出了一种基于改进的粒子群优化算法的隐马尔可夫模型参数优化模型,用于Web信息抽取.以似然概率值作为适应度函数,使用改进的粒子群优化算法结合Baum-Welch算法对HMM模型参数进行全局优化,实现了Web页面信息的抽取.实验结果表明,该算法在精确率和时间等指标上与现有算法相比具有更好的性能.  相似文献   

3.
基于条件随机场的中文科研论文信息抽取   总被引:1,自引:1,他引:1  
科研论文头部信息和引文信息对基于域的论文检索、统计和引用分析是必不可少的.由于隐马尔可夫模型不能充分利用对抽取有用的上下文特征,因此文中提出了一种基于条件随机场的中文科研论文头部和引文信息抽取方法,该方法的关键在于模型参数估计和特征选择.实验中采用L-BFGS算法学习模型参数,并选择局部、版面、词典和状态转移4类特征作为模型特征集.在信息抽取时先利用分隔符、特定标识符等格式信息对文本进行分块,在分块基础上用条件随机场进行指定域的抽取.实验表明,该方法抽取性能明显优于基于隐马尔可夫模型的方法,且加入不同的特征集对抽取性能提升作用不同.  相似文献   

4.
基于混合条件模型的Web信息抽取   总被引:2,自引:0,他引:2  
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数,提出了一种最大熵和最大熵马尔可夫模型相结合的条件模型.该方法对输入的Web页面进行解析并构建HTML树,通过计算HTML子树结点的熵定位数据域,允许观察值表示任意重叠特征(像词、大写、HTML标记、语义)和定义状态序列给予观察序列的条件概率实现了Web信息抽取.实验结果表明,新的方法在精确度和召回率指标上比传统隐马尔可夫模型和最大熵马尔可夫模型具有更好的性能.  相似文献   

5.
基于广义隐马尔可夫模型的网页信息抽取方法   总被引:2,自引:0,他引:2  
针对网页所特有的基于版面结构的特点,利用基于视觉的网页分割算法VIPS对网页分块,得到一种新的状态转移序列,取代了传统的状态转移序列。通过二阶Markov链改进广义隐马尔可夫模型(GHMM)的状态转移和输出观测值假设条件,提出了二阶的广义隐马尔可夫模型。最后通过实验说明改进的GHMM对于网页信息抽取有很高的精确率。  相似文献   

6.
对只能获得部分标记的训练文本,将主动学习方法应用到文本信息抽取中,提出了一种基于主动学习隐马尔可夫模型的文本信息抽取方法.在该方法中,通过主动学习,仅将对隐马尔可夫模型的训练最有价值的训练文本挑选出来进行标记.实验表明,通过选择模型信任值的最佳门槛值,该方法在保证文本信息抽取性能的前提下,大大减少了用户标记训练文本的工作量.  相似文献   

7.
为提高基于隐马尔可夫模型(HMM:Hidden Markov Model)的网页预取精度,对经典隐马尔可夫模型的两个前提假设进行了扩展,推导出新模型中计算观测序列概率的公式.由此构建出可用于网页预取的高阶隐马尔可夫模型,同时为降低高阶隐马尔可夫模型的空间复杂度,给出了构建树状状态空间存储访问序列的算法.介绍了将改进的隐马尔可夫模型应用于网页预取的具体方法,通过对比实验证实该方法的预取准确度提高了7%.  相似文献   

8.
基于文本分块提出一种新的文本信息抽取技术,该技术利用文本的语义特征和结构特征,抽取具有特征的状态,以此结果为基础,进一步运用改进的隐马尔可夫模型,抽取剩余的无特征状态.对美国CMU大学CORA搜索引擎研制组提供的数据集中的100篇进行测试,结果显示精确度和召回率比基于单词和传统隐马尔可夫模型的方法都有所提高,并进一步提高了效率.  相似文献   

9.
基于隐马尔可夫模型和遗传算法的地图匹配算法   总被引:1,自引:0,他引:1  
综合采用隐马尔可夫模型(HMM)和遗传算法,提出了一种新的地图匹配算法.首先初始化HMM概率矩阵,然后使用前向后向算法进行参数学习,用Viterbi算法预测一组路段序列,最后将路段序列作为种群,通过遗传算法得到最优的路段序列.采用北京市2012年出租车GPS定位数据分别对传统的基于隐马尔可夫模型的算法和新算法进行测试,实验结果表明,传统的基于隐马尔可夫模型的算法的匹配精确度低于90%,新算法的匹配精确度高达90%以上.  相似文献   

10.
全面详细地研究了用户个性化W eb信息采集算法,并提出了一个基于指定站点的用户个性化W eb信息采集模型;实验结果表明,在一个用户指定的站点内,该模型可以快速的采集到根据用户需求定制的页面,并存储到本地的文件系统中.这个采集模型具有较强的实用价值,可以为创建某方面的资源库快速的采集信息.  相似文献   

11.
基于多维参数的语音身份认证系统研究   总被引:1,自引:0,他引:1  
本文研究了与文本相关说话人语音通过多维参数的语音身份认证系统进行身份认证的过程。重点研究了小波降噪、语音增强、辅助加权MFCC语音特征提取,混合HMM语音辨识的算法及实现问题。试验表明该技术在认证效率、准确度、自适应性方面有较好表现。  相似文献   

12.
在经典隐马氏模型中,假设状态转移概率只和当前状态的临近状态有关,而和以前的状态无关;在t时刻输出观测值的概率只和当前状态有关,而和以前的状态无关.这样的假设不是很合理,因为任一时刻的观测值不仅和当前状态有关,还和以前的状态有关.由此提出了二阶隐马氏模型的基于最大互信息的参数估计算法.  相似文献   

13.
基于特征和HMM的信息提取   总被引:1,自引:0,他引:1  
为了解决在信息提取中,召回率和精度都不高的问题,提出了改进的HMM(Hidden Markov Models)模型,该模型采用一种新的文本分块技术。通过文本的语义特征和结构特征,抽取具有特征的状态,并在此基础上,抽取剩余的无特征的状态改进HMM,测试了由卡耐基梅隆大学数据搜索引擎研究小组所提供的100篇计算机科学文件头部。结果表明,与基于字词和传统的HMM方法相比,召回率和精确率分别达到了91.99%和94.79%。  相似文献   

14.
一种基于隐马尔可夫模型的在线手写签名认证算法   总被引:1,自引:0,他引:1  
给出一种对签名特殊点的提取方法, 并以此特殊点作为签名的分割点, 获取每段中的重要特征进行分析. 在此基础上, 提出一种基于隐马尔可夫模型(HMM)的在线手写签名认证算法, 并利用第一届国际手写签名认证竞赛(SVC 2004)的测试数据库检验了算法的有效性.  相似文献   

15.
目的为了得到一种基于多相关系数分组二阶隐马尔可夫模型(second-or-der HMM:HMM2)的学习算法。方法最大似然准则,Lagrange乘子法。结果给出了在观测噪声和马尔可夫链不相互独立条件下二阶隐马尔可夫模型(second-or-der HMM:HMM2)的结构,获得了在多观测序列不相互独立的情况下HMM2的Baum-Welech学习算法。结论为得到充足数据,以对所有参数可靠估计,必须使用多观测序列。所获算法避免了直接计算条件概率的困难,考虑了训练序列间的相关性,故使计算过程更为便捷,在观测序列分组均匀相关情况下非常有用。  相似文献   

16.
蛋白质二级结构与蛋白质三级结构及蛋白质功能密切相关,是生物信息学研究的热点,其中概率图模型隐马尔可夫算法(HMM)是该领域研究的重要工具。但是在实际应用中,存在着HMM训练下溢、不同训练集的效果差异较大及参数优化困难等问题。对预测蛋白质二级结构时HMM遇到的训练下溢问题提出了改进方案;首次提出8-状态HMM来预测蛋白质二级结构,并且将参数B改进成为包含状态转移信息的三维参数;为了改进最优HMM模型的确定方法,用每个样本分别对初始HMM模型进行训练,得到一系列新的模型,然后对这些新模型的参数求均值,将求得的均值作为最优模型的参数。这些改进方法提高了HMM预测蛋白质二级结构的准确率,为HMM的进一步优化打下良好的基础。  相似文献   

17.
基于最大互信息的离散隐马尔柯夫模型训练方法   总被引:4,自引:1,他引:3  
在基于隐马尔柯夫模型(HMM)的语音识别系统中,模型训练最常用的算法是Baum-Welch算法,该算法具有快速收敛及保证每步迭代模型的似然概率单调增的优点,但它基于最大似然训练准则,而该准则不能将各个模型很好地分析,这直接导致了识别时的错误,鉴于最大互信息可以克服这一缺点,提出了一种基于最大互信息的训练方法,该方法借助于梯度,调整参数以使模型与训练数据的互信息最大,实验结果表明,使用该方法使系统的识别性能得到了一定的改善。  相似文献   

18.
为了准确地对人的身份进行识别,利用图像中脉络延伸方向与脉络间位置的相互联系,将隐马尔科夫模型(HMM)应用于识别系统中,提出了一种基于遗传算法自适应建立HMM的静脉识别算法.图像经预处理后得到静脉的骨架信息,将细化后的静脉图像进行Radon变换,每一静脉对象可表示为一个HMM;对于已知确定的训练样本库,利用遗传算法自适应调整HMM参数,使所有测试图像的观测序列在真实匹配模型中发生的概率值远远大于其在虚假匹配模型中发生的概率值,提高了不同静脉对象的区分度.实验表明,该算法具有较高的正确识别率,并具有良好的实时性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号