摘 要: | 针对传统HMM模型存在的上下文信息获取困难、未登录词无法处理等问题,本文提出一种优化的HMM模型。优化后的模型充分考虑了上下文的语义联系和依赖关系,采用Bi-gram指数线性插值算法,消除零概率事件,并对未登录词进行处理。使用改进的Viterbi算法求解最可能的状态序列并输出结果,提高模型的识别效果。使用简历数据集和CCKS2017电子病历数据集进行模型对比验证,实验结果表明,优化的HMM模型的实体识别效果优于传统的HMM模型,在CCKS2017电子病历数据集中的准确率和F1值分别达到91.61%和91.21%,提升了15.84%和11.78%;在简历数据集中的准确率和F1值分别达到91.29%和91.07%,提升了8.67%和6.88%。
|