首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于融合条目词嵌入和注意力机制的自动 ICD 编码
引用本文:张虹科,付振新,任前平,徐辉,赵东岩,严睿.基于融合条目词嵌入和注意力机制的自动 ICD 编码[J].北京大学学报(自然科学版),2020,56(1):1-8.
作者姓名:张虹科  付振新  任前平  徐辉  赵东岩  严睿
作者单位:1. 北京大学王选计算机研究所, 北京 100871 2. 生命奇点(北京)科技有限公司, 北京 100080
基金项目:国家重点研发计划(2017YFC0804001)和国家自然科学基金(61672058, 61876196)资助
摘    要:构建一种基于融合条目词嵌入和注意力机制的深度学习模型, 可以充分利用电子病案中的多种非结构化文本数据, 对病案首页的主要诊断进行自动ICD编码。该模型首先对含有病案条目的文本进行融合条目的词嵌入, 并通过关键词注意力来丰富词级别的类别表示; 然后利用词语注意力来突出重点词语的作用, 增强文本表示; 最后通过全连接神经网络分类器进行分类, 输出ICD编码。通过在中文电子病案数据集上的消融实验, 验证了融合条目词嵌入、关键词注意力和词语注意力的有效性; 与多个基准模型相比, 所建模型在对81 种疾病的分类中取得最好的分类效果, 可以有效地提高自动ICD编码的质量。

关 键 词:自动ICD  编码  融合条目词嵌入  关键词注意力  词语注意力  病案首页  主要诊断  
收稿时间:2019-05-22

Automated ICD Coding Based on Word Embedding with Entry Embedding and Attention Mechanism
ZHANG Hongke,FU Zhenxin,REN Qianping,XU Hui,ZHAO Dongyan,YAN Rui.Automated ICD Coding Based on Word Embedding with Entry Embedding and Attention Mechanism[J].Acta Scientiarum Naturalium Universitatis Pekinensis,2020,56(1):1-8.
Authors:ZHANG Hongke  FU Zhenxin  REN Qianping  XU Hui  ZHAO Dongyan  YAN Rui
Institution:1. Wangxuan Institute of Computer Technology, Peking University, Beijing 100871 2. Gennlife (Beijing) Technology Ltd, Beijing 100080
Abstract:The authors propose a neural model based on word embedding with entry embedding and attention mechanism, which can make full use of the unstructured text in the electronic medical record to achieve automated ICD coding for the main diagnosis of the medical record home page. This method first embeds the words which contain the medical record entries into word embeddings, and enriches word-level representation based on keyword attention. Then, the word attention is used to highlight the role of key words and enhance the text representation. Finally, ICD codes are output by a fully connected neural network classifier. Ablation study on a Chinese electronic medical record data set shows that word embedding with entry embedding, keyword attention and word attention is effective. The proposed model gets the best results for 81 diseases classification compared with baselines and can effectively improve the quality of automated ICD coding.
Keywords:automated ICD coding  word embedding with entry embedding  keyword attention  word attention  medical record home page  main diagnosis  
本文献已被 CNKI 等数据库收录!
点击此处可从《北京大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《北京大学学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号