排序方式: 共有1条查询结果,搜索用时 0 毫秒
1
1.
【目的】表格文档作为数据信息的主要载体,如何从海量表格中准确提取关键信息也是技术难点之一。【方法】现有的端到端方法和基于预训练模型的方法在训练过程中并未有效利用表格单元格的结构信息,影响了文本在模型中的向量表示,从而影响了最终的语义信息抽取精确率。故本文针对两类方法都存在的问题,提出了进一步利用单元格结构信息来改进OCR识别效果的端到端方法和增加单元格序列预测任务的预训练方法。【结果】实验结果表明,改进后的两种方法在表格语义信息抽取任务中取得了更好的效果,F1值分别提升了0.2046和0.0176。【结论】加强了单元格结构信息在表格中的重要性, 提高了表格语义信息抽取的精确率。 相似文献
1