摘 要: | 文章提出了一种面向中文专利语义搜索的新方案。通过对涉及审查、无效、侵权等专利对比文件的挖掘,构建了用于语义搜索评估的匹配数据集和排序数据集。从SAO(Subject-Action-Object)三元组知识抽取出发,融合百科知识和HowNet语言知识库,设计开发了SAO知识模型(SAO-Onto)来辅助SAO各元素的语义扩展。综合考虑相似阈值、权重计算、召回排序等策略进一步改进了语义匹配方案。研究结果表明,本文所提出方案在专利召回和排序两个环节中均取得了较好的效果,可以有效提升中文专利语义搜索能力,为后续的工业级应用奠定了基础。
|