基于关键词提取的专利在先技术搜索方法研究 |
| |
引用本文: | 周栋,刘建勋,王弦,张三蓉.基于关键词提取的专利在先技术搜索方法研究[J].山西大学学报(自然科学版),2014(1). |
| |
作者姓名: | 周栋 刘建勋 王弦 张三蓉 |
| |
作者单位: | 湖南科技大学知识处理与网络化制造湖南省普通高校重点实验室;湖南科技大学计算机科学与工程学院; |
| |
基金项目: | 国家自然科学基金(61300129;61272063);湖南省杰出青年基金(11JJ1011);教育部留学回国人员科研启动基金(教外司留[2013]1792);湖南科技大学SRIP项目(SYZ2013037);湖南科技大学研究生创新基金(S130025) |
| |
摘 要: | 专利在先搜索是专利检索的一种重要方法,在实际实施时,需从全文查询词中提取关键词来进行搜索。本文尝试研究用于查询词中关键词的提取的7种方法对专利搜索的功效。首先介绍了单频词去除、TF方法、TFIDF方法、BM25方法、基于语言模型的方法、基于相关反馈的方法以及基于IPC分类等7种关键词提取方法,然后开展了在两个不同CLEF-IP数据集上的大规模实验验证和评测工作,详细比较分析了这些方法及使用专利全文作为查询词在专利搜索中的不同性能和效率。实验结果表明,在信息检索中能取得不错结果的方法未必在专利搜索中取得同样的效果。论文亦发现一般选取65-95个关键词可以取得不错的结果。从准确率上来说,TFIDF方法性能最高,而基于IPC分类的方法可以提高召回率。
|
关 键 词: | 专利搜索 关键词抽取 在先技术 |
本文献已被 CNKI 等数据库收录! |
|