首页 | 本学科首页   官方微博 | 高级检索  
     

基于人工标引的中文学术期刊文献自动分类算法
引用本文:王洪,贾惠波,徐端颐. 基于人工标引的中文学术期刊文献自动分类算法[J]. 清华大学学报(自然科学版), 2002, 42(6): 787-790
作者姓名:王洪  贾惠波  徐端颐
作者单位:清华大学精密仪器与机械学系,北京,100084
基金项目:国家“九七三”重点基础研究项目 ( G19990 330 )
摘    要:为了解决期刊电子化的自动分类问题 ,提出了一种基于中文学术期刊人工标引的自动分类算法。这种算法主要利用自动分词得到各文献的特征词向量空间 ,并考虑到人工标引在分类中的关键作用 ,得到综合了特征词 TF和 IDF权重的分类准则。通过适当训练建立分类库 ,计算待分类样本与已知分类的相似性 ,判别各分类。实验表明 :该分类算法可以获得 85 %的分类识别率

关 键 词:自动分类  人工标引  特征词向量空间  文献  中文文本
文章编号:1000-0054(2002)06-0787-04
修稿时间:2001-03-26

Literature automatic categorization of Chinese academic journals based on the manual labeling
WANG Hong,JIA Huibo,XU Duanyi. Literature automatic categorization of Chinese academic journals based on the manual labeling[J]. Journal of Tsinghua University(Science and Technology), 2002, 42(6): 787-790
Authors:WANG Hong  JIA Huibo  XU Duanyi
Abstract:A new literature categorization method based on the manual labeling in Chinese academic journals is introduced to solve the text categorization problem for electronic journal data processing. In this method, the term vector space of text is described by automatic word segmentation. A categorization rule integrates both the term frequency and the inverse document frequency weights by considering the key effect of the manual labeling. The class expert database is built through sample training and the similarity between the known class and the text to be categorized can be computed to determine the text class. Experiments show that the recognition rate of this method is about 85%.
Keywords:automatic categorization  manual labeling  term vector space  literatures  Chinese text
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号