首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于信息提取的面向行业应用文本分类算法
引用本文:郭峰,徐玉生,陈晓云,王颖.基于信息提取的面向行业应用文本分类算法[J].清华大学学报(自然科学版),2005,45(9):1810-1813.
作者姓名:郭峰  徐玉生  陈晓云  王颖
作者单位:兰州大学,信息科学与工程学院,兰州,730000
摘    要:目前,传统文本分类算法都是脱离自然语言语意的.该文使用信息抽取进行了中文文本分类的研究,提出了补偿式信息抽取的主题文本分类算法(CIETC),通过分类补偿文档属性,达到行业文档分类的目的.实验中,以将关于一个人名的所有网络文档自动分类为例,验证了这种面向行业的CIETC分类器的分类性能.结果表明该方法的分类准确率要优于Bayes方法,与KNN方法相当;该方法是一种可行的面向行业细分文本分类方法.

关 键 词:文本分类  信息提取  面向主题  信息检索  自然语言理解
文章编号:1000-0054(2005)S1-1810-04
修稿时间:2005年5月20日

Subject-oriented text classification algorithm based on information retrieval
GUO Feng,XU Yusheng,CHEN Xiaoyun,WANG Ying.Subject-oriented text classification algorithm based on information retrieval[J].Journal of Tsinghua University(Science and Technology),2005,45(9):1810-1813.
Authors:GUO Feng  XU Yusheng  CHEN Xiaoyun  WANG Ying
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号