首页 | 本学科首页   官方微博 | 高级检索  
     

基于汉字字频向量的中文文本自动分类系统
引用本文:曹素丽,曾伏虎,曹焕光. 基于汉字字频向量的中文文本自动分类系统[J]. 山西大学学报(自然科学版), 1999, 22(2): 144-149
作者姓名:曹素丽  曾伏虎  曹焕光
作者单位:1. 太原电信局,030001
2. 山西大学计算机科学系,太原,030006
摘    要:提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计(LinearLeastSquareFil,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类

关 键 词:文本分类,中文文本自动分类,字频向量,基于实例的映射函数,语料库,汉字

The System for Automatic Text Categorization Based on Chinese Character Vector
Cao Suli,Zeng Fuhu,Cao Huanguang. The System for Automatic Text Categorization Based on Chinese Character Vector[J]. Journal of Shanxi University (Natural Science Edit, 1999, 22(2): 144-149
Authors:Cao Suli  Zeng Fuhu  Cao Huanguang
Abstract:This thesis proposes an example-based mapping method, which uses Chinese Charaoter (CC) vector as the means of text representation based on the statistic properties of CCs for Chinese text categorization. The most distinguishable characteristics of this method is introducing the LLSF (Linear Least Square Fit) technique to build the categorization model. By learning the relevance information from manually categorized training corpus, this model ultimately generates a mapping function from CC space to category space based on global least mapping error and uses this mapping function to predict the categories of arbitrary texts.
Keywords:text categorization   automatic Chinese   text categorization Chinese character frequency vector   example-based mapping method   corpus  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号