因特网上的写作风格鉴别 |
| |
引用本文: | 金奕江,孙晓明,马少平.因特网上的写作风格鉴别[J].广西师范大学学报(自然科学版),2003,21(1):62-66. |
| |
作者姓名: | 金奕江 孙晓明 马少平 |
| |
作者单位: | 清华大学,计算机系,智能技术与系统国家重点实验室,北京,100084 |
| |
基金项目: | 国家863计划基金资助项目(2001AA114082);清华大学校内基金资助项目(JC2000027) |
| |
摘 要: | 根据写作风格来鉴别作者这一问题在国外很早就已经开始研究了,并有很多成功应用,而针对中文的研究却非常少,首次提出了使用文章中虚词频率分布作为特征来研究这一问题,采用了两种不同的规格化方法来消除文章长度的差异,并采用了多种不同的分类方法,实验结果表明虚词频率作为特征是行之有效的,即使采用最简单的模板匹配的识别方法都能够取得很好的识别效果,采用SVM等方法可以进一步提高识别率,此外可以在一定范围内减少使用的虚词的数量,而不损失识别效果。
|
关 键 词: | 因特网 写作风格 文本分类 虚词频率 作者鉴别 特征选择 身份识别 |
文章编号: | 1001-6600(2003)01-0062-05 |
修稿时间: | 2002年7月28日 |
STYLISTICS BASED WRITER IDENTIFY ON INTERNET |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 维普 万方数据 等数据库收录! |