首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于知网语义相似度计算的特征降维方法研究
引用本文:唐歆瑜,乐文忠,李志成,李军义.基于知网语义相似度计算的特征降维方法研究[J].科学技术与工程,2006,6(21):3442-3446.
作者姓名:唐歆瑜  乐文忠  李志成  李军义
作者单位:1. 湖南大学计算机与通信学院,长沙,410082;长沙航空职业技术学院,长沙,410007
2. 深圳市龙岗科技与信息管理局,深圳,518000
3. 创智信息技术有限公司,深圳,518057
4. 湖南大学计算机与通信学院,长沙,410082
基金项目:湖南省科技计划项目(05JT1035)、广东省关键领域重点突破项目(2005A10207003)以及湖南大学05年校基金资助
摘    要:针对文本分类处理中的高维度问题,结合知网语义词典,提出了一种新的特征降维处理方法.通过计算特征词汇之间的语义相似度,将原有特征集分成若干特征词集;同一词集内的特征词语义彼此间相似;而不同词集的特征词彼此间相似度比较小.将同一特征词集内的词汇权重相加,从而突出同义词以及近义词对文本分类的贡献,并可以大大降低文本比较的特征维数.实验结果表明,利用该方法在文本分类中得到了较好的分类准确率和分类性能.

关 键 词:特征降维  文本分类  知网
文章编号:1671-1819(2006)21-3442-05
收稿时间:2006-07-10
修稿时间:2006年7月10日

The Research on Reduced Feature Dimension Based on Hownet Similarity Computing
TANG Xinyu,LI Zhicheng,LE Wenzhong,LI Junyi.The Research on Reduced Feature Dimension Based on Hownet Similarity Computing[J].Science Technology and Engineering,2006,6(21):3442-3446.
Authors:TANG Xinyu  LI Zhicheng  LE Wenzhong  LI Junyi
Abstract:Aimed to solve high dimension in text classification, a new reduced feature dimension measure is provided combining with Hownet semantic dictionary. The semantic similarity among feature glossary is firstly analysised, then the semantic similar features into subclusters is put, which make the primary feature set classified into several subclusters. Finally it condenses the subclusters to reduce feature dimension in text comparison. The experimental results show that the new method can get better performance in text classification.
Keywords:reduced feature dimension  Text classification  Hownetz
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《科学技术与工程》浏览原始摘要信息
点击此处可从《科学技术与工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号