首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于文本频谱的中文文本聚类方法
引用本文:周扬,屈武斌,卢一鸣,张成岗,杨毅.基于文本频谱的中文文本聚类方法[J].四川大学学报(自然科学版),2012,49(6):1386-1394.
作者姓名:周扬  屈武斌  卢一鸣  张成岗  杨毅
作者单位:1. 四川大学生命科学学院,生物资源与生态环境教育部重点实验室,成都 610064;军事医学科学院放射与辐射医学研究所,蛋白质组学国家重点实验室,北京 100850
2. 军事医学科学院放射与辐射医学研究所,蛋白质组学国家重点实验室,北京 100850
3. 四川大学生命科学学院,生物资源与生态环境教育部重点实验室,成都 610064
基金项目:国家自然科学基金项目(30971557,30971816,30900830, 30900862)
摘    要:本文提出了利用文本频谱进行中文文本轮廓分析的表征方式.该方法基于不同时代、体裁和领域的文本在文字使用方面具有偏好性的假说,以文本中单个字符为单位,通过文本频谱刻画方法统计所有单字符在文本中出现的频率,并使用刻画出的文本频谱对文本进行表征;利用频谱比对分析技术,可计算出任意文本间的距离,并以此距离为基础进行聚类分析.进一步的实验证实了该方法的有效性.

关 键 词:文本频谱  频谱比对  文本分析  文本聚类
收稿时间:2011/5/11 0:00:00

Text profiling based chinese text analysis and clustering
ZHOU Yang , QU Wu-Bin , LU Yi-Ming , ZHANG Cheng-Gang , YANG Yi.Text profiling based chinese text analysis and clustering[J].Journal of Sichuan University (Natural Science Edition),2012,49(6):1386-1394.
Authors:ZHOU Yang  QU Wu-Bin  LU Yi-Ming  ZHANG Cheng-Gang  YANG Yi
Institution:1 (1.Key Laboratory of Bio-Resources and Eco-Environment of MOE,College of Life Sciences, Sichuan University.Chengdu 610064,China; 2.Beijing Institute of Radiation Medicine,State Key Laboratory of Proteomics,Beijing 100850,China)
Abstract:In this paper, a Chinese text representation method by using text profiling approach was presented. This method is based on the hypothesis that, texts in different eras, styles and fields have biases in the use of characters. Text profiling was construct by counting the frequency of each character in the text in character level, and use the constructed text profiling to present the whole text. In addition, the distance between the two given texts was calculated by using text profiling alignment method. Finally, an effective text clustering method was developed on the basis of the distance. The experimental results validated the efficiency of the method.
Keywords:text profiling  profiling alignment  text analysis  text clustering
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《四川大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《四川大学学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号