首页 | 本学科首页   官方微博 | 高级检索  
     

通用简易中文文本压缩方法研究
引用本文:游荣彦,李吉桂. 通用简易中文文本压缩方法研究[J]. 华南师范大学学报(自然科学版), 2001, 0(2): 84-88
作者姓名:游荣彦  李吉桂
作者单位:华南师范大学计算机科学系,
摘    要:该文把GB2312-80的汉字转换为从0至6767的短整型数,这些短整型数据有一个共同的存储特点:它们的2字节中的高3位(称为冗余位)皆为0。删除冗余位而重组其余位即可形成压缩文本。这种压缩方法显然是简单、快捷、容量实现和对GB2312-80汉字是普遍适用的。

关 键 词:文本压缩 LZ算法 按位与运算 汉字数值化 短整型数据 冗余位 无损压缩
文章编号:1000-5463(2001)02-0084-05
修稿时间:2001-02-13

RESEARCH ON UNIVERSAL AND SIMPLE COMPRESSION METHOD FOR CHINESE TEXTS
YOU Rong-yan,LI Ji-gui. RESEARCH ON UNIVERSAL AND SIMPLE COMPRESSION METHOD FOR CHINESE TEXTS[J]. Journal of South China Normal University(Natural Science Edition), 2001, 0(2): 84-88
Authors:YOU Rong-yan  LI Ji-gui
Abstract:In this paper, the chinese characters of GB2312-80 are transformed into short integral numbers distributing from 0 to 6767. Every one of these short integral numbers is stored in a cell of two bytes, and the 3 higher bits, named redundance bits, in the cell are always zero. Omitting the redundance bits and reorganizing the others, the compression text of chinese characters is formed. The compression method is simple, quick, easy to implement and universal for all texts of chinese characters of GB2312-80.
Keywords:coding   compression of texts   LZ algorithm   bits   AND operation bit-by-bit
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《华南师范大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《华南师范大学学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号