摘 要: | 为解决图像像素表示汉字特征方法不能有效表示汉字本质特征、空间复杂度较高的问题,提出了一种汉字图特征提取方法.方法主要包含汉字图像二值化,汉字图像骨架提取,汉字图特征提取 3 个部分;二值化消除图像中的噪声,提高图特征提取的准确度;骨架提取保留图像中重要的像素点,剔除无关的像素点;图特征提取将汉字关键点与图数据结构结合来表示汉字形状特征.在3 908 个常用汉字的5 种字体上进行实验.结果表明,该方法能够正确提取笔画复杂汉字的图特征,有效表示汉字本质特征;不同字体汉字图特征相同的汉字数量最高为3 195 个,方法表现较稳定;平均每个汉字可以用 22.6 个图节点、19.1 个边表示,相较于用单通道图像表示汉字特征,可大幅降低空间复杂度.
|