藏文网页抓取及编码统一转换的系统研究 |
| |
引用本文: | 陈琪,李永宏,于洪志.藏文网页抓取及编码统一转换的系统研究[J].西北民族学院学报,2009,30(2):22-26. |
| |
作者姓名: | 陈琪 李永宏 于洪志 |
| |
作者单位: | 西北民族大学,中国民族信息技术研究院,甘肃,兰州,730030 |
| |
基金项目: | 国家自然科学基金,国家教育部摹金项目 |
| |
摘 要: | 藏文文本资源的收集对藏语信息处理研究有着至关重要的作用.文章在分析国内外藏文网页主要编码方式的基础上,提出了藏文网页的编码识别、自动获取与过滤,文本编码统一转换的算法.系统主要包括网页编码识别网页、自动获取、文本过滤、编码转换等几个模块.在windows平台下对系统的测试结果良好,为藏语电子文本的收集和整理提供了方便、快捷的平台.
|
关 键 词: | 藏文网页 抓取 编码识别 编码转换 |
本文献已被 维普 万方数据 等数据库收录! |
|