首页 | 本学科首页   官方微博 | 高级检索  
     检索      

藏文网页抓取及编码统一转换的系统研究
引用本文:陈琪,李永宏,于洪志.藏文网页抓取及编码统一转换的系统研究[J].西北民族学院学报,2009,30(2):22-26.
作者姓名:陈琪  李永宏  于洪志
作者单位:西北民族大学,中国民族信息技术研究院,甘肃,兰州,730030 
基金项目:国家自然科学基金,国家教育部摹金项目 
摘    要:藏文文本资源的收集对藏语信息处理研究有着至关重要的作用.文章在分析国内外藏文网页主要编码方式的基础上,提出了藏文网页的编码识别、自动获取与过滤,文本编码统一转换的算法.系统主要包括网页编码识别网页、自动获取、文本过滤、编码转换等几个模块.在windows平台下对系统的测试结果良好,为藏语电子文本的收集和整理提供了方便、快捷的平台.

关 键 词:藏文网页  抓取  编码识别  编码转换
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号