共查询到20条相似文献,搜索用时 15 毫秒
1.
藏文网页搜索是藏文计算机技术和藏文网站发展的必然要求,藏文字的特殊结构和藏文编码的多样性给网页的统一检索造成一定的困难,使用基于Unicode的藏文编码来识别和存储藏文有利于网页搜索的实施。 相似文献
2.
消除重复网页是搜索引擎不可或缺的一部分,藏文搜索引擎也是如此。从信息处理的角度而言,藏文属于“复杂文字”的范畴,其编码在实际使用当中仍不统一。本论文实现了统一的藏文编码并选择合适的Shingle粒度,提出了消除重复藏文网页的完整解决方案。经过试验其效果能够满足藏文搜索引擎消除重复网页的需求。 相似文献
3.
藏文排序在字、词典排序,计算机中藏文的排序等方面有着广泛的应用,文章根据藏文编码国家标准(GB)的整字编码方案,研究藏文的排序问题。通过藏文结构的线性化处理,提出基于藏文编码国家标准的基字定位算法和排序算法,并将应用于藏文电子词典的排序中。 相似文献
4.
垂直搜索中网页抓取技术的研究 总被引:1,自引:0,他引:1
网页抓取是由一个称为网络爬虫的程序实现的,该程序是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上提取新的URL放入队列,直到满足系统的一定停止条件。 相似文献
5.
基于藏文编码GB的藏文排序方法研究 总被引:3,自引:0,他引:3
藏文排序在字、词典排序,计算机中藏文的排序等方面有着广泛的应用,文章根据藏文编码国家标准(GB)的整字编码方案,研究藏文的排序问题。通过藏文结构的线性化处理,提出基于藏文编码国家标准的基字定位算法和排序算法,并将应用于藏文电子词典的排序中。 相似文献
6.
文章采用XML技术对藏文网页排版的版式规则进行描述,并通过脚本技术和样式表技术实现了对藏文网页文本的规范排版. 相似文献
7.
计算机藏文编码性能指标分析 总被引:1,自引:1,他引:1
于洪志 《西北民族学院学报》1997,18(2):15-20
从规范性、兼容性、一致性、完备性四个方面分析了计算机藏文国家标准编码性能指标,论述了建立藏文编码体系的必要性和可行性 相似文献
8.
于洪志 《西北民族学院学报》1999,20(3):15-19
1997 年7 月,国际标准化组织ISO和国际电工委员会IEC表决通过了以中国提案为主的藏文编码字符集.此次发布的藏文编码标准是国际标准ISO/IEC10646《通用多八位编码字符集》的重要组成部分.本文回顾了该标准的研制过程,分析了藏文编码的技术性能指标,论述了它的合理性、科学性和完备性.并建议对藏文上下加变形显形式予以编码,在拼音文字辅助平面建立藏文编码字符集辅助集. 相似文献
9.
王维兰 《西北民族学院学报》2005,26(3):25-29
研究科学、合理的藏文输入方案,使输入法易学、易用、快速和规范是至关重要的.文章强调藏文不“编码”的编码输入表明一种思想:我们不能孤立地讨论编码.藏文拉丁字母转写是一种自然的编码方式,拉丁字母转写转换为藏文的输入不仅在易学、易记、快打、规范以及四者的统一方面有潜力可挖,而且对信息时代的语言规范性研究也有重要意义. 相似文献
10.
藏文编码字符集构件集 总被引:2,自引:1,他引:2
于洪志 《西北民族学院学报》1998,(1)
本文论述了藏文信息结构和构件拆分的原理,采用统计方法,建立了藏文编码字符集构件集,用已编码的藏文字符表示未编码的藏文外字具体字型的结构和内容,说明厂构件集的选取与排序,论证了它的可行性,以期建立全藏文编码体系。 相似文献
11.
藏文在通用字符集UCS中如何进行编码,是藏文软件开发者在现代计算机系统中处理藏文数据所必须具备的知识之一。在设计藏文网页内容、UCS藏文数据的整理、设计藏文应用软件、藏文文本的处理操作、在设计藏文OpenType字库或者在UCS藏文编码模式应用时,首先都要去理解UCS藏文编码模式。文章介绍了UCS的编码体系结构以及UCS中藏文编码模式的组织结构和设计方法,以便于使用OpenType来支持复杂藏文文本的显示和处理,从而进一步提高藏文文本的编辑效率。 相似文献
12.
藏文在通用字符集UCS中如何进行编码,是藏文软件开发者在现代计算机系统中处理藏文数据所必须具备的知识之一。在设计藏文网页内容、UCS藏文数据的整理、设计藏文应用软件、藏文文本的处理操作、在设计藏文OpenType字库或者在UCS藏文编码模式应用时,首先都要去理解UCS藏文编码模式。文章介绍了UCS的编码体系结构以及UCS中藏文编码模式的组织结构和设计方法,以便于使用OpenType来支持复杂藏文文本的显示和处理,从而进一步提高藏文文本的编辑效率。 相似文献
13.
《西北民族学院学报》2010,(4)
藏文分词词典是藏文自动分词系统的的重要组成部分.词典的数据结构与检索速度直接影响到自动分词系统的质量.文章对几种常见的汉语分词词典机制及其效率进行了分析,并根据藏文基本集编码字符串的结构特征,提出了一种逐音节二分的藏文分词词典机制. 相似文献
14.
分析了藏文字符的结构特征,系统阐述了“藏文编码字符集构件集点阵字型”的设计原则、编码技术,这对进一步研制开放性藏文系统提供了理论依据。 相似文献
15.
在藏文数字电话的研究基础上开发藏文短消息的收发功能,实现在移动终端上藏文的传输。文章论述了藏文的特点、Unicode编码的结构、藏文短消息的编码/解码算法以及藏文输入法的设计思路和实现。最终完成藏文短消息的传输编码及应用。 相似文献
16.
为网络环境下个性化信息服务系统实现自动建库功能,提出了一种网络蜘蛛程序的技术方案.该方案使用DELPHI集成开发环境提供的TIdhttp组件抓取网页文本,并利用正则表达式和Mshtml组件从中提取超链信息保存到指定数据库,并能对网页文本进行自动的统计分类. 相似文献
17.
藏文分词是藏文自然语言处理的基础。根据藏文虚词在藏文文本中的特殊作用以及虚词的兼类性、结合性、黏着变体性和还原特性,设计实现了一个基于藏语虚词切分的正向最大匹配的藏文分词系统,该系统对原始文本进行逐次扫描处理得到分词结果。实验表明,文章提出的藏文分词系统具有较高的切分精度和切分速度。 相似文献
18.
19.
全藏文编码体系 总被引:3,自引:3,他引:0
于洪志 《西北民族学院学报》1998,(1)
针对国家标准藏文编码字符集的基本集和辅助集建立在不同平面所存在的问题,该文提出建立全藏文编码体系,给出了藏文合成、生成、分解的规则和方法:通过内码转换表合成藏文内字,实现基本集与辅助集的信息交换;通过构件集,生成规范、标准的藏文外字,满足藏文编码字符集开放性的需要。 相似文献
20.
藏文基本字符识别算法研究 总被引:11,自引:0,他引:11
王维兰 《西北民族学院学报》1999,20(3):20-23,51
对藏文基本字符用投影法:垂直、水平、两对角线四个方向五个子特征进行研究,并给出了特征抽取、模式匹配、字符分类的算法. 相似文献