首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
藏文文本资源的收集对藏语信息处理研究有着至关重要的作用.文章在分析国内外藏文网页主要编码方式的基础上,提出了藏文网页的编码识别、自动获取与过滤,文本编码统一转换的算法.系统主要包括网页编码识别网页、自动获取、文本过滤、编码转换等几个模块.在windows平台下对系统的测试结果良好,为藏语电子文本的收集和整理提供了方便、快捷的平台.  相似文献   

2.
消除重复网页是搜索引擎不可或缺的一部分,藏文搜索引擎也是如此。从信息处理的角度而言,藏文属于“复杂文字”的范畴,其编码在实际使用当中仍不统一。本论文实现了统一的藏文编码并选择合适的Shingle粒度,提出了消除重复藏文网页的完整解决方案。经过试验其效果能够满足藏文搜索引擎消除重复网页的需求。  相似文献   

3.
文章采用XML技术对藏文网页排版的版式规则进行描述,并通过脚本技术和样式表技术实现了对藏文网页文本的规范排版.  相似文献   

4.
一种编辑距离算法及其在网页搜索中的应用   总被引:1,自引:0,他引:1  
针对传统方法不能很好地处理网页中简短域与用户查询之间的相关性排序问题,提出一种基于改进的编辑距离排序算法.将以词为单位的用户查询和简短网页域通过匹配编码转化为2个字符串,再利用改进的编辑距离计算2个字符串之间的相似性.由于在用户查询与待比较的简短网页域之间引入了查询词分布的位置、顺序和距离等,以及含有查询词修饰关系的重要信息,所以编码字符串之间的相似程度可以衡量对应的查询与简短网页域之间的相关性.经大规模真实搜索引擎实验表明,该算法较之传统的相关性排序算法,可以显著地提高网页搜索中的简短网页域相关性排序性能,尤其适用于简短域与用户查询之间的相关性比较.  相似文献   

5.
网页瘦身的必要性及实现策略   总被引:1,自引:0,他引:1  
随着Web技术的发展,基于可视化编辑环境的网页制作越来越普遍。如何提高网页的打开速度一直是人们所关注的问题。网页瘦身作为网页制作的一个重要环节,日益被网站建设者所重视。本文从网页设计者、网页浏览者和网页搜索引擎三个角度对网页瘦身的必要性进行了分析,并从代码瘦身、图片瘦身和压缩瘦身三个方面对这项技术进行了阐述和归纳。  相似文献   

6.
近年来,随着互联网技术的迅速发展,藏文网站得到了广泛普及,但是用户通过前台与后台数据库进行藏文数据的交互访问时,在藏文输入上遇到了很多问题,如本机未安装藏文输入法或本机藏文输入法在藏文网页上输入时,输入无法实现或显示不正常、提交出错等问题。针对以上问题,项目组研究开发了基于藏文编码字符集国家标准的一种能够即时、在线输入藏文的输入法。文章阐述了藏文在线输入法的设计思想以及实现过程,介绍了该技术的设计原理以及流程,并给出了与其它网页编辑器的结合方式。  相似文献   

7.
近年来,随着互联网技术的迅速发展,藏文网站得到了广泛普及,但是用户通过前台与后台数据库进行藏文数据的交互访问时,在藏文输入上遇到了很多问题,如本机未安装藏文输入法或本机藏文输入法在藏文网页上输入时,输入无法实现或显示不正常、提交出错等问题.针对以上问题,项目组研究开发了基于藏文编码字符集国家标准的一种能够即时、在线输入藏文的输入法.文章阐述了藏文在线输入法的设计思想以及实现过程,介绍了该技术的设计原理以及流程,并给出了与其它网页编辑器的结合方式.  相似文献   

8.
提出了一种采用基于兴趣模型的搜索策略的主题搜索机器人,用候选URL的web网页权值代替入链web网页的内容,在进行搜索的过程中它能学习环球网的链接结构特征,搜索属于特定语义相关主题的重要、web网页的环球网子集.  相似文献   

9.
针对元搜索的重复网页问题,提出基于元搜索的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的结果网页的URL进行比较,然后对各结果网页的标题进行有关处理,提取出网页的主题信息,再对摘要进行分词,计算摘要的相似度,三者结合能很好的检测出重复网页,实现网页去重。该算法有效,并且比以往算法有明显的优势,更接近人工统计结果。  相似文献   

10.
梅林 《甘肃科技》2008,24(1):41-42,62
目前动态网站已经是网站建设的主流.网络搜索是从因特网上快速有效获取信息的主要手段,传统的针对静态网页处理为主的搜索引擎策略已经越来越不适用于现在的网络环境.本文总结了几种适用于动态网页的搜索引擎策略,大大增加了动态网页对搜索引擎的可见度.  相似文献   

11.
文章依据所抓取的大量藏文网页URL,对相关的藏文信息网页进行除噪去重处理,得到较为完善的藏文信息库。对用户要查询的藏文信息进行预处理和藏文语义标注,通过基于本体的词汇相关性算法,扩展藏文的查询词汇,建立一对多的藏语词汇联系,从而实现藏文查询中的相关性检索,得到更加符合用户需求的语义关联网页信息。  相似文献   

12.
循证医学信息化若干关键技术的研究   总被引:1,自引:1,他引:0  
由于Web信息检索返回页面的数量巨大,对搜索结果进行排序成为影响搜索质量的一个重要问题.分析了搜索引擎Google采用的PageRank算法,指出其具有偏重旧网页和忽视专业站点的不足,考虑网页日期这一重要因素改进了PageRank算法,试验结果表明,改进的算法可以提高判断网页重要性的准确度.最后介绍了如何通过个性化服务来发现与用户兴趣相似的资源.  相似文献   

13.
藏文在通用字符集UCS中如何进行编码,是藏文软件开发者在现代计算机系统中处理藏文数据所必须具备的知识之一。在设计藏文网页内容、UCS藏文数据的整理、设计藏文应用软件、藏文文本的处理操作、在设计藏文OpenType字库或者在UCS藏文编码模式应用时,首先都要去理解UCS藏文编码模式。文章介绍了UCS的编码体系结构以及UCS中藏文编码模式的组织结构和设计方法,以便于使用OpenType来支持复杂藏文文本的显示和处理,从而进一步提高藏文文本的编辑效率。  相似文献   

14.
林强 《咸宁学院学报》2012,32(2):154-156
介绍了笔者所设计的一个校园网搜索引擎(SzCompass)中的网页排序算法。首先详细分析了通用搜索引擎常用的PageRank和HITS网页排序算法;通过比较在校园网和Internet上搜索的主要区别,设计了一种适合校园网的多参数加权的网页排序算法,并对利用该算法实现的搜索引擎的检索效率进行了实验分析。  相似文献   

15.
面向主题的网页搜索系统   总被引:13,自引:0,他引:13  
论述了一个面向主题的网页搜索系统(SATWP),该系统与智能代理的辅助下具有搜索,导航,以及信息反馈等功能。在判断网页与查询主题的相关度时改变了单纯的从网页内容上考虑的方法,即从网页自身的URL,网页间的关系以及网页的内容来判断。SATWP采用在客户端的智能代理记录用户的浏览行为,并把有关信息反馈给服务器,服务器根据这些信息随时调整数据库中相关网页的重要性顺序,增加了自身的学习功能,试验结果表明,该系统具有较高的准确度。  相似文献   

16.
藏文在通用字符集UCS中如何进行编码,是藏文软件开发者在现代计算机系统中处理藏文数据所必须具备的知识之一。在设计藏文网页内容、UCS藏文数据的整理、设计藏文应用软件、藏文文本的处理操作、在设计藏文OpenType字库或者在UCS藏文编码模式应用时,首先都要去理解UCS藏文编码模式。文章介绍了UCS的编码体系结构以及UCS中藏文编码模式的组织结构和设计方法,以便于使用OpenType来支持复杂藏文文本的显示和处理,从而进一步提高藏文文本的编辑效率。  相似文献   

17.
用样式表制作蒙文网页   总被引:4,自引:2,他引:2  
蒙古文信息网络化中最难解决的问题之一是蒙古文网页的制作.蒙古文字的结构和书写方式与其它文种相比有自己的特点,再加上蒙古文字库编码的不统一等原因,一直影响蒙古文网页制作.针对蒙古文的书写特性提出了利用样式表的文本特性制作蒙古文网页的方法,使制作出的蒙古文网页中的蒙古文字按字符方式显示,并能实现蒙、汉、英文混排显示.  相似文献   

18.
在藏文数字电话的研究基础上开发藏文短消息的收发功能,实现在移动终端上藏文的传输。文章论述了藏文的特点、Unicode编码的结构、藏文短消息的编码/解码算法以及藏文输入法的设计思路和实现。最终完成藏文短消息的传输编码及应用。  相似文献   

19.
藏文编码字符集构件集   总被引:3,自引:1,他引:2  
本文论述了藏文信息结构和构件拆分的原理,采用统计方法,建立了藏文编码字符集构件集,用已编码的藏文字符表示未编码的藏文外字具体字型的结构和内容,说明厂构件集的选取与排序,论证了它的可行性,以期建立全藏文编码体系。  相似文献   

20.
随着网络的高速发展,其信息资源越来越庞大,面对巨量的信息库,搜索引擎起着重要的作用.主题爬虫技术作为搜索引擎的主要核心部分,计算搜索结果与搜索主题的关系,该关系被称为相关性.一般主题爬虫方法只计算网页内容与搜索主题的相关性,作者所提主题爬虫,通过链接内容和锚文本内容计算链接的重要性,然后利用贝叶斯分类器对链接进行分类,最后利用余弦相似函数计算网页的相关性,如果相关值大于阀值,则认为该网页与预定主题相关,否则不相关.实验结果证明:所提出主题爬虫方法可以获得很高的精确度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号