首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
一种编辑距离算法及其在网页搜索中的应用   总被引:1,自引:0,他引:1  
针对传统方法不能很好地处理网页中简短域与用户查询之间的相关性排序问题,提出一种基于改进的编辑距离排序算法.将以词为单位的用户查询和简短网页域通过匹配编码转化为2个字符串,再利用改进的编辑距离计算2个字符串之间的相似性.由于在用户查询与待比较的简短网页域之间引入了查询词分布的位置、顺序和距离等,以及含有查询词修饰关系的重要信息,所以编码字符串之间的相似程度可以衡量对应的查询与简短网页域之间的相关性.经大规模真实搜索引擎实验表明,该算法较之传统的相关性排序算法,可以显著地提高网页搜索中的简短网页域相关性排序性能,尤其适用于简短域与用户查询之间的相关性比较.  相似文献   

2.
分析了蛮力字符串匹配算法、Boyer-Moore算法和Horspool算法的特点,给出用Horspool算法快速查找蒙古文单词的实现过程.用Horspool算法可以实现快速查找蒙古文单词的功能,并能在文本框中以选中状态显示查找到的单词.  相似文献   

3.
分析了Horspool算法的原理及特点,提出了一种适用于方块苗文环境的字符串模式匹配算法.该算法结合方块苗文的编码方式及字符串查找的特点,通过对Horspool算法中的字符处理单位进行扩展来适应方块苗文的字符串匹配.实验结果表明,在单字词、双字词和多字词的方块苗文字符串匹配过程中,该算法均呈现出较好的性能,能够用于解决方块苗文的快速检索问题.  相似文献   

4.
Windows环境下蒙古文复杂文本处理的研究   总被引:1,自引:0,他引:1  
简要介绍了复杂文本和Uniscribe布局引擎,然后介绍一种基于Uniscribe的蒙古文Unicode文本的解释算法,解决Windows环境下字处理软件不支持蒙古文国际标准编码的问题.该算法具有较好的通用性,能够有效处理多种复杂文本语言,在蒙古文字处理软件MWord中的应用说明了该算法的有效性.  相似文献   

5.
用样式表制作蒙文网页   总被引:4,自引:2,他引:2  
蒙古文信息网络化中最难解决的问题之一是蒙古文网页的制作.蒙古文字的结构和书写方式与其它文种相比有自己的特点,再加上蒙古文字库编码的不统一等原因,一直影响蒙古文网页制作.针对蒙古文的书写特性提出了利用样式表的文本特性制作蒙古文网页的方法,使制作出的蒙古文网页中的蒙古文字按字符方式显示,并能实现蒙、汉、英文混排显示.  相似文献   

6.
蒙古文信息处理由于诸多原因,造成多种编码共存,现有的大量信息资源无法共享.大多数系统的蒙古文编码以蒙古文显现字符为基本编码单位,属于字形编码.本文讨论的问题是首先将不同种类的蒙古文字形编码转换为蒙古文最小字素编码,再根据蒙古文正字法对照词典及有关规则,转换为蒙古文国际编码.  相似文献   

7.
基于序列数据挖掘的中文网页特征选择方法   总被引:1,自引:0,他引:1  
提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型. 该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结合CHI算法得到文本特征. 实验表明,该算法不仅能挖掘出传统方法所选择出的绝大部分特征,还能挖掘出一些有意义的、切词系统词库中没有的、能反映分类特点的人名,地名,新词、常用语、外文单词等.  相似文献   

8.
现代藏文字典序是按照传统藏文字的构造序而建立的排序方法,遵循严格的书面藏语构造规则.藏文编码中国国家标准正式发布实施后,藏文字符自身构造的复杂性、大量梵音藏文等他族语字符以及科技字符的存在,使得Microsoft office环境下藏文的序性问题一直未得到很好的解决.本文提出并实现了一种基于VBA的藏文音节在Word应用程序中的排序方法,方法简单、容易实现,解决了藏文音节在Microsoft office环境中排序的问题.  相似文献   

9.
实用高效的蒙古文词切分方法是实现蒙古文信息处理的前提和基础.研究提出从3种基本的蒙古文词切分方法,组合成12种蒙古文词切分方法.应用数据包络分析(DEA)方法,提出用于蒙古文词切分方法综合评价的数学模型和有效性计量公式,并围绕蒙古文切词方法的智能选择问题,提出基于国际标准编码的蒙古文词切分系统的设计方法和整体框架.  相似文献   

10.
针对当前广泛应用的BOVW模型存在精度不足问题,提出一种基于有序视觉词袋模型的相似性衡量方法.首先,对经过K-mean聚类得到的高维视觉单词,采用LLE(locally linear embedding)流形学习算法降至一维,对一维数据进行排序,并以此顺序对高维单词排序获得有序词袋库;其次,对样本图像的所有局部特征,以该特征在词袋中对应的有序单词索引号构建图像局部特征谱;最后,对训练样本和测试样本的局部特征谱作差求得残差,并以残差的1-范数衡量图像的相似性.KITTI数据集相似性衡量实验表明,有序BOVW模型相似性识别率明显高于无序BOVW模型.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号