共查询到19条相似文献,搜索用时 62 毫秒
1.
汉语自动分词中中文地名识别 总被引:6,自引:0,他引:6
以词语级的中文地名为识别对象,根据地名内部用字的统计信息和地名构成特点产生潜在地名.在汉语自动分词中将可信度较高的潜在地名等同于句子的候选切分词,利用候选切分词本身的可信度和上下文接续关系评价句子的各种切分方案.在确定句子最佳切分时识别句子中的中文地名.对真实语料进行封闭和开放测试,封闭测试结果为召回率93.55%,精确率94.14%,F-1值93.85%;开放测试结果为召回率91.27%,精确率73.48%,F-1值81.42%.取得了比较令人满意的结果. 相似文献
2.
藏文分词是藏文信息处理领域的一项不可缺少的基础性工作,也是智能化藏文信息处理的关键所在。在藏文分词的研究过程中藏文分词的准确性,直接制约着藏文输入法研究、藏文电子词典建设、藏文词频统计、搜索引擎的设计和实现、机器翻译系统的开发、藏文语料库建设以及藏语语义分析研究等高层藏文信息处理技术的进一步发展。本文借鉴汉语的分词理论和方法,提出符合藏文特性的分词方法,以及歧义字段切分和未登录词识别等相关问题,并举例说明。 相似文献
3.
如何建立适于交通管理系统下信息检索子系统中的分词模块是提高检索性能的关键所在。本文在分析交通管理领域特点的基础上,提出了适合交通管理领域的分词方法,实现了适用于该领域内的分词系统。实验结果表明,系统测试的准确率和召回率分别达到95.9%和95.1%。 相似文献
4.
基于最大概率分词算法的中文分词方法研究 总被引:1,自引:0,他引:1
本文提出了一种基于最大概率分词算法的中文分词方法,以实例贯穿全文系统描述了最大概率分词算法的基本思想与实现,根据针对大规模真实语料库的对比测试,分词运行效率有较大提高,该方法是行之有效的,并且提出了该算法的改进方向。 相似文献
5.
中文分词技术是中文信息处理的基础,快速、准确的中文分词方法是进行中文信息搜索的关键。基于N-最短路径的分词算法,需要计算有向图中从起点到终点的所有路径值,分词效率低,将动态删除算法与最短路径算法结合,通过从最短路径中删除部分节点的策略减少搜索路径范围,从而提高分词效率。 相似文献
6.
7.
基于互信息改进算法的新词发现对中文分词系统改进 总被引:6,自引:0,他引:6
提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法--PMIk算法与少量基本规则相结合, 从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度, 可以根据需要指定)。基于257 MB的百度贴吧语料实验, 当PMIk方法的参数为10时, 结果精度达到97.39%, 比PMI方法提高28.79%, 实验结果表明, 该新词发现方法能够有效地从大规模网络语料中发现新词。将新词发现结果编纂成用户词典, 加载到汉语词法分析系统ICTCLAS中, 基于10 KB的百度贴吧语料实验, 比加载用户词典前的分词结果准确率、召回率和F值分别提高7.93%, 3.73%和5.91%。实验表明, 通过进行新词发现能有效改善分词系统对网络文本的处理效果。 相似文献
8.
9.
中文分词技术研究 总被引:1,自引:0,他引:1
于洪波 《东莞理工学院学报》2010,17(5):40-44
随着网络信息资源呈指数级增长,我们已经进入了信息化时代,信息技术已渗透到我们社会生活的方方面面。中文文本分词技术作为中文信息处理中的重要环节,其作用就显得越来越重要。对中文分词的必要性、存在的困难进行了综述,并分析了几种分词方法的原理、特点和算法实现。 相似文献
10.
基于规则、串频统计和上下文关系的现代汉语分词系统的实现 总被引:1,自引:0,他引:1
介绍了一种集合了规则、串频统计和中文上下文关系分析的现代汉语分词系统.系统对原文进行三次扫描,首先将原文读入内存,利用规则将原文变成若干个串,构成语段十字链表;然后对每个串中的子串在上下文中重复出现的次数进行统计,把根据统计结果分析出的最有可能是词的子串作为临时词;最后利用中文语法的上下文关系并结合词典对原文进行分词处理.系统对未登录词的分词有很好的效果. 相似文献
11.
随着藏文信息技术的不断普及和发展,搜索引擎技术成为藏文信息处理一项新的研究课题.对搜集到的藏文网页文本或用户查询关键词进行理解、提取和组织等处理是搜索引擎的一项基础性工作,其中藏文分词的准确与否,直接影响到搜索引擎查询效果及查询结果列表的排序问题,因此分词成为藏文搜索引擎技术中需要解决的关键问题.文章针对藏文搜索引擎中基于字符串匹配的藏文分词技术进行研究并提出相应的解决算法. 相似文献
12.
13.
介绍面向侨务信息主题搜索引擎的工作原理和体系结构,根据侨务信息的特征对网页进行侨务信息的识别.针对主题式搜索,提出一种优化的,基于历史反馈(BHF)的搜索策略,并对该搜索策略进行实验测试.结果表明,以该方法设计的面向侨务信息主题的搜索引擎系统,具有较高的搜索速度与识别精度. 相似文献
14.
15.
介绍了搜索引擎的定义和主要任务以及生物医学专业的主要搜索引擎,阐述了从互联网上快速获取生物医学信息资源的方法。 相似文献
16.
中文搜索引擎的缺陷与改进 总被引:4,自引:0,他引:4
简要介绍了现有中文搜索引擎的工作原理,分析了其存在的缺陷,然后针对这些缺陷提出了一种经过改进的中文搜索引擎结构体系,并对其中用到的改进策略进行了剖析. 相似文献
17.
常用中文搜索引擎的特征分析 总被引:3,自引:0,他引:3
薛万新 《科技情报开发与经济》2004,14(7):209-210
介绍了互联网上中文搜索引擎的发展现状,重点分析了新浪、搜狐、雅虎中国、天网、百度和Coogle等6个常用中文搜索引擎的检索特点和资源特色。 相似文献
18.
蔡洪涛 《青海师范大学学报(自然科学版)》2007,(3):31-33
本文阐述了搜索引擎的产生、发展、工作原理及类型,在列表分析的基础上,探讨了搜索引擎分类体系的特点及其存在的问题,并提出了改进其性能的一些方法. 相似文献
19.
对网络搜索引擎的比较研究 总被引:2,自引:0,他引:2
对Internet上的各类搜索引擎做了分析比较,目的在于探索各种类型的网络搜索引擎的检索理论、检索方法的异同、检索技术和易用性上的差别,以期达到帮助用户使用的目的和为今后搜索引擎的发展提供一些参考. 相似文献