共查询到20条相似文献,搜索用时 78 毫秒
1.
一种改进的MM分词方法的研究与实现 总被引:1,自引:0,他引:1
在最大匹配法(Maximum Match)“长词优先”原则的基础上,提出了一种改进的最大匹配(MaximumMatch)自动分词方法,并给出了相应的算法及词典设计。 相似文献
2.
汉语自动分词中中文地名识别 总被引:6,自引:0,他引:6
以词语级的中文地名为识别对象,根据地名内部用字的统计信息和地名构成特点产生潜在地名.在汉语自动分词中将可信度较高的潜在地名等同于句子的候选切分词,利用候选切分词本身的可信度和上下文接续关系评价句子的各种切分方案.在确定句子最佳切分时识别句子中的中文地名.对真实语料进行封闭和开放测试,封闭测试结果为召回率93.55%,精确率94.14%,F-1值93.85%;开放测试结果为召回率91.27%,精确率73.48%,F-1值81.42%.取得了比较令人满意的结果. 相似文献
3.
一种改进的增字最大匹配算法 总被引:1,自引:0,他引:1
汉语自动分词技术是中文信息处理的关键技术,目前已经成为中文信息处理的瓶颈。介绍了目前几种常用的自动分词算法,在对各种分词算法进行研究的基础上,对现有的增字最大匹配法进行了进一步的改进,更加充分的体现了最大匹配法中的“长词优先”的原则,使分词系统在自动分词阶段有比目前的增字最大匹配法更好的效果。 相似文献
4.
汉语分词中一种逐词匹配算法的研究 总被引:1,自引:0,他引:1
提出了一种改进的运词匹配算法.该算法通过对非歧义字段切分,对人名地名进行判别,以及对伪歧义字段进行处理,使交集型歧义字段切分正确率有了大幅度提高.在5万汉字语料开放测试中,交集型歧义字鼹切分正确率可达98%以上. 相似文献
5.
基于规则、串频统计和上下文关系的现代汉语分词系统的实现 总被引:1,自引:0,他引:1
介绍了一种集合了规则、串频统计和中文上下文关系分析的现代汉语分词系统.系统对原文进行三次扫描,首先将原文读入内存,利用规则将原文变成若干个串,构成语段十字链表;然后对每个串中的子串在上下文中重复出现的次数进行统计,把根据统计结果分析出的最有可能是词的子串作为临时词;最后利用中文语法的上下文关系并结合词典对原文进行分词处理.系统对未登录词的分词有很好的效果. 相似文献
6.
通过对汉语查询句的研究,建立了复合概念、逻辑概念与标准概念的内在联系.通过分析各种查询条件,得出查询条件表达式可以形式化表示为二叉树的结论,在此基础上,构造了查询条件字符块转换为二叉树的一套算法. 相似文献
7.
基于最长次长匹配的汉语自动分词 总被引:11,自引:1,他引:11
汉语自动分词是中文信息处理领域所特有的一个重要研究课题,机器翻译(MT),自然语言理解(NLU),情报检索(IR)等都需以自动分词作为基础。为解决分词中的歧义问题,针对歧义切分字段的分布特点,提出一种基于最长匹配原则的汉语自动分词方法,分词效果较好。 相似文献
8.
汉语自动分词系统中切分歧义与未登录词的处理策略 总被引:3,自引:0,他引:3
韩维良 《青海师范大学学报(自然科学版)》2004,(2):31-34
本文主要综述了汉语自动分词系统中,切分歧义与未登录词的表现形式以及相应的处理策略,指出在没有完全突破现行机器翻译理论的前提下,增强机器翻译系统中切分歧义与未登录词的处理能力,是提高系统准确率的一种有效措施. 相似文献
9.
藏文分词是藏文信息处理领域的一项不可缺少的基础性工作,也是智能化藏文信息处理的关键所在。在藏文分词的研究过程中藏文分词的准确性,直接制约着藏文输入法研究、藏文电子词典建设、藏文词频统计、搜索引擎的设计和实现、机器翻译系统的开发、藏文语料库建设以及藏语语义分析研究等高层藏文信息处理技术的进一步发展。本文借鉴汉语的分词理论和方法,提出符合藏文特性的分词方法,以及歧义字段切分和未登录词识别等相关问题,并举例说明。 相似文献
10.
基于Lucene的中文分词方法设计与实现 总被引:1,自引:2,他引:1
本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构Lucene,实现了带有歧义消除功能的正向最大匹配算法.在系统评测方面,比较了该方法与现有方法的区别,对于如何构建一个高效的中文检索系统,提出了一种实现. 相似文献
11.
自然语言处理涉及的技术很多,许多研究难点的存在给我国计算机应用增加了困难.介绍了一种解决汉语系统中多音字判别和处理的方法;探讨了汉语文摘生成处理的一个方法;讨论自动分词,阐述了自动分词需要解决的问题. 相似文献
12.
一种基于后缀数组的无词典分词方法 总被引:6,自引:3,他引:6
提出一种基于后缀数组的无词典分词算法. 该算法通过后缀数组和利用散列表获得汉字的结合模式, 通过置信度筛选词. 实验表明, 在无需词典和语料库的前提下, 该算法能够快速准确地抽取文档中的中、 高频词. 适用于对词条频度敏感、 对计算速度要求高的中文信息处理. 相似文献
13.
针对当前大多数词法分析系统流水线式处理方式存在的不足,提出一种一体化同步词法分析机制.在最长次长匹配分词的基础上,在切分有向图中增加词性信息和候选未登录词节点,并拓展隐马尔可夫模型,在切分有向图内同步完成分词、歧义消解、未登录词识别和词性标注等词法分析任务.实现了分词与词性标注的一体化、未登录词识别与分词的一体化以及不确定词性未登录词处理的一体化.一体化机制使词法分析中各步骤实现真正意义上的同步完成,充分利用上下文词法信息提高整体精度并保证了系统的高效性,避免了各步骤间的冲突.开放测试表明,系统综合测试的F值为98.03%. 相似文献
14.
全文检索是一种有效的信息检索技术,改进最大熵模型的应用研究在自然语言处理领域中受到关注。笔者利用语料库中词性标注和词频标注的上下文信息,建立基于互信息的最大熵方法的检索系统,研究的重点在于提出一种中文分词算法,并从实际问题出发,采用面向对象和模型驱动的设计方法,将该算法应用于实际的全文检索系统的设计中。 相似文献
15.
基于延迟决策和斜率的新词识别方法 总被引:1,自引:0,他引:1
采用词典分词时会遇到未登录词的识别问题.本文提出一种新的中文新词识别方法,用于全文信息检索系统索引的建立.在索引切分过程中遇到无法切分字串时,暂存为未切分串,并生成统计信息.待未切分串达到一定数量时,再利用生成的统计信息结合斜率(加速度)的方法来切分暂存的未切分串.切分的结果可以进入索引,对于出现频率高的切分片段可以提取加入词典. 相似文献
16.
针对目前汉语分词系统中BP算法收敛速度慢等难题,本文将基于遗传的BP神经网络算法用于汉语分词模型,此模型结合了遗传算法和BP网络的优点.实验结果表明:该优化模型完全达到了汉语分词要求,并且在分词速度上也明显优于传统的BP神经网络,具有高精确性、收敛速度快等特点. 相似文献
17.
提出并探讨了基于神经网络本构模型的智能有限元的算法及其实现问题 ,主要有直接法和间接法两种嵌入方式以及神经网络材料模型表达和训练的方法 ,自向前算法和基于修正拉格朗日列式法的算法迭代格式 ;并就智能有限元实现时采取的方法及编程语言等进行了讨论。 相似文献
18.
基于地址结构匹配的手写中文地址的切分与识别 总被引:2,自引:0,他引:2
为了自动识别手写中文地址,提出基于地址结构的汉字字符切分和匹配方法。它将地址行图像过切分为一列子字符图像,对于可能的子字符合并方式进行识别。置信度比较大的词作为关键词搜索地址数据库,得到一系列候选地址。对每个候选地址进行匹配,综合考虑切分、识别和匹配代价给出最终结果。该方法在565个地址行样本上获得了超过91%的地址匹配率。实验表明:该方法能有效地克服传统手写汉字切分方法的不足,减少切分错误,从而提高地址匹配的正确率。 相似文献
19.
何山 《绵阳经济技术高等专科学校学报》2006,23(2):32-36
《说文解字注》分析总结了字(词)典释义与传注训诂释义的异同,并对《说文》释义作了进一步的阐释和补充,其训释理论和实践对于辞书学研究和辞书编纂具有重要的参考价值。 相似文献
20.
以SLC-LSCMA算法为基础,利用该算法的高稳定性和快速收敛的特性,设计实现了一个16元均匀圆阵的波束形成器;该波束形成器利用复数乘法器和累加器实现复输入信号和复加权因子的相乘和累加,与传统算法准则设计的波束形成器相比具有消耗硬件资源少、运算速度快等特点.该波束形成器采用硬件描述语言Verilog HDL设计,利用Quartus Ⅱ 8.0进行了综合和布线,最终以Altera公司的EP2C35F672C6芯片为下载目标,其时序仿真可稳定工作在50MHz的时钟频率下.本设计可广泛应用于移动通信和卫星通信领域. 相似文献