首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
以交集型歧义字段为研究对象,考察包含交集型歧义字段的句子及其所在的文档,挖掘歧义字段从前切分或从后切分所得结果在文档中的支持度.根据支持度构造切分方式的判别因子,获取交集型歧义字段的切分方式.实验证实该方法可行,并在歧义消解上具有一定的发展潜力.  相似文献   

2.
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,文章提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。  相似文献   

3.
消解中文三字长交集型分词歧义的算法   总被引:18,自引:0,他引:18  
汉语自动分词在中文信息处理现实应用中占据着十分重要的位置。三字长交集型分词歧义是分词歧义的主要类型之一,在真实文本中的出现频率相当高。提出了一种针对这种分词歧义的消解算法,回避了训练代价比较高昂的词性信息而仅仅利用了词的概率信息及某些具有特定性质的常用字集合。从一个60万字的汉语语料库中抽取出全部不同的三字长交集型分词歧义共5367个作为测试样本。实验结果表明,该算法的消解正确率达到了92.07%,基本可以满足实用型中文信息处理系统的需要。  相似文献   

4.
基于最大熵模型的交集型切分歧义消解   总被引:6,自引:0,他引:6  
利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过正向最大匹配(FMM)和逆向最大匹配(BMM)相结合的分词方法,发现训练文本中的交集型歧义字段并进行标注,用于最大熵模型的训练.实验用1998年1月<人民日报>中出现的交集型歧义字段进行训练和测试,封闭测试正确率98.64%,开放测试正确率95.01%,后者比常用的词概率法提高了3.76%.  相似文献   

5.
一种基于SVM和规则消除组合型歧义的算法   总被引:2,自引:0,他引:2  
歧义的处理是影响分词系统切分精度的重要因素,也是中文自动分词系统中较为困难的问题.提出一种基于支持向量机(SVM)和规则(Rules)相结合的算法(SR算法),对中文分词过程中的组合型歧义字段进行排歧.SR算法主要思想是利用支持向量机分类的原理,结合词性搭配的一些规则排除组合型歧义.实验表明,用此算法对几种不同的语料进行排歧测试,排除组合型歧义字段的切分正确率可达83%左右,为解决中文自动分词难题提供了一条新路径.  相似文献   

6.
在分词过程中如何处理歧义切分是中文分词算法要解决的难点之一.文中提出了一种改进的基于词典和基于统计的组合中文分词算法,能够发现并处理交集型歧义,该算法在发现歧义的过程中没有采取传统的双向匹配法而是采用双栈的结构,减少了匹配花费时间,并分别采取长词优先和最大概率方法处理一般的交集型歧义和特殊的同词长交集型歧义.最后通过实例对文中所提出的算法进行实验验证,结果表明该算法比传统的分词算法有更好的准确率.  相似文献   

7.
歧义处理是中文分词的难点之一,其中交集型歧义占该类问题的主要部分,而无监督学习可以利用互联网上的无标注语料库来处理该问题.文章将比较卡方统计量、t-测试差在歧义处理中的效果,通过对其研究提出一种改善歧义处理性能的方法.实验结果表明,所提出的方法能有效进行分词,并提高了交集型歧义消解的性能.  相似文献   

8.
英语中的歧义现象比较常见,经常引起困惑或误解,是英语语言交流的一大障碍.为了准确地表达自己的思想,使听者或读者正确而全面地理解要说的内容,必须采用简单有效的方法,努力消除英语歧义.本文分析英语歧义产生的根源,提出了一些切实可行的方法,以期从根本上消除英语歧义.  相似文献   

9.
模拟人浏览句子按照语境寻找消歧证据的经验,计算歧义字段与其所在句子的语义相似度和相关度,据此作为语境计算模型,利用歧义字段与其所在句子的语境信息进行中文分词交叉歧义处理;与经典的基于统计方法相比,切分准确率有很大提高。  相似文献   

10.
正关联规则与负关联规则有着同样重要的作用,而传统的关联规则算法只能挖掘正关联规则.本文对关联规则的相关度进行判断,并在此基础上提出了一个能同时挖掘正负关联规则的算法,实验证明改进算法是有效的.  相似文献   

11.
刘自强 《科技信息》2009,(34):I0113-I0113,I0112
Ambiguity exists in English as it exists in other natural languages,which leads to people's misunderstanding some sentences in some conditions,so it has an impact on the communication of people.Generally speaking,English ambiguity is divided into 3 classifications:phonetic ambiguity,lexical ambiguity and grammatical ambiguity.This paper intends to analyses English grammatical ambiguity and lexical ambiguity,and aims to make the English learners to know this complicated phenomenon wholly,so that English learners can express themselves accurately in writing,speaking and reading.  相似文献   

12.
王巍 《中州大学学报》2007,24(1):120-122
汉语的自动分词是汉语语言处理的基础,本文讨论了汉语自动分词歧义问题的产生与分类,重点研究了交集型歧义字段的排歧策略,实现了一种基于Perl的汉语自动分词方法,在比较同种算法的VC 实现上,结果显示基于Perl的实现具有简洁和高效的优点。  相似文献   

13.
英语词汇丰富,含义颇多,并且拥有灵活多变的复杂的语法结构,因此在实际应用当中,尤其是在英汉互译时,很容易产生语音、语意和语法结构等方面的歧义现象。应深入了解造成英语歧义现象的原因,避免不应有的歧义现象的产生,提高语言交流的准确性和严密性。  相似文献   

14.
李广福  李娜  任佳 《科学技术与工程》2021,21(13):5415-5423
为了提升图像分割的速度与初始轮廓和参数鲁棒性,提出了一种基于有序统计滤波能量驱动的鲁棒主动轮廓模型。首先用顺序统计滤波的边力函数来代替传统的数据拟合,进一步引入边力函数能量泛函快速自适应地吸引曲线向目标的边界演化。为了有效地调节水平集函数,利用优化后的长度项对曲线进行平滑和缩短,并通过标准梯度下降法将能量泛函最小化。最后实验结果表明提出的方法能够更加快速、准确地分割图像,并且对初始轮廓和参数具有较强的鲁棒性。  相似文献   

15.
李莉华 《科技信息》2008,(2):265-266
歧义是语言交际中较为常见的语言现象。本文将主要从交际效应的角度出发,把交际过程中出现的歧义现象分为无意歧义(unintentional ambiguity)和蓄意歧义(intentional ambiguity),并分别结合教学实践加以分析举例。  相似文献   

16.
如何快速、准确的固定整周模糊度是载波相位测量中的一个关键问题。为了提高整周模糊度搜索速率,本文提出了一种基于天牛须种群算法(Beetle Antennae Colony Search, BACS)的整周模糊度解算算法。通过与BAS算法、BAS-Nadam算法、LAMBDA算法以及MLAMBDA算法进行解算速率、稳定性的对比实验,在三维模糊度解算时,BACS算法在与LAMBDA和MLAMBDA算法解算成功率相当的情况下,能利用更少的时间搜索到模糊度最优解。为了验证BACS算法在高维模糊度解算以及工程解算情况下是否适用,进行了高维模糊度解算的实验以及单频单GPS系统下BACS算法的应用实验。分析及实验表明,BACS算法能很好保证高维模糊度解算的实时性和鲁棒性,对于12维模糊度解算,平均解算时间0.068秒,解算成功率为92%,对于低维模糊度解算,解算速率更快,解算成功率更高。在单频单GPS系统工程解算中,x,y,z方向定位精度分别为±0.008米,±0.01米,±0.01米,能达到厘米级精度定位。  相似文献   

17.
为解决基于非结构化文本的中文领域本体概念提取效率和准确率不理想的问题, 提出了一种基于关联规则和语义规则的领域本体概念提取方法。利用领域一致性和相关性检查以及关联规则分别获取候选概念和关系集合, 计算候选概念在领域术语关系中的深度和广度, 利用深度和广度信息反馈概念隶属度的思想, 定量分析术语与领域的隶属程度, 进行本体概念的领域隶属度检查, 完成领域本体概念的提取。实验结果表明, 该方法提高了领域本体概念的提取效率和准确率, 具有可行性和合理性, 领域本体概念的提取准确率提高了12%左右。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号