首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 127 毫秒
1.
一种基于SVM和规则消除组合型歧义的算法   总被引:2,自引:0,他引:2  
歧义的处理是影响分词系统切分精度的重要因素,也是中文自动分词系统中较为困难的问题.提出一种基于支持向量机(SVM)和规则(Rules)相结合的算法(SR算法),对中文分词过程中的组合型歧义字段进行排歧.SR算法主要思想是利用支持向量机分类的原理,结合词性搭配的一些规则排除组合型歧义.实验表明,用此算法对几种不同的语料进行排歧测试,排除组合型歧义字段的切分正确率可达83%左右,为解决中文自动分词难题提供了一条新路径.  相似文献   

2.
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,文章提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。  相似文献   

3.
基于最长次长匹配的汉语自动分词   总被引:12,自引:1,他引:11  
汉语自动分词是中文信息处理领域所特有的一个重要研究课题,机器翻译(MT),自然语言理解(NLU),情报检索(IR)等都需以自动分词作为基础。为解决分词中的歧义问题,针对歧义切分字段的分布特点,提出一种基于最长匹配原则的汉语自动分词方法,分词效果较好。  相似文献   

4.
文本挖掘中中文歧义字段的自动分词是计算机科学面临的一个难题.针对汉语书写时按句连写,词间无间隙,歧义字段分词困难的特点,对典型歧义中所蕴含的语法现象进行了归纳总结,建立了供词性编码使用的词性代码库.以此为基础,通过对具有特殊语法规则的歧义字段中的字、词进行代码设定,转化为神经网络能够接受的输入向量表示形式,然后对样本进行训练,通过改进BP神经网络的自学习来掌握这些语法规则.训练结果表明:算法在歧义字段分词上达到了93.13%的训练精度和92.50%的测试精度.  相似文献   

5.
王巍 《中州大学学报》2007,24(1):120-122
汉语的自动分词是汉语语言处理的基础,本文讨论了汉语自动分词歧义问题的产生与分类,重点研究了交集型歧义字段的排歧策略,实现了一种基于Perl的汉语自动分词方法,在比较同种算法的VC 实现上,结果显示基于Perl的实现具有简洁和高效的优点。  相似文献   

6.
文章针对传统藏文分词的切词难点及切分歧义现象,提出一种基于小字符集的藏文自动分词技术方案.其中包括分词预处理、多级Hash词典机制、藏文格助词紧缩格的判别及还原规则、逐字匹配算法和未登录词的处理等内容.  相似文献   

7.
索娟娟  于宝英 《科技信息》2012,(3):39-39,41
为了更有效的克服歧义这一汉语机器翻译的瓶颈问题,提高汉语自动分词精度,采用改进蚁群算法和灰熵对汉语的自动分词问题进行了研究。在构造分词模型的基础上,以灰熵度量分词的准确性。应用实例证明了方法的有效性。该方法对于提高我国机器翻译水平,提高我国数字化水平具有重要意义。  相似文献   

8.
消解中文三字长交集型分词歧义的算法   总被引:18,自引:0,他引:18  
汉语自动分词在中文信息处理现实应用中占据着十分重要的位置。三字长交集型分词歧义是分词歧义的主要类型之一,在真实文本中的出现频率相当高。提出了一种针对这种分词歧义的消解算法,回避了训练代价比较高昂的词性信息而仅仅利用了词的概率信息及某些具有特定性质的常用字集合。从一个60万字的汉语语料库中抽取出全部不同的三字长交集型分词歧义共5367个作为测试样本。实验结果表明,该算法的消解正确率达到了92.07%,基本可以满足实用型中文信息处理系统的需要。  相似文献   

9.
在分词过程中如何处理歧义切分是中文分词算法要解决的难点之一.文中提出了一种改进的基于词典和基于统计的组合中文分词算法,能够发现并处理交集型歧义,该算法在发现歧义的过程中没有采取传统的双向匹配法而是采用双栈的结构,减少了匹配花费时间,并分别采取长词优先和最大概率方法处理一般的交集型歧义和特殊的同词长交集型歧义.最后通过实例对文中所提出的算法进行实验验证,结果表明该算法比传统的分词算法有更好的准确率.  相似文献   

10.
汉语自动分词中的神经网络技术研究   总被引:5,自引:0,他引:5  
本文讨论了人工神经网络技术应用于汉语自动分词的映射模型和性能,着重分析网络结构和学习算法对歧义词切分的影响,在大量仿真实验的基础上,对其性能进行评价。  相似文献   

11.
基于数学形态学的铁谱磨粒图像分割研究   总被引:4,自引:2,他引:4  
铁谱磨粒图像识别中,由于磨粒与磨粒的相互粘连,造成磨粒图像二值化后,边缘提取不能体现其原有形状。该文将数学形态学的腐蚀和膨胀算法引入铁谱磨粒图像的分割中,通过对二值化后的磨粒图像实施先腐蚀后膨胀的运算,成功地完成了磨粒图像的分割,并且结合拉普拉斯算子,有效地提取出单个铁谱磨粒的形状,有助于实现铁谱磨粒的自动识别。  相似文献   

12.
基于“草图跟踪”的复杂曲面设计方法   总被引:3,自引:0,他引:3  
介绍了基于原有产品图片资料的三维重建方法,即根据被仿制车型的图片资料,从二维信息中提取三维信息,在三维空间中重新构造出二维信息所对应的三维形体,重构汽车外形主模型的建模方法·利用CATIA软件中的草图跟踪模块,在3D视角中引入实际车身大小外形草图图像,作为构建车身三维几何模型的基础,依据现有参数化曲面理论和应用软件曲面造型方法,结合产品的外形情况,采用曲面分块车身建模方法,对车身建模和创新设计过程中涉及的关键技术进行了分析·  相似文献   

13.
牙颌隐形矫治中要求对STL格式牙颌模型边界进行准确、高效地分割。针对这一要求,本文对传统的交互标记分割算法进行了改进:由单面片输入改为区域选择,用相邻两面片的弯曲程度函数作为对应的高度场函数,由排序进栈优化为直接插入队列。该算法实现了目标牙齿的快速、自动分割。结果表明,改进算法分割的牙冠更完整,效率更高,能够满足矫治要求。  相似文献   

14.
本文针对光弹实验中等差线骨架的自动提取进行了研究。通过分析等差线干涉条纹图的特性,结合数字图像处理中的图侉平滑、闽值分割、轮廓提取、差影检测等基本的图像处理技术,提出了一种直接细化得到骨架线图的方法。处理结果表明这种方法针对纯弯曲梁的等差线骨架线自动提取,精确度很高,值得推广。  相似文献   

15.
徐正  王怿超  黄璇  罗华  熊辉 《江西科学》2012,30(4):528-531
随着经济的发展,汽车数量急剧增加,智能交通系统(ITS)应运而生。本文研究了车牌的自动识别与车辆速度的自动测速。对于车牌识别中的字符分割算法、车速算法等算法进行改进和创新。  相似文献   

16.
提出了一种基于同步自回归(SAR) 模型和模糊信息原理进行纹理分割的方法.利用二阶SAR模型对图像纹理进行描述,用最小平方误差方法对模型参数进行估计,将估计的参数作为纹理的特征向量.根据模糊信息原理,分析了纹理图像的模糊特性,给出了一种基于向量模糊集合簇模糊模式识别的纹理分割方法.实验结果表明,用所提出的方法进行图像纹理分割取得了较好的分割效果.  相似文献   

17.
基于标记的分词算法   总被引:1,自引:0,他引:1  
目前,自动分词的算法很多,但都有不能满足实用的要求。文中介绍一种在最大匹配法基础上,根据大量的真实语料中出现的语言现象,把汉语中的词按其在分词意义下的特性进行分类,并用不同的标记标识,对每一类词确定一组规则进行处理,使分词算法更接近于实用的目的。  相似文献   

18.
兼义性与多训词是《尔雅》"二义同条"特有的属性,以这两个属性为划分标准,可将"二义同条"分为兼义与单纯两大类,又可以分为多训词与单训词两大类。  相似文献   

19.
模糊语言在人类社会的交际中占有重要的一席之地,从生态学层面挖掘模糊语言之深蕴,此既为时代计,亦为模糊语言传承计。模糊语言的生态学隐喻,即用生态学的方法来观察、研究和解释模糊语言。生态学的基本规律在于运动性、多样性和适应选择性,依此生态之理来研读模糊语言,意味着一种新的研究范式或者纲领。  相似文献   

20.
分析了美国黑人女作家托尼·莫里森在爱的三部曲小说中,反复使用的模糊叙事手法。认为模糊叙事既是莫里森对黑人传统文化理念的继承和发扬,也是她对现代以读者为中心的创作思想的实践。介绍了莫里森通过人物身份的不确定性、开放式结尾和多种声音叙事等方法达到叙述的模糊效果,同时也激发了读者参与阅读的热情。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号