首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
一种基于SVM和规则消除组合型歧义的算法   总被引:2,自引:0,他引:2  
歧义的处理是影响分词系统切分精度的重要因素,也是中文自动分词系统中较为困难的问题.提出一种基于支持向量机(SVM)和规则(Rules)相结合的算法(SR算法),对中文分词过程中的组合型歧义字段进行排歧.SR算法主要思想是利用支持向量机分类的原理,结合词性搭配的一些规则排除组合型歧义.实验表明,用此算法对几种不同的语料进行排歧测试,排除组合型歧义字段的切分正确率可达83%左右,为解决中文自动分词难题提供了一条新路径.  相似文献   

2.
基于最大熵模型的交集型切分歧义消解   总被引:6,自引:0,他引:6  
利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过正向最大匹配(FMM)和逆向最大匹配(BMM)相结合的分词方法,发现训练文本中的交集型歧义字段并进行标注,用于最大熵模型的训练.实验用1998年1月<人民日报>中出现的交集型歧义字段进行训练和测试,封闭测试正确率98.64%,开放测试正确率95.01%,后者比常用的词概率法提高了3.76%.  相似文献   

3.
基于统计规则的交集型歧义处理方法   总被引:1,自引:1,他引:0  
中文分词是中文信息处理的基础, 歧义问题是中文分词的一个难点, 而交集型歧义问题占歧义问题的90%以上, 因此对交集型歧义问题的研究是中文分词研究的一个重点. 通过反复的实验和对实验结果的分析, 提出了5条规则, 并根据这5条规则给出了一种针对交集型歧义字段切分的算法, 实验结果表明, 基于该算法实现的分词系统DSfenci, 对于交集型歧义消解的准确率高于95.22%.  相似文献   

4.
中文分词是中文信息处理的前提和基础.文章综合基于词典的分词方法和统计的分词方法的优点,旨在提出一种基于词性标注与分词消歧的中文分词方法,针对初次分词结果中的歧义集进行对比消歧.利用正向、逆向最大匹配方法以及隐马尔可夫模型进行分词,得到三种分词结果中的歧义集.基于词信息对歧义集进行初次消歧.通过隐马尔可夫模型标注词性,利用Viterbi算法对每种分词结果选取最优词性标注.并基于定义的最优切分评估函数对歧义集进行二次消歧,从而获得最终分词.通过实验对比,证明该方法具有良好的消歧效果.  相似文献   

5.
针对当前大多数词法分析系统流水线式处理方式存在的不足,提出一种一体化同步词法分析机制.在最长次长匹配分词的基础上,在切分有向图中增加词性信息和候选未登录词节点,并拓展隐马尔可夫模型,在切分有向图内同步完成分词、歧义消解、未登录词识别和词性标注等词法分析任务.实现了分词与词性标注的一体化、未登录词识别与分词的一体化以及不确定词性未登录词处理的一体化.一体化机制使词法分析中各步骤实现真正意义上的同步完成,充分利用上下文词法信息提高整体精度并保证了系统的高效性,避免了各步骤间的冲突.开放测试表明,系统综合测试的F值为98.03%.  相似文献   

6.
基于优化最大匹配与统计结合的汉语分词方法   总被引:1,自引:0,他引:1  
汉语自动分词足中文信息处理的前提,如何提高分词效率是中文信息处理技术面临的一个主要问题.基于训典和基于统计的分词方法是现有分词技术的主要方法,但是前者无法处理歧义字段,后者需要大量的词频汁算耗费时间.本文提出优化最大匹配与统汁结合的分词方法,首先提出优化最大匹配算法,在此基础上提出了规则判断与信息量统计两种消歧策略.然后,给出了优化最大匹配与统计结合的分词算法,提高了分词的效率.最后,基十分词算法实现中义分词系统,并通过实验对算法进行了分析和验证.  相似文献   

7.
消解中文三字长交集型分词歧义的算法   总被引:18,自引:0,他引:18  
汉语自动分词在中文信息处理现实应用中占据着十分重要的位置。三字长交集型分词歧义是分词歧义的主要类型之一,在真实文本中的出现频率相当高。提出了一种针对这种分词歧义的消解算法,回避了训练代价比较高昂的词性信息而仅仅利用了词的概率信息及某些具有特定性质的常用字集合。从一个60万字的汉语语料库中抽取出全部不同的三字长交集型分词歧义共5367个作为测试样本。实验结果表明,该算法的消解正确率达到了92.07%,基本可以满足实用型中文信息处理系统的需要。  相似文献   

8.
提出一种基于语境相似度的中文分词一致性检验方法。首先利用词法和句法层面的特征, 设计基于构词、词性和依存句法的分类规则, 再使用预训练词向量, 对不一致字串所在语境的语义信息进行编码, 通过语境间的语义相似度对不一致字串进行分类。在人工构建的36万字分词语料库中进行分词一致性检验, 结果表明该方法能够有效地提高中文分词一致性检验的准确率。进一步地, 使用3 种主流中文分词模型在修正一致性后的分词语料中重新训练和测试, 结果表明该方法可以有效地提高分词语料库的质量, 3种中文分词模型的F1值分别提高1.18%, 1.25%和1.04%。  相似文献   

9.
书面汉语自动分词及歧义分析   总被引:8,自引:0,他引:8  
歧义现象是自动分词过程中不可避免的现象,本文通过对自动分词过程的分析,总结出书面汉语自动分词中歧义产生的根源,提出处理这些歧义字段的方法.  相似文献   

10.
针对传统字典匹配分词法在识别新词和特殊词处理方面的不足,结合2元统计模型提出了面向文本知识管理的自适应中文分词算法——SACWSA。SACWSA在预处理阶段结合应用有限状态机理论、基于连词的分隔方法和分治策略对输入文本进行子句划分,从而有效降低了分词算法的复杂度;在分词阶段应用2元统计模型,结合局部概率和全局概率,完成子句的切分,从而有效地提升了新词的识别率并消除了歧义;在后处理阶段,通过建立词性搭配规则来进一步消除2元分词结果的歧义。SACWSA主要的特色在于利用"分而治之"的思想来处理长句和长词,用局部概率与全局概率相结合来识别生词和消歧。通过在不同领域语料库的实验表明,SACWSA能准确、高效地自动适应不同行业领域的文本知识管理要求。  相似文献   

11.
论语言的模糊性   总被引:1,自引:0,他引:1  
人的思维具有模糊性,是人类大脑高度发达的表现。人的思维具有模糊性导致人的语言也具有模糊性。语言的模糊性不仅丝毫无损人类语言的交际功能,反而极大地增强了语言的柔性和张力。词区分为模糊词和精确词。现代口语中模糊词使用的频率很高。有时精确词的含义也会变成模糊的。语法学家无法消除语法范畴中的各种模糊现象。在文学创作中,模糊语言有它特殊的表达功能,它可以增添含蓄蕴藉的审美效果。  相似文献   

12.
针对目前汉语分词系统中BP算法收敛速度慢等难题,本文将基于遗传的BP神经网络算法用于汉语分词模型,此模型结合了遗传算法和BP网络的优点.实验结果表明:该优化模型完全达到了汉语分词要求,并且在分词速度上也明显优于传统的BP神经网络,具有高精确性、收敛速度快等特点.  相似文献   

13.
在模糊逻辑与神经网络融合的基础上,引入补偿运算单元,构成补偿模糊神经网络,使网络从初始定义的模糊规则进行训练,再动态的优化模糊规则,提高网络的容错率和稳定性.针对网络训练的不同阶段对学习速率的不同要求,提出一种具有分段可变学习速率的补偿模糊神经系统,可以提高网络的整体性能,实现动态的、全局优化的运算.故障诊断仿真研究表明:模型具有更好的收敛特性,能够大大的缩短训练时间,减少训练步数,提高误差精度.  相似文献   

14.
基于BP神经网络的遥感影像分类方法   总被引:1,自引:0,他引:1  
为了消除传统的遥感影像分类所带来的模糊性和不确定性,采用BP神经网络进行遥感影像分类.利用MatLab软件构建BP网络遥感影像分类算法,通过对BP网络算法进行改进,采用动量-自适应学习速率调整算法克服了网络训练速度慢、不易收敛到全局最优等缺点.对一幅全色遥感图像通过300次训练后,输出能真实反映地类的影像图.其分类总精度为86.67%,Kappa系数为0.82,分类精度能够满足遥感图像分类的需要.  相似文献   

15.
切分歧义是影响汉语自动分词系统精度的一个重要因素.时间语词包括指明事件发生确定时间位置的时点时间词和指明动作或状态持续一段时间的时段时间词.基于现代汉语语料库加工规范,特定类型的时间语词存在切分歧义及考察时间语词的语用,提出了基于时间语词上下文词性信息的统计语言模型和基于极大似然原理的消解这类歧义的算法,其开放测试正确率约为90%.  相似文献   

16.
一种新的基于RS和NN的混合数据挖掘算法   总被引:1,自引:0,他引:1  
提出一种结合粗糙集理论和BP神经网络理论的新数据挖掘算法.算法利用粗糙集对属性的归约功能将数据仓库中的数据进行归约,将归约后的数据作为训练数据提供给神经网络.通过粗糙集归约,提高了训练数据表达的清晰度,也减少了神经网络的规模,同时利用神经网络又弥补了粗糙集对噪声数据敏感的不足.  相似文献   

17.
通过对现有的泥浆泵液力端故障诊断技术的分析研究,并结合泥浆泵的结构及工况特征,提出了振动信号统 计指标与神经网络相结合的液力端故障诊断方法。该方法选取振动信号的有效值、方差、峰值指标、脉冲指标、峭度指 标和裕度指标作为表征液力端振动信号的特征指标;采用动态数据采集仪、压电式加速度传感器采集振动测试信号, 并计算得出振动信号平均特征量;然后通过对振动信号特征指标的归一化处理,构建BP 网络和设置网络参数,将经 归一化处理后的时域统计指标作为训练样本,输入到构建的BP 网络中进行网络训练;经过训练,使BP 网络满足预定 的精度要求。现场应用诊断误差分别为:0.007 7,0.017 9,0.017 7,0.021 6,说明构建的BP 网络的性能能够满足故障 诊断要求。利用统计指标和BP 神经网络结合的故障诊断方法,对泥浆泵故障诊断具有较准确的识别效果,可应用于 泥浆泵液力端的故障诊断。  相似文献   

18.
Aiming at the problem that back propagation(BP) neural network predicts the low accuracy rate of fluff fabric after fluffing process,a BP neural network model optimized by particle swarm optimization(PSO) algorithm is proposed.The sliced image is obtained by the principle of light-cutting imaging.The fluffy region of the adaptive image segmentation is extracted by the Freeman chain code principle.The upper edge coordinate information of the fabric is subjected to one-dimensional discrete wavelet decomposition to obtain high frequency information and low frequency information.After comparison and analysis,the BP neural network was trained by high frequency information,and the PSO algorithm was used to optimize the BP neural network.The optimized BP neural network has better weights and thresholds.The experimental results show that the accuracy of the optimized BP neural network after applying high-frequency information training is 97.96%,which is 3.79% higher than that of the unoptimized BP neural network,and has higher detection accuracy.  相似文献   

19.
提出一种利用规则与统计相结合的方法用于英汉机译系统中以消解语义级歧义 ,建立了一种根据单词之间的词语搭配关系以消除歧义的模型。该模型利用英汉双语语料选择合理的词组语义 ,对有歧义的单词作出标注。在此基础上给出了语义消歧的学习算法 ,并建立了一套有效的提高召回率的消歧算法。算法在英汉机译系统中的实际应用使正确率提高了约 10 % ,效果显著。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号