共查询到19条相似文献,搜索用时 62 毫秒
1.
HENU汉语自动分词系统中歧义字段消除算法 总被引:2,自引:0,他引:2
先用基于词典的最大匹配法匹配出最长词和次长词,再用检测跨越的方法发现切分歧义,判断出切分歧义是交集型切分歧义还是组合型切分歧义,根据切分歧义类型的不同分别进行切分歧义的消除.交集型切分歧义的消除方法主要是混合使用基于规则的方法和基于统计的方法,组合型歧义的消除方法主要是使用基于规则的方法,找到正确的切分位置. 相似文献
2.
随着信息技术的飞快发展,今天的互联网上信息已成爆炸式增长,文本挖掘技术成为目前研究的热点.文章概述了中文分词的算法,通过介绍歧义存在的种类,分析了分词结果歧义性存在的必然性;在中文分词基础上,提出了一种采用"动词优先"的歧义消除算法,使分词结果最大程度地消除歧义,从而提高了分词的精度,为文本挖掘之后的环节打下了基础. 相似文献
3.
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,文章提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。 相似文献
4.
基于短语匹配的中文分词消歧方法 总被引:1,自引:0,他引:1
在短语结构文法的基础上,提出一种基于局部单一短语匹配和语义规则相结合的消歧方法.通过增加短语间的右嵌套规则和采用有限自动机的实现方式,解决了短语规则中存在冗余项的问题,提高了短语匹配效率和歧义消除类型的针对性.实验结果表明,该消歧方法的平均消歧率约为98%,优于一般未考虑词语间语法和语义消歧模型的处理效果. 相似文献
5.
中文分词中歧义切分处理策略 总被引:1,自引:0,他引:1
文章试图从歧义字段本身的特点,即从伪歧义与真歧义这两个角度,以规则库为辅助手段,构建相应概率统计模型来解决歧义字段切分的问题.概率模型中特征的选取考虑了相邻词语和相邻词语的语义信息.实验表明该模型在解决歧义切分问题上是有效的. 相似文献
6.
尹倩 《重庆工商大学学报(自然科学版)》2016,33(5):20-24
模拟人浏览句子按照语境寻找消歧证据的经验,计算歧义字段与其所在句子的语义相似度和相关度,据此作为语境计算模型,利用歧义字段与其所在句子的语境信息进行中文分词交叉歧义处理;与经典的基于统计方法相比,切分准确率有很大提高。 相似文献
7.
书面汉语自动分词及歧义分析 总被引:8,自引:0,他引:8
郑延斌 《河南师范大学学报(自然科学版)》1997,25(4):90-93
歧义现象是自动分词过程中不可避免的现象,本文通过对自动分词过程的分析,总结出书面汉语自动分词中歧义产生的根源,提出处理这些歧义字段的方法. 相似文献
8.
针对传统长短时记忆网络(long short-term memory,LSTM)在文本分类中无法自动选取最重要潜在语义因素的问题,提出一种改进的LSTM模型。首先,将传统LSTM的运算关系拓展为双向模式,使网络充分记忆输入特征词的前后关联关系;然后在输出层前面增加池化层,以便更好选择找到最重要的潜在语义因素。互联网电影资料库评论数据实验结果表明,该模型优于传统长短时记忆神经网络以及其他同类模型,揭示了改进方案对提高文本分类准确率是有效的。 相似文献
9.
在分词过程中如何处理歧义切分是中文分词算法要解决的难点之一.文中提出了一种改进的基于词典和基于统计的组合中文分词算法,能够发现并处理交集型歧义,该算法在发现歧义的过程中没有采取传统的双向匹配法而是采用双栈的结构,减少了匹配花费时间,并分别采取长词优先和最大概率方法处理一般的交集型歧义和特殊的同词长交集型歧义.最后通过实例对文中所提出的算法进行实验验证,结果表明该算法比传统的分词算法有更好的准确率. 相似文献
10.
吴建源 《佛山科学技术学院学报(自然科学版)》2012,30(2):33-37
简要探讨了BP神经网络的学习过程与主要参数,分析了基于BP神经网络的中文分词算法,并在用joone-editor建立的神经网络模型中加以实验。 相似文献
11.
提出了一种基于粗糙集和遗传算法的改进BP神经网络算法.该算法首先对原始数据集进行属性约简,优化BP神经网络的输入变量;然后利用遗传算法全局搜索的特点,优化BP神经网络初始权重和阈值.将改进BP神经网络算法应用于客户分类,训练误差为5.92×10-12,测试总误差为0.00023;而改进前的一个比较理想的训练结果的训练误差为0.0016,测试总误差为0.073.Matlab仿真表明改进的BP神经网络算法有更好的训练精度和泛化能力. 相似文献
12.
基于改进的BP网络数字字符识别 总被引:1,自引:0,他引:1
提出了一种基于改进的BP网络方法来实现数字字符识别.通过对BP网络的神经元的研究与学习,设计了一种结构合理,收敛速率快的BP网络.试验测试结果表明,改进的BP网络方法对印刷体数字的识别率达到了100%,对手写数字的识别率达到了98%以上. 相似文献
13.
为了解决文本图神经网络小样本文本分类精度较差的问题,设计了基于文本图神经网络的原型网络,采用预训练语言模型,利用文本级图神经网络为每个输入文本构建图并共享全局参数,将文本图神经网络的结果作为原型网络的输入,对未标注文本进行分类,并验证新模型在多个文本分类数据集上的有效性。实验结果表明,与需要大量标注文档的监督学习方法相比,所采用的方法未标注文本的分类精度提高了1%~3%,在多个文本分类数据集上验证了新模型性能先进,内存占用更少。研究结果可为解决小样本文本分类问题提供参考。 相似文献
14.
为了提高模型在文本分类任务中的分类性能,针对图神经网络中存在的过度平滑问题,同时增强模型在处理文本特征与文本表示方面的能力,提出了一种基于多状态图神经网络的文本分类算法(multi-state graph neural network, MSGNN)。多状态图神经网络是利用网络层的多个历史状态信息对图神经网络进行强化,构建合理的文本图结构数据作为模型输入。在缓解网络层过度平滑问题的同时,结合2种改进后的不同类型的图神经网络来增强模型的特征提取与特征聚合能力。利用多头自注意力机制对文本关键词的挖掘与利用能力,从多个文本子空间来生成高质量的文本表示,进而完成文本分类。通过在几个公开的文本分类数据集上进行实验分析,相较于其他神经网络的文本分类算法,该方法取得了较好的分类准确率。 相似文献
15.
介绍了BP神经网络和遗传算法的原理及特点,简述了皮江法炼镁工艺流程。为了研究各工艺参数与镁还原率之间的关系,针对标准BP神经网络存在的收敛速率慢、易陷入局部极小值等缺陷,建立了以煅白活性度、配硅比、制球压力、还原时间、还原温度、真空度为输入,镁还原率为输出的基于遗传算法优化的BP神经网络镁还原率预报模型。利用筛选后的生产数据对模型进行训练和预测,结果显示该预报模型能够较为精确地预报镁还原率,预测误差在±1.0%范围内的命中率达96%,最大误差小于1.3%,一定程度上可用于指导皮江法炼镁工艺中工艺参数的选择。 相似文献
16.
根据BP神经网络强处理非线性问题和遗传算法具有全局寻优的特点,总结出用遗传算法优化BP神经网络的初始权值和阈值,建立了基于遗传算法和BP神经网络的多维客户行为细分模型,对客户进行细分,挖掘出潜力客户,有效降低营销成本。最后,利用Matlab对多组数据进行测试,并与纯BP算法进行分析比较,结果表明该方法是有效可行的。 相似文献
17.
基于改进的BP神经网络的钢桁梁桥损伤识别 总被引:1,自引:0,他引:1
文章对某钢桁梁黄河大桥进行了损伤数值模拟,提取其固有频率作为BP神经网络的输入参数来训练网络,对桥梁整体的损伤进行诊断,并根据实桥损伤诊断的结果提出了一种改进的BP神经网络方法,它能够解决传统BP算法的梯度下降速度,从而提高运算速度,通过自调节保证学习过程中每一时刻具有较大的Sigmoid函数值,避免了局部极小。 相似文献
18.
基于Zernike矩和BP神经网络的纹理分割 总被引:3,自引:0,他引:3
提出了一种基于Zernike矩和BP神经网络的纹理分割方法.对图像的每个像素,选择一个窗口,计算该窗口内的Zernkie矩,然后通过非线性变换器将得到的矩值转换成纹理特征;选择BP神经网络作为分类器,将图像的每个像素得到的n维特征向量输入BP神经网络进行分类,最后将结果标注在原图像上.和基于Legendre矩的纹理分割结果相比,基于Zernike矩的纹理分割可以降低分割错误率. 相似文献
19.
根据神经网络串行布局算法 ,进一步研究并提出了与布局问题相适应的神经网络并行计算模型及并行布局算法 ,以负载平衡及系统通信开销最小为目标 .理论分析结果表明 ,运用该算法能达到此目标 ,且具有布局质量高、收敛快、计算简单等特点 ,适于神经网络并行布局 相似文献