共查询到20条相似文献,搜索用时 0 毫秒
1.
数量名短语的自动识别是中文信息处理中短语识别的重要内容,对汉语深层次句法分析和语义分析将起到很重要的作用。本文对"数.量.名"、量词重叠的数量名短语进行自动识别,以量名搭配概率为基础,提出了基于变长后缀匹配的后退算法来发现更多的量名搭配,把召回率提高了40个百分点。我们在240万字的当代新闻小说语料上进行了识别试验和测试,结果显示,达到80%左右的调和平均值。 相似文献
2.
提出了一种基于支持向量机(SVM)和条件随机场(CRF)的双层模型进行中文机构名识别的方法.第一层模型采用CRF识别简单机构名,并将识别结果传至第二层辅助下一步的识别;第二层采用基于驱动的方法,将SVM和CRF结合进行复杂机构名的识别;最后将两层的识别结果合并,并通过一个后续处理对置信度较低的识别结果进行修正.大规模真实语料的开放测试表明,精确率达到94.83%,召回率达到95.02%,证明了该方法的有效性. 相似文献
3.
提出了一种基于支持向量机(SVM)和条件随机场(CRF)的双层模型进行中文机构名识别的方法.第一层模型采用CRF识别简单机构名,并将识别结果传至第二层辅助下一步的识别;第二层采用基于驱动的方法,将SVM和CRF结合进行复杂机构名的识别;最后将两层的识别结果合并,并通过一个后续处理对置信度较低的识别结果进行修正.大规模真实语料的开放测试表明,精确率达到94.83 %,召回率达到95.02%,证明了该方法的有效性. 相似文献
4.
本文在分析中文和韩文数词、量词的特点和不同点的基础上,论述两种语言数量短语的构成和使用方法的差异性,并强调应该避免其差异性的存在而导致在教授和学习上的错误出现。 相似文献
5.
卷积神经网络模型和长短期记忆网络模型是两种应用广泛的深度学习网络模型,为探究两种模型在结构损伤识别应用中的效果,采用两种网络模型对钢框架结构的损伤识别进行研究.以3层框架结构为例,选用削减单元自身动力特性后的模态应变能差作为损伤指标,分别输入到两种神经网络模型中,对梁柱单元的损伤程度识别和损伤位置识别进行分析.结果表明:两种网络模型均能很快掌握结构单元的动力特性,在学习了框架结构的模态特征后,均能够精准地识别出损伤单元的位置,同时能较为准确地预测出单元的损伤程度,验证了两种网络模型在以模态应变能差为指标的损伤识别中具有较好的适用性.对比两种网络模型的表现,发现卷积神经网络具有较高的训练效率和较好的泛化性能. 相似文献
6.
中文文本实体识别,是自然语言处理的关键问题.传统的语言处理模型无法有效表示文本中的上下文语义信息,无法处理一词多义的不同语境,影响实体识别效果.提出了一种BERT-BiLSTM-CRF的实体识别模型,BERT预处理语言模型生成表征上下文语义信息的词向量,通过双向长短期记忆网络对生成的向量进行特征提取,自注意力机制能够有效获取文本语句中的长距离依赖,最后通过CRF进行解码生成实体标签序列.实验结果表明,该模型在微软亚洲研究院MSRA语料库和人民日报语料库上都取得了优异成绩,F1分别达到96.12%和95.88%. 相似文献
7.
《齐齐哈尔大学学报(自然科学版)》2022,(1)
中文文本实体识别,是自然语言处理的关键问题。传统的语言处理模型无法有效表示文本中的上下文语义信息,无法处理一词多义的不同语境,影响实体识别效果。提出了一种BERT-BiLSTM-CRF的实体识别模型,BERT预处理语言模型生成表征上下文语义信息的词向量,通过双向长短期记忆网络对生成的向量进行特征提取,自注意力机制能够有效获取文本语句中的长距离依赖,最后通过CRF进行解码生成实体标签序列。实验结果表明,该模型在微软亚洲研究院MSRA语料库和人民日报语料库上都取得了优异成绩,F1分别达到96.12%和95.88%。 相似文献
8.
卢玉敏 《广西大学学报(自然科学版)》2007,32(Z1):116-118,121
中文信息处理是人工智能领域中的一个重要分支.中文自动分词是中文信息处理的基础.本文对自动分词现状及其几个技术难点做了一定的探讨,其中特别对自动分词中亟待解决的几个难题之一未登录名词短语识别的现状进行了分析. 相似文献
9.
提出一种基于最大熵模型的中文疾病命名短语识别方法,在模型特征选择上,将领域本体信息作为模型的一种特征.由此实现的疾病命名短语识别分类器具备有监督学习和利用领域知识的能力.实验结果表明,对于疾病命名短语识别的准确率达到89.7%,召回率87.6%,F-评价值88.64%. 相似文献
10.
提出一种基于最大熵模型的中文疾病命名短语识别方法,在模型特征选择上,将领域本体信息作为模型的一种特征.由此实现的疾病命名短语识别分类器具备有监督学习和利用领域知识的能力.实验结果表明,对于疾病命名短语识别的准确率达到89.7%, 召回率87.6%, F-评价值88.64%. 相似文献
11.
近几年我国新生儿数量持续下降的现象已引起政府有关部门的高度重视,科学预测未来几年我国新生儿的数量,已成为政府制定相关政策的关键所在.基于2000—2020年新生儿出生量数据,分别采用时间序列预测模型与灰色预测模型进行单项预测,并使用均方误差倒数法构造对应权重,对我国未来3年的新生儿数量进行组合预测.为适应三孩政策带来的... 相似文献
12.
中文命名实体识别方法中采用较多的是神经网络模型,但该模型在训练过程中存在字向量表征过于单一的问题,无法很好地处理字的多义性特征.因此,提出一种基于Bert-BLSTM-CRF模型的中文命名实体识别研究方法,使用Bert预训练语言模型,根据字的上下文信息来丰富字的语义向量,将输出的字向量序列作为输入送入BLSTM-CRF模型进行训练.实验结果表明,此方法在中文命名实体识别任务上其准确率、召回率和F1值分别取得了94.80%、95.44%和95.12%的成绩,相较于其他传统方法,效果显著. 相似文献
13.
名词短语在自然语言处理中具有重要的地位.文章首先从语言学角度定义了名词短语,然后为名词短语识别的问题设计了一个序列标注模型,最后将隐马尔科夫支持向量机用于学习该序列标注问题.实验显示取得了满意的准确率和召回率. 相似文献
14.
15.
名词短语识别是自然语言处理领域的非常重要的子任务。利用最大熵法(ME)、支持向量机法(SVM)和隐马尔可夫模型(HMM)3种有代表性的统计方法对汉语文本进行名词短语识别,并对实验结果进行比较分析。结果表明HMM法在封闭测试中优势明显,SYM法在小样本模式的开放测试中表现良好,而最大熵方法在两种测试中的识别结果均比较理想。分析表明,HMM方法侧重应用在与线性序列相关的现象上;SVM方法适用于有限的汉语带标信息的分类问题;而最大熵方法特别适用于把不受限的文本特征加入统计模型中的情况。 相似文献
16.
以已经分词并进行了词性标注和介词短语标注的《人民日报》为实验语料,选取其中出现频次高于20次的61个介词为实验对象,采用支持向量机、最大熵和条件随机场这3种统计模型,对介词短语边界识别进行了研究.实验结果表明在3种模型中,采用条件随机场模型效果最好,微平均准确率达到了95.68%. 相似文献
17.
顾鸣镝 《浙江科技学院学报》2006,18(3):229-231,242
通过探究英语学习者阅读速度慢、阅读理解正确率低的原因,寻求一种行之有效的阅读方法来帮助他们尽快达到英语阅读速度与阅读理解正确率高的要求,即短语快速识别法在英语阅读教学中的应用研究。实验结果表明,短语快速识别法可有效纠正阅读者逐字识别的不良阅读习惯,扩大视幅,从而帮助其提高阅读速度及阅读理解正确率。 相似文献
18.
基于统计和规则混合策略的中国人名识别研究 总被引:2,自引:0,他引:2
采用统计与规则相结合的混合策略,提出一种中国人名的自动识别方法.该方法利用知识库中的统计信息,对中国人名作初步的提取,分析中国人名构成的内部特征和外部特征,提取出特征集,并总结出相应的识别规则,对候选人名进行识别,在此基础上构建了一个中国人名识别系统,并对系统进行了测试,实验表明了算法的可行性和有效性. 相似文献
19.
针对传统传感器需要在特定的空间区域内才能进行人机交互,极易受到外部环境因素干扰的问题,提出一种新的基于长短时记忆神经网络(LSTM)的智能手机3D空间手写识别方法,用于非特定三维空间中实现的人机交互.首先,利用智能手机内置三轴加速度传感器,采集手部运动数据,并将采集的数据进行预处理操作,构建3D手写识别数据集;然后,基于LSTM构建3D手写识别模型,并利用构建的数据集进行训练;最后,利用训练后的模型实现智能手机的3D手写分类识别.通过在本文自建的非依赖用户数据集上进行测试,实验结果表明,该识别方法可以实现86.4%的准确率,88.1%的召回率,88.4%的精准率和88.0%的F1分数. 相似文献
20.
根据生物医学文本中基因名的特点,提出了一组新特征用于基因名的识别。利用精简的特征集,将提出的新特征融合进精简特征集中。应用GlobalLinear模型和感知机学习算法在BioCreativeⅡ数据集中对提出的方法进行了验证,结果表明,通过使用数量较少的、区分能力强的特征,仍能使系统达到较高的性能。当融合新特征时,系统的精确率和召回率也有一定的提高。 相似文献