首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
提出一种基于句子相关度的文本自动分类模型(TCSC).该模型利用训练样本增量式地自动更新类别语料库,根据句子的位置权值和语料权值计算句子类别相关度,获得用于文本分类的句子相关度矩阵,通过该矩阵实现文档分类.该模型避免了分类阶段待分类文本特别是中文文本的分词,模糊了词的多义问题,且在文本分类的实验中能够达到86%以上的查全率和查准率;随着语料库的不断训练和调整,分类性能还可以进一步提高,具有简单实现的特点.  相似文献   

2.
对蒙古文输入过程中出现的拼写错误进行了分析和归类,给出了用贝叶斯算法校正蒙古文单词拼写错误的实现方法.通过对新闻语料进行纠错验证,在实验条件下,该方法的拼写纠错率可达89%以上.  相似文献   

3.
自动语音识别(ASR)技术目前已发展得较为成熟,通用ASR引擎已经广泛应用于交通、医疗、通信等行业。但是,由于行业专有词汇在大规模训练语料库中呈非独立同态分布,通用ASR引擎在各细分行业转写时存在对行业专有词汇识别准确率低的问题。相较于互联网环境的16 kHz音频采样率,电话呼叫中心语音为窄带低采样(采样率8 kHz),转写后精度下降尤为明显。为了提高行业词汇的语音转写准确率,文中提出一种基于行业词表的ASR转写后优化技术。首先,对语料库文本数据分别采用卷积神经网络模型和深度神经网络BERT模型进行预测分词,生成行业纠错词表。随后,在生产环境中,使用通用ASR引擎对电话呼叫语音数据进行初始转写。然后,对一次转写后的文本,通过Soft-Masked BERT模型结合纠错词表实现文本数据的纠错,从而提高语音识别准确率。使用广州12345热线客服通话语音数据进行训练和测试,结果表明,使用文中的转写后优化技术可以将通用ASR引擎的行业用词转写准确率提高约10个百分点,且纠错速度较快,具有良好的适用性。  相似文献   

4.
基于赵衍荪、徐琳编著的《白汉词典》,尝试建立白语拼音语料库,利用计算语言学中的MI值和T检验值从关联性和置信度两个角度出发,并根据MI值和T值的互补性,提出了词项搭配的分类模型,用于计算中心词与搭配词的词项搭配可靠性.实验结果表明本方法能全面有效地定量分析出中心词的常见典型搭配和低频固定搭配,为白汉机器翻译打下基础,助力于白语保护和传承.  相似文献   

5.
基于山西大学自主开发的中文阅读理解语料库CRCC,根据问句和候选答案句的对应关系,在已有的最大熵模型的10个特征的基础上加入词的分布式实值向量表示的特征,其中分布式词特征分别是问题句和答案句的词对应的分布式实值的向量的最大值的欧式距离、夹角余弦等特征,主要是用来刻画问题句和答案句的相似程度.实验结果表明,把词的分布式实值表示的向量作为最大熵模型的特征对于测试集上的HumSent准确率的提升是有效的.  相似文献   

6.
针对特定目标的情感分析是文本情感细粒度理解任务的重要内容.已有研究大多通过循环神经网络和注意力机制来建模文本序列信息和全局依赖,并利用文本依赖解析树作为辅助知识,但这些方法没有充分利用目标词与文本词之间的依赖关系,也忽略了训练语料库中的词共现关系,而词共现信息往往意味着一种语法搭配.为了解决上述问题,提出一种目标依赖的多头自注意力网络模型.该模型首先设计内联和外联两种不同的注意力机制用于建模文本词和目标词的隐藏状态和语义交互;其次,该模型构建了语料库级别和句子级别的词共现图,并通过图卷积网络将词共现信息融合进文本的特征表示学习并用于下游分类任务.在五个标准数据集上进行了对比实验,实验结果表明,提出的模型在方面级情感分析任务中的性能优于所有对比模型.  相似文献   

7.
基于互信息的宋史语料库词表的提取   总被引:2,自引:0,他引:2  
基于统计语言模型,对《续资治通鉴长编》进行了统计分析.根据互信息特征抽取候选字串,通过人机交互确定其是否构成词,然后动态修正相关字串的互信息值,逐步建立宋史语料库词表.实验中据互信息阈值抽取候选字串6 500个,根据汉语大词典确定是词的有3 694个,占56.8%.结果表明互信息法是建立古汉语语料库词表的有效辅助手段.  相似文献   

8.
目前,事件检测的难点在于一词多义和多事件句的检测.为了解决这些问题,提出了一个新的基于语言模型的带注意力机制的循环卷积神经网络模型(recurrent and convolutional neural network with attention based on language models,LM-ARCNN).该模型利用语言模型计算输入句子的词向量,将句子的词向量输入长短期记忆网络获取句子级别的特征,并使用注意力机制捕获句子级别特征中与触发词相关性高的特征,最后将这两部分的特征输入到包含多个最大值池化层的卷积神经网络,提取更多上下文有效组块.在ACE2005英文语料库上进行实验,结果表明,该模型的F1值为74.4%,比现有最优的文本嵌入增强模型(DEEB)高0.4%.  相似文献   

9.
英文作文的自动拼写检查研究   总被引:1,自引:0,他引:1  
基于自动拼写检查的研究现状,将英文作文中的拼写错误进行了分类,并分别采用规则匹配和统计建模的方法对单词的非词错误和真词错误进行了研究,从而扩大了对英文单词进行拼写检查的研究范围.真词错误检查主要是利用贝叶斯定理,并通过建立一些特定的混淆集的方法来实现.通过实验数据分析,该系统的准确率达到了80%以上.  相似文献   

10.
微博情感新词的极性判定是情感分析研究中的一项基本任务,旨在对新词进行情感分类。针对极性判定的问题,提出一种新的计算特征向量相似度的算法。该方法首先使用特征向量表示情感新词和已有情感词,利用点互信息计算特征权值:然后采用广义Jaccard系数分别计算情感新词与已有的三种极性的情感词集内情感词的相似度,词集内相似度之和即为情感新词与该情感词集的相关度:最后,通过情感新词与三个极性情感词集的相关度的距离差判定其极性。实验结果表明,基于广义Jaccard系数的情感新词极性判定算法得出的F值比COAE 2014参赛队伍的最好成绩高两个百分点。  相似文献   

11.
中文文本自动校对技术是自然语言处理领域中的主要任务之一.针对中文文本中字粒度级别的错误(音似、形似和义似替换错误),提出一种基于RoBERTa-wwm-ext与混淆集的中文文本校对模型.该模型在RoBERTa-wwm-ext结构的基础上,利用transformer结构中的encoder机制读取整段中文文本序列,然后通过softmax函数计算当前字符权重分布来判断该字符是否错误,并在纠错任务中引入混淆集,使用混淆集找到该错字对应的候选字符,最后结合掩码语言模型给出的修改建议,完成文本校对.在SIGHAN2014与SIGHAN2015中文拼写检查数据集上,设计字粒度级别的中文文本校对实验,对比模型性能.实验结果表明,与当前主流的中文文本校对模型相比,该模型的中文文本校对效果表现更佳,文本校对的准确率、召回率、F1值均有所提升.  相似文献   

12.
中文文本实体识别,是自然语言处理的关键问题.传统的语言处理模型无法有效表示文本中的上下文语义信息,无法处理一词多义的不同语境,影响实体识别效果.提出了一种BERT-BiLSTM-CRF的实体识别模型,BERT预处理语言模型生成表征上下文语义信息的词向量,通过双向长短期记忆网络对生成的向量进行特征提取,自注意力机制能够有效获取文本语句中的长距离依赖,最后通过CRF进行解码生成实体标签序列.实验结果表明,该模型在微软亚洲研究院MSRA语料库和人民日报语料库上都取得了优异成绩,F1分别达到96.12%和95.88%.  相似文献   

13.
音节字是构成藏文文本的基本单位,也是整个现代藏文自动校对的基础。音节字校对的结果直接影响词校对的正确率,从而对词、格助词、句法和语义校对等产生重要影响。文章以语料库统计得到的藏文音节字字表、二元同现表和纠错建议表等作为语言知识库,以藏文音节字的错误类型为依据,设计了字表匹配和查找同现概率为侦错方法、用纠错建议表进行纠错的音节字校对系统。  相似文献   

14.
为了体现词条之间的关系,更好地为用户提供个性化服务,提出了在语义网络下对用户兴趣建模的思想. 根据用户的访问历史,利用知网建立基于概念关系的用户兴趣森林模型. 通过计算机链接描述文字的平均带权语义距离,预取用户将来可能访问的Web页. 基于带权语义距离的网页预取方法对用户兴趣进行归纳,用带权语义距离反映词与词之间的概念关系. 实验结果表明,此方法的命中率较高,漏取率较低,平均命中率可以达到61%左右.  相似文献   

15.
基于语料库数据支持的词语搭配研究是语料库语言学研究的重要内容,该研究分别以中国学习者语料库(CLEC)和英国国家语料库(BNC)的一部分为基础,利用CONCAPP3.0和Win Concord分析软件,对两个语料库中出现的happen搭配词的语义倾向进行对比分析。重点分析了与happen共现频率在前5位,相互信息值大于3的搭配词。结果显示,中国英语学习者和本族语在使用happen时,其语义韵有明显的差异。  相似文献   

16.
GM(1,1)模型的误差主要来源于背景值和初始值,因此提出3种不同的背景值构造方法分别为:把背景值的固定权改为变权构造背景值的方法、将数据序列抽象为指数函数构造背景值的方法、将数据序列抽象为非齐次指数函数构造背景值的方法,并以X(n)为初始值和新陈代谢方法来建立GM(1,1)模型.通过工程实例检验这3种不同背景值构造方法建立的GM(1,1)模型的预测精度.计算结果表明,将数据序列抽象为非齐次指数函数构造背景值建立的模型预测精度较高,可为类似工程提供参考.  相似文献   

17.
拼写错误分析是一项具有挑战性的研究课题,在文本编辑、字处理、拼写检查等诸多方面具有广阔的应用前景.藏文是一种拼音文字,其拼写错误类型包括非真字型、真字型和标点符号等.文章以藏文文法中的字、词构造规则和语义作为切入点,总结归纳了藏文文本拼写错误类型,为藏文文本拼写检查技术提供参考依据.  相似文献   

18.
作为一种自组织网络,Kohonen神经网络在遥感影像聚类中得到了广泛的应用.但Kohonen算法具有初始权值随机化、学习率和邻域难以确定等缺陷,并且作为一种聚类算法,难以直接进行监督分类.对Kohonen非监督学习算法进行改进,用最大最小距离法确定初始权值,利用权值误差作为网络训练收敛条件,并将Kohonen算法与奖惩...  相似文献   

19.
医学文本实体识别过程存在多义性和复杂性等特点,这导致传统的语言处理模型无法有效获取医学文本语义信息,从而影响了医学实体识别效果。本文提出了一种基于全词MASK的医学文本实体识别模型,其能有效处理中文文本。其中,BERT预处理层能够生成表征上下文语义信息的词向量,Bi-LSTM层对输入的词向量进行双向特征信息提取,注意力机制层对输出的特征向量进行权重分配,从而有效获取文本语句中的长距离依赖,最后通过CRF解码以生成实体标签序列。实验结果表明,该模型在中文简历语料库和CCKS2017语料库中表现优异,F1值分别为96.14%和92.68%。  相似文献   

20.
通过构建高职非英语专业学习者语料库,并将其与本族语学习者语料库进行对比,可以看出:首先,高职非英语专业学生实际掌握的英语词语较少,运用能力有限;其次,高职非英语专业学生虽然在词语的综合使用方面达到了一定水平,但在含有字母较多的长词使用方面仍有欠缺;第三,母语文化对高职非英语专业学生的英语使用影响较大;第四,在表达衔接、转折等意义的词语的使用上,高职学生仍有较大欠缺。对此,高职英语教师除了要加强学生基本的拼写训练外,还要从学生实际情况出发,在完成日常教学任务的同时,给予学生充分的词汇练习时间、给予学生更多的语言资料来进行全面练习,最终达到提高学生综合英语应用能力的目标。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号