首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
藏文命名实体识别是藏语自然语言处理的基础任务,是完成机器翻译、网络舆情检测和知识图谱构建等任务的前提.传统的基于深度学习的藏文命名实体识别将藏文音节(字嵌入)作为模型输入的方法容易忽略藏文音节的局部特征.针对这一问题,本文提出了一种融合构成藏文音节部件特征和藏文音节特征的藏文命名实体识别神经网络模型SL-BiLSTM-CRF(syllable level long short-term memory conditional random field).其中,SL模块对构成音节的部件信息和藏文的单个音节进行特征编码,将两种不同模态的特征融合之后送入BiLSTM模型进行特征提取并预测实体标签,再通过CRF对BiLSTM模型的预测结果进行矫正,最终输出藏文实体识别结果.实验证明,该方法在藏文命名实体识别任务中相比基于单个藏文音节(字嵌入)的BiLSTM-CRF模型的F1值提高了1.58个百分点,验证了该方法在藏文命名实体识别任务中的有效性.  相似文献   

2.
首先介绍藏文音节独特的构造方法, 以及藏文字母的语音特性带来的藏文组合形式上的诸多限制。然后以藏文音节为研究对象, 借助藏文语法规则, 建立现代藏文音节的简化模型和相应的规则库,并介绍其应用领域。最后提出一种基于音节模型的的藏文音节自动拼写算法, 并通过实验验证规则方法的有效性。  相似文献   

3.
文章就藏文字处理领域对藏文校对功能的实际需要,提出了基于音节的藏文文本校对方案对藏语音节规则的详细描述.采用统计方法对藏语音节的搭配规则等做了探索性的研究,创建了音节及音节搭配规则等多种知识库,以这些知识库为基础进行音节模式匹配查错.设计实现了音节规则模型与音节库模式匹配方法相结合的音节级查错.通过借鉴藏文传统语法理论、现代语言学理论、计算机技术和统计学理论等知识,介绍了藏文文本校对的设计思想,给出了藏文文本校对系统的组成原理、关键技术及可操作的实现方法.实验结果表明,基于音节的查错方案是可行的.为进一步研究开发藏文智能校对软件提供了所需的规则特征集和统计语料等基础性的研究资料.也为将来实现基于词、语法和语义层面的校对奠定了基础.  相似文献   

4.
现代藏文自动校对中,对音节字( )的校对是其基础。在藏文文本中音节字是用音节点进行间隔的,由于藏文二维的书写特征和音节字形成过程中与其构件之间严格的搭配规则等诸多问题,使得对它的校对又区别于任何一种文字。文章介绍了音节字的构件、结构和搭配规则等问题,列举了藏文音节字中的错误类型,并针对其特殊性给出了一个特有的音节字校对的流程和方法。  相似文献   

5.
提出了基于XLNet的双通道特征融合文本分类(XLNet-CNN-BiGRU, XLCBG)模型。相对于单模型通道,XLCBG模型通过融合XLNet+CNN和XLNet+BiGRU这2个通道的特征信息,能提取更加丰富的语义特征。XLCBG模型对融合后的特征信息分别采用了Maxpooling、Avgpooling和注意力机制等处理方式,分别提取全局中特征值最大的向量、全局中的均值特征向量、注意力机制的关键特征来代替整个向量,从而使融合特征处理的方式多样化,使最优分类模型的可选择性增多。最后,将当前流行的文本分类模型与XLCBG模型进行了比较实验。实验结果表明:XLCBG-S模型在中文THUCNews数据集上分类性能优于其他模型;XLCBG-Ap模型在英文AG News数据集上分类性能优于其他模型;在英文20NewsGroups数据集上,XLCBG-Att模型在准确率、召回率指标上均优于其他模型,XLCBG-Mp模型在精准率、F1指标上均优于其他模型。  相似文献   

6.
以藏文音节拼写检查、梵音转写藏文检查、接续关系检查、词语检查为研究内容, 提出藏文文本自动校对框架和接续关系检查算法。根据该框架及算法, 设计并实现藏文自动校对系统。通过实验证明算法和系统的可靠性和有效性。  相似文献   

7.
本论述采用藏语三级切分体系对藏文文本进行分词和词性标注,并借助手工建立的藏文情感分析用词表,与已有的特征选择方法相结合提取情感特征,用相似度分类算法进行藏文文本的情感分类,达到了较好的分类效果.  相似文献   

8.
文章将藏语的动词在传统分法基础上细分为使动动词、自主动词、不自主动词、自动动词、判断动词、存在动词、情态助动词等7类,并对藏语中具有黏着性和屈折性变化的动词进行举例说明和分析,在藏文信息处理过程中切分动词提供依据.  相似文献   

9.
文章将藏语的动词在传统分法基础上细分为使动动词、自主动词、不自主动词、自动动词、判断动词、存在动词、情态助动词等7类,并对藏语中具有黏着性和屈折性变化的动词进行举例说明和分析,在藏文信息处理过程中切分动词提供依据。  相似文献   

10.
文章针对传统藏文分词的切词难点及切分歧义现象,提出一种基于小字符集的藏文自动分词技术方案.其中包括分词预处理、多级Hash词典机制、藏文格助词紧缩格的判别及还原规则、逐字匹配算法和未登录词的处理等内容.  相似文献   

11.
统计与规则相结合的藏文句子自动断句方法   总被引:1,自引:0,他引:1  
 藏文句子断句是藏文信息处理领域的难点之一,也是藏汉机器翻译、藏文文本分类等工作的一项重要基础性研究.提出了一种统计与规则相结合的藏文句子自动断句方法以解决藏文标点符号功能的歧义问题,实验结果表明该方法具有比较好的效果,F1值达到98%以上.在规则中首先使用经验的方法,识别出不确定的藏文句子作为候选句子,然后采用基于关联词的复句分析方法进行分句合并形成二次候选句子;最后使用最大熵的方法对二次候选句子进行断句.经验方法和复句分析有效解决了最大熵算法无法触及的语料稀疏和分句问题.  相似文献   

12.
李晓滢 《科技信息》2010,(27):I0225-I0226
本文研究科技英语的长句句法特征,通过复杂长句的翻译策略选择来解读科技英语长句的翻译,由此分析科技英语长句翻译的实践性和重要性。  相似文献   

13.
X是X在让步复句中可以构成不同的句法分布和组合,是具有表判断、表让步、表强调、表系连的二价性的语义特征.虽然A,但是B和X是X,但是B具有宾语是否兼容的差异,而X是X,但是B可分为实然性和虚拟性,和X1是X1,X2是X2表界限、表差异具有共同的心理基础和语义前提.  相似文献   

14.
新闻和评论文本是进行读者情绪分类的重要资源,但仅仅使用新闻和文本或者把2类文本进行混合作为一组总体特征,不能充分利用不同文本特征间的区别和联系。基于此,提出了一种双通道LSTM(long short-term memory)方法,该方法把2类文本作为2组特征,分别用单通道LSTM神经网络学习这2组特征文本得到文本的LSTM表示,然后通过联合学习的方法学习这2组特征间的关系。实验结果表明,该方法能有效提高读者情绪的分类性能。  相似文献   

15.
通常,条件是结果产生的依据,二者相互依存。但在话语表达中有时却只有结果而隐去了条件。条件隐含在言语片段中,需要经过逻辑分析才能找出来.本文把这种条件称为隐含条件,并把含有这类隐含条件的句子称为隐含条件句。本文将主要参照许凤娇著《英语隐含条件句剖析》和张培基等人著《英汉翻译教程》对英语隐含条件句做较为详细的分类和翻译技巧介绍.  相似文献   

16.
本文介绍由笔者为山西省榆次市防疫站所开发的疫情管理信系统,并对疫情管息系统理论与方法进一步探讨。  相似文献   

17.
地名是语言词汇的一个组成部分,其中包含着极其丰富的语言及地理信息.从语言及地理角度分析古藏文吐蕃地名具有重要意义.吐蕃地名的类型有它独特的一面,同时还有其地名本身的结构属性及命名特点.在命名特点上,吐蕃地名不但表现客体的属性或特征,而且也包含着主观感情色彩等内容,使地名具有自然和社会两种属性.吐蕃地名不仅与特定的自然地理环境有关,而且与历史上藏民族及周边民族的活动和影响颇具关联,是一种人地关系的反映.  相似文献   

18.
文章主要就元明时期藏族的传统文献目录学的形成以及文献分类方法进行综述,认为目录学不但可以反映出一个拥有文字的民族有着怎样的科学思维和态度,而且也可以认识该民族的学术发展状况。藏族文献目录学有着独到的分类系统,这种系统建立在其传统的文献学基础上,研究藏文献学和目录学,无疑有助于我们加深对藏族史学和传统文化的认识。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号