共查询到20条相似文献,搜索用时 0 毫秒
1.
《西北民族学院学报》2010,(4)
藏文分词词典是藏文自动分词系统的的重要组成部分.词典的数据结构与检索速度直接影响到自动分词系统的质量.文章对几种常见的汉语分词词典机制及其效率进行了分析,并根据藏文基本集编码字符串的结构特征,提出了一种逐音节二分的藏文分词词典机制. 相似文献
2.
随着藏文信息技术的不断普及和发展,搜索引擎技术成为藏文信息处理一项新的研究课题.对搜集到的藏文网页文本或用户查询关键词进行理解、提取和组织等处理是搜索引擎的一项基础性工作,其中藏文分词的准确与否,直接影响到搜索引擎查询效果及查询结果列表的排序问题,因此分词成为藏文搜索引擎技术中需要解决的关键问题.文章针对藏文搜索引擎中基于字符串匹配的藏文分词技术进行研究并提出相应的解决算法. 相似文献
3.
藏文分词是藏文自然语言处理的基础。根据藏文虚词在藏文文本中的特殊作用以及虚词的兼类性、结合性、黏着变体性和还原特性,设计实现了一个基于藏语虚词切分的正向最大匹配的藏文分词系统,该系统对原始文本进行逐次扫描处理得到分词结果。实验表明,文章提出的藏文分词系统具有较高的切分精度和切分速度。 相似文献
4.
将语义信息引入闭域问答系统的研究,并通过实验来验证其对闭域问答系统性能的改善.主要方法是寻找一个领域特征词集来描述候选答案集与问题间的相关度. 相似文献
5.
自动问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。本文提出了一个基于动态知识库的高考咨询问答系统,用来增强已有的搜索引擎的功能,使系统能够支柱自然语言回答。文章对系统的流程、设计思想以及创新点做了介绍,并对系统进行分析评价,最后介绍还需要进一步完善的工作。 相似文献
6.
基于FAQ(Frequent Asked Questions)问答技术构建智能客服系统,是当前业界普遍采用的技术方案.基于FAQ构建的问答系统,其返回的结果具有稳定、可靠、质量高的优点;但因受限于人工标注的知识库规模,识别能力有限,容易遇到瓶颈.为了解决FAQ数据集规模有限的问题,给出了数据层面和模型层面的解决方法:在数据层面,利用百度知道爬取相关数据并挖掘语义等价问题,保证了数据的相关性和一致性;在模型层面,提出了一种面向迁移学习的深度神经网络transAT,该模型融合了Transformer强大的特征抽取能力和注意力机制,适用于句子对之间的语义相似度计算.实验表明,该方法可以显著提升模型在FAQ问答任务中的效果,在一定程度上解决了FAQ数据集规模有限的问题. 相似文献
7.
在藏文文本理解中虚词发挥着重要的句法、语义桥接作用,其规则的有效性在藏文分词处理中扮演着特殊的角色。由于虚词本身及其角色的丰富性,在一定意义上可以说藏文分词处理是虚词识别的过程。因此,虚词识别的正确与否直接影响着藏文文本分词处理的效果。文章依据藏语自身的语法规律和虚词功能的特殊性,首先构建了虚词知识库、虚词兼类库,以及其作为藏文连续文本中识别虚词的依据;其次,研制了标有词汇属性的分词词表和一定规模的训练语料库资源,以基于条件随机域(CRF)的方法进行词性标注,并结合虚词和词性赋码的资源制作了藏文自动分词赋码一体化处理的模型。 相似文献
8.
自动问答系统研究综述 总被引:2,自引:0,他引:2
自动问答系统是自然语言处理领域中一个非常热门的研究方向,它综合运用了多种自然语言处理技术。本文综述了国内外自动问答技术的发展现状,对系统三个主要组成部分:问题分析、信息检索和答案抽取进行了深入的分析,通过比较,得出了自动问答系统运用各类技术之间的优势与不足。在此基础上,提出了自动问答系统的发展方向。 相似文献
9.
中文自动问答系统是集知识表示、信息检索、自然语言处理技术于一体的研究课题。从问题处理、信息检索、答案抽取三个方面进行详细说明,同时分析了段落权重以及句子语义相似度的计算方法,在答案抽取阶段还阐述了利用话语结构树提取摘要信息的方法。 相似文献
10.
11.
词、格助词、藏文信息和分词单位等概念是藏文分词过程中必须提及的几个专业术语。文章依据《咨询用中文信息处理分词规范》、《中文信息处理分词之基本词表》、《信息处理用现代汉语分词规范》和《分词词表》等地区和国家标准,结合藏文传统语法典籍和汉语语义分类体系,对这几个概念进行了论述。 相似文献
12.
介绍了有关中文问答系统的一些研究.问答系统是集知识表示、信息检索、自然语言处理技术于一体的难度很高的研究课题.本文从问题处理、检索系统、答案抽取三个方面进行了详细说明. 相似文献
13.
文章针对传统藏文分词的切词难点及切分歧义现象,提出一种基于小字符集的藏文自动分词技术方案.其中包括分词预处理、多级Hash词典机制、藏文格助词紧缩格的判别及还原规则、逐字匹配算法和未登录词的处理等内容. 相似文献
14.
藏文排序在字、词典排序,计算机中藏文的排序等方面有着广泛的应用,文章根据藏文编码国家标准(GB)的整字编码方案,研究藏文的排序问题。通过藏文结构的线性化处理,提出基于藏文编码国家标准的基字定位算法和排序算法,并将应用于藏文电子词典的排序中。 相似文献
15.
基于藏文编码GB的藏文排序方法研究 总被引:3,自引:0,他引:3
藏文排序在字、词典排序,计算机中藏文的排序等方面有着广泛的应用,文章根据藏文编码国家标准(GB)的整字编码方案,研究藏文的排序问题。通过藏文结构的线性化处理,提出基于藏文编码国家标准的基字定位算法和排序算法,并将应用于藏文电子词典的排序中。 相似文献
16.
藏文分词是藏文信息处理领域的一项不可缺少的基础性工作,也是智能化藏文信息处理的关键所在。在藏文分词的研究过程中藏文分词的准确性,直接制约着藏文输入法研究、藏文电子词典建设、藏文词频统计、搜索引擎的设计和实现、机器翻译系统的开发、藏文语料库建设以及藏语语义分析研究等高层藏文信息处理技术的进一步发展。本文借鉴汉语的分词理论和方法,提出符合藏文特性的分词方法,以及歧义字段切分和未登录词识别等相关问题,并举例说明。 相似文献
17.
本论述采用藏语三级切分体系对藏文文本进行分词和词性标注,并借助手工建立的藏文情感分析用词表,与已有的特征选择方法相结合提取情感特征,用相似度分类算法进行藏文文本的情感分类,达到了较好的分类效果. 相似文献
18.
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,文章提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。 相似文献
19.
介绍了一般问答系统的技术和方法,同时,为了提高问答系统的精确度,提出了专用领域问答系统模型,其核心是专业词典库(Thesaurus)的应用(专业词典库包含了结构化的领域专业词汇),在此基础上构建了建筑学与教育领域的问答系统.并应用MRR(Mean Recip-rocal Rank)评估方法,在建筑学领域进行了实验,结果显示:相对于关键词检索方法,应用此方法的系统在性能上取得了近10%的改善. 相似文献
20.
抑郁症患者对自身认知的不足以及早期筛查方法的缺乏导致很多患者在治疗时就已经是重度抑郁障碍,为改善现状,本研究从抑郁症论文摘要中抽取其知识三元组,构建抑郁症知识图谱,并基于抑郁症知识图谱,开发自动问答系统.该问答系统可以将用户输入的问题进行中文分词,然后用BiLSTM+CRF模型识别问题中的医学实体,再根据模板匹配理解问题中的语义,在所建构的抑郁症知识图谱中查询到对应的答案,以自然语言的形式返回给用户.实验结果表明,基于抑郁症知识图谱的自动问答系统可以有效回答抑郁症相关的问题,具有较高的准确率和使用价值. 相似文献