期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘思源毛存礼张勇丙《南京大学学报(自然科学版)》2023,(4):610-619

汉越跨境民族文本检索是一类面向领域的跨语言检索任务，旨在以一种语言作为问题查询，检索出另一种语言对应的民族、宗教、文化习俗等跨境民族文档.但在汉越跨境民族文本检索任务中存在大量不常见的领域实体，实体表达形式多样，且中文和越南语两种语言领域实体没有直接对应关系，导致跨语言领域词对齐和语义对齐困难，进而影响汉越跨境民族文本检索模型性能.基于此，提出一种基于领域知识图谱和对比学习的汉越跨境民族文本检索方法 .首先，利用多头注意力机制将汉越跨境民族领域知识图谱融入查询和文档，丰富查询和文档中不常见的跨境民族领域实体信息；然后，引入对比学习来解决跨语言查询和文档的语义表征对齐困难问题；最后，将融入知识图谱的查询和文档表征之间的相似度计算作为相关性分数.实验表明，提出的方法和基线模型相比，性能提高了4.1%. 相似文献

2.

利用问句语义结构构建旅游领域数据库查询

王凤林余正涛毛存礼郭剑毅《广西师范大学学报(自然科学版)》2009,27(1)

为了提高数据库查询的准确率,提出一种利用问句语义结构构建领域自然语言数据库查询方法.该方法通过定义问句语义模板,借助领域知识,对领域问句进行语义分析,提取问句语义块,并通过语义模式匹配实现问句语义模板向SQL的转换,从而实现自然语言数据库查询.在云南旅游领域实验的结果表明,该方法取得了较好的效果. 相似文献

3.

融入领域知识的跨境民族文化生成式摘要方法

赵冠博张勇丙毛存礼高盛祥王奉孝《南京大学学报(自然科学版)》2023,(4):620-628

从跨境民族文化文本中生成具有领域知识的摘要对进一步开展跨境民族文化文本检索、问答等任务具有重要的支撑作用，当前基于深度学习的生成式文本摘要取得了较好的效果，但直接用于跨境民族文化文本摘要任务会导致生成的摘要出现领域词汇丢失的问题.为此，提出一种融入领域知识的跨境民族文化生成式摘要方法（Domain Knowledge-Culture-Generative Summary,DKCGS），在编码端将跨境民族文化领域词典编码与原文本编码融合，以此增强模型对领域词汇的表征能力；在解码端，基于指针生成网络将具有同义或跨境关系的领域词汇分布与原文本分布结合，提高模型生成文化领域词汇的准确率.同时，在通用领域文本上进行预训练并进一步初始化参数，以缓解数据稀缺导致模型训练效果不佳的问题.实验结果表明，提出的方法在跨境民族文本摘要数据集上比基线模型的Rouge-1提升了0.95，有效提升了跨境民族文化文本摘要生成的质量. 相似文献

4.

一种融合PageRank的协同过滤帖子推荐方法

曹阳刘松郭剑毅余正涛周枫毛存礼《中国科学技术大学学报》2014,(7)

针对贴吧用户面临严重的信息过载问题,提出一种基于用户信息的协同过滤帖子推荐方法.分析帖子推荐的属性特点后,首先利用一个融合了用户评论行为的PageRank算法去判断参与一个帖子讨论中各用户的重要性,主要考虑各用户之间的回复关系以及各用户之间回复的时间关系;然后把PageRank得分高的用户作为聚类中心进行k-means聚类;最后把帖子中聚类得到的用户与推荐系统使用者通过协同过滤算法计算相似度,并结合用户的PageRank得分,选择与用户相关度较高的帖子作为推荐结果.实验结果表明,该模型比现在使用的热门帖子推荐有着更好的表现. 相似文献

5.

领域问答系统答案提取方法研究

毛存礼余正涛韩露郭剑毅李丽娜雷雄丽《烟台大学学报(自然科学与工程版)》2009,22(3):212-216

在特定领域问答系统中,领域知识直接影响问答效果．本文提出了一种领域问答答案提取方法,以问题分析得到问题查询、问题类型及答案类型为基础,借助领域知识检索获得答案提取候选段落．对于定义性问题,结合关键词加权权重计算方法及句子与问题语义相似度方法,对候选段落或句子与问题相关度排序,提取相关度高的句子或段落作为答案,对于数词或列表性实体问题,借助命名实体识别,提取与问题中心相关的领域实体作为答案．在云南旅游领域进行了答案提取实验,结果表明该方法具有较好的效果．相似文献

6.

纳-汉双语语料库构建及双语语料对齐 总被引：1，自引：0，他引：1

赵芳婷余正涛线岩团郭剑毅毛存礼候波《广西师范大学学报(自然科学版)》2009,27(1)

当前存在着部分纳西语-汉语双语互译文本,利用这些双语互译文本构建大规模的双语语料库,是双语互译文本的深层加工及其双语词典编纂、跨语言信息检索面临的关键问题.提出了一个大规模纳-汉双语语料库的构建方案,包括其总体规划标准制定、实施方案和流程细节.通过组织构建纳-汉双语语料库,实现双语语料库在统计的机器翻译系统中的应用,并实现纳-汉之间的双语对照翻译系统,较好地提高翻译的准确性和可读性,进而推动少数民族语言信息化的发展. 相似文献

7.

基于BERT预训练语言模型的电网设备缺陷文本分类

田园原野刘海斌满志博毛存礼《南京理工大学学报(自然科学版)》2020,44(4)

电网设备缺陷部位识别是设备故障分析的关键环节。该文提出一种基于预训练语言模型双向Transformers偏码表示(Bidirectional encoder representation from transformers,BERT)的电网设备缺陷文本分类方法。基于BERT预训练语言模型对电网设备缺陷部位文本进行预训练生成具有上下文特征的词嵌入(Word embedding)向量作为模型输入,然后,利用双向长短时记忆(Bi-directional long short-term memory)网络对输入的电网设备缺陷文本向量进行双向编码提取表征缺陷文本的语义表征,并通过注意力机制增强电网设备缺陷文本中与缺陷部位相关的领域词汇的语义特征权重,进而得到有助于电网设备缺陷部位分类的语义特征向量。通过模型的归一化层实现电网设备缺陷部位文本分类。在主变压器、SF6真空断路器这两种设备缺陷文本数据集上实验结果表明,提出的方法比基于BiLSTM-Attention模型的F_1值分别提升了2.77%和2.95%。相似文献

8.

结构特征一致性约束的双语平行句对抽取

毛存礼高旭余正涛王振晗高盛祥满志博《重庆大学学报(自然科学版)》2021,44(1):46-56

平行句对抽取是解决低资源神经机器翻译平行语料不足的有效途径.基于孪生神经网络的平行句对抽取方法的核心是通过跨语言语义相似度判断2个句子是否平行,在相似的语言对上取得了非常显著的效果.然而针对英语东南亚语言双语句对抽取任务,面临语言空间和句子长度存在较大差异,仅考虑跨语言语义相似度而忽略句子长度特征会导致模型对仅有语义包含关系但不平行句对的误判.笔者提出一种结构特征一致性约束的双语平行句对抽取方法,该方法是对基于孪生神经网络的双语平行句对抽取模型的扩展,首先通过多语言BERT预训练语言模型在嵌入层将两种语言编码到同一语义空间,以此缩小语义空间中语言的差异.其次分别对两种语言句子的长度特征进行编码,与孪生网络编码后的句子语义向量进行融合,增强平行句对在语义及结构特征上的表示,降低模型对语义相似但不平行句对的误判.在英缅双语数据集上进行实验,结果表明提出的方法相比基线模型准确率提高了4.64％,召回率提高了2.52％,F1值提高了3.51％. 相似文献

9.

融合领域知识图谱的跨境民族文本分类方法

陈春吉毛存礼雷雄丽满志博陆杉张勇丙《山西大学学报(自然科学版)》2022,(4):884-893

跨境民族文本分类任务是跨境民族文化分析中的基础性工作,其目的是将跨境民族文化文本进行归类处理。针对跨境民族文化数据分类面临类别交叉的问题,提出融合领域知识图谱的跨境民族文本分类方法,利用跨境民族文化知识图谱对文本中的跨境民族实体进行语义扩展,通过实体在知识图谱中的类别特征来增强文本的类别语义特征。此外,通过掩码自注意力机制分别对文本的词级、句子级进行特征提取以此得到文本中句子的局部特征和全局特征。实验表明,本文方法在跨境民族文化数据集中相比基线模型的F1值提升了11.9%。相似文献

10.

中文专家实体主页识别方法研究

李丽娜余正涛王亚盛毛存礼郭剑毅《广西师范大学学报(自然科学版)》2011,29(1):157-161

专家实体主页识别是专家检索的一个重要的组成部分,本文提出了一种基于J48的机器学习算法来对中文专家实体主页进行分类识别.首先,人工收集中文专家实体及对应的专家主页面2 113个,针对中文专家实体特点,定义与链接和网页内容特征相关的专家实体特征,并对这些特征进行提取,形成训练数据集.然后,采用不同学习算法对在不同特征上的... 相似文献