期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

赵冠博张勇丙毛存礼高盛祥王奉孝《南京大学学报(自然科学版)》2023,(4):620-628

从跨境民族文化文本中生成具有领域知识的摘要对进一步开展跨境民族文化文本检索、问答等任务具有重要的支撑作用，当前基于深度学习的生成式文本摘要取得了较好的效果，但直接用于跨境民族文化文本摘要任务会导致生成的摘要出现领域词汇丢失的问题.为此，提出一种融入领域知识的跨境民族文化生成式摘要方法（Domain Knowledge-Culture-Generative Summary,DKCGS），在编码端将跨境民族文化领域词典编码与原文本编码融合，以此增强模型对领域词汇的表征能力；在解码端，基于指针生成网络将具有同义或跨境关系的领域词汇分布与原文本分布结合，提高模型生成文化领域词汇的准确率.同时，在通用领域文本上进行预训练并进一步初始化参数，以缓解数据稀缺导致模型训练效果不佳的问题.实验结果表明，提出的方法在跨境民族文本摘要数据集上比基线模型的Rouge-1提升了0.95，有效提升了跨境民族文化文本摘要生成的质量. 相似文献

2.

多特征融合的越南语关键词生成方法

陈瑞清高盛祥余正涛张迎晨张磊杨舰《云南大学学报(自然科学版)》2022,(1):23-33

越南语属于低资源语种,高质量关键词新闻数据稀缺,为了解决样本不足条件下生成越南语新闻关键词准确性不高的问题,提出了一种多特征融合的越南语关键词生成模型,拟提升生成的越南语关键词与越南语新闻文档的相关性.首先,将越南语新闻实体、词性、词汇位置特征与词向量拼接,使输入模型的词向量包含更多维度的语义信息;其次,利用双向注意力... 相似文献

3.

基于多维度注意力机制和复数Conformer的单通道语音增强方法

高盛祥莫尚斌余正涛董凌王文君《重庆邮电大学学报(自然科学版)》2024,(2):393-403

为提高被噪声干扰的语音的可理解性和语音质量,针对用于语音增强的深度复数网络对语音复数谱中关键声学特征提取不充分、关联信息建模不合理的问题,提出了基于多维度注意力机制和复数Conformer的单通道语音增强方法(SE-MDACC)。在复数U-Net架构下引入复数Conformer,对语音幅度和相位的相关性进行建模;利用多维度注意力机制,构造更加丰富的特征来增强卷积层的表示能力;在残差连接中加入注意力门控机制强化重构语音的细节信息。实验结果显示,相比于深度复数卷积递归网络,SE-MDACC的客观评价指标语音质量感知评估和短时客观可懂度分别提升15.299％、1.462％,表明SE-MDACC可充分提取语音声学特征并对幅度和相位相关性进行合理建模,有效提升语音质量和可理解性。相似文献

4.

基于随机游走策略的专家关系网络构建

高盛祥余正涛秦雨程韵如庙介璞《山东大学学报(理学版)》2016,51(7):30-34

专家关系组织是专家关系网络构建的核心。提出了一种基于随机游走策略的专家关系网络构建方法,该方法首先提取专家实体及关系,获得专家之间朋友关系、指导关系及同事关系的简单无向图,利用图中专家节点连接关系,构建专家关系矩阵,然后借助随机游走策略思想,将若干表征专家关系的简单无向图进行有机组合,从而构建出复杂专家关系网络。实验结果验证了该方法的有效性。相似文献

5.

融合关键词概率映射的汉越低资源跨语言摘要

李笑萌张亚飞郭军军高盛祥余正涛《厦门大学学报(自然科学版)》2022,(4):630-637

在低资源汉越跨语言摘要任务中，由于标注的汉越对齐数据稀缺，较难实现跨语言语义对齐.鉴于此，提出一种融合关键词概率映射的低资源跨语言摘要方法，首先利用源语言关键词实现关键信息的提取，然后基于概率映射对将源语言关键词映射到目标语言，最后基于指针网络将映射的目标语言关键词融入到摘要生成过程中.在构建的汉越跨语言摘要数据集上的实验结果表明，相比于直接的端到端的方法，融入关键词概率映射信息可以有效地提升低资源跨语言摘要的质量. 相似文献

6.

基于BERT与法条知识驱动的法条推荐方法

唐光远郭军军余正涛张亚飞高盛祥《山东大学学报(理学版)》2021,56(11):24-30

针对传统法条推荐方法知识利用不足的问题,结合预训练BERT模型,提出了一种基于司法领域法律条文知识驱动的法条推荐方法。首先基于BERT预训练模型对法条知识和案件描述分别进行表征,并基于双向LSTM对案件描述文本进行特征提取,然后基于注意力机制提取融合法条知识的案件描述文本特征,最终实现法条智能推荐。该方法在法研杯公共数据集上,法条推荐F₁值达到0.88,结果表明,融合法条知识的BERT模型对法条推荐具有显著提升作用,并且可以有效地解决易混淆法条推荐问题。相似文献

7.

类型感知的汉越跨语言事件检测方法

张磊高盛祥余正涛刘畅陈瑞清《重庆邮电大学学报(自然科学版)》2022,34(5):803-811

针对汉越跨语言事件检测缺少平行语料,越南语标注困难,需要统一跨语言语义空间,且触发词存在较大的歧义和局限性等问题,提出基于事件类型感知的汉越跨语言事件检测方法。构造类型感知的注意力机制突显事件特征,融入汉越的词位置、词性和命名实体信息,并通过梯度反转（gradient reversal layer,GRL）,实现有标注汉语和无标注越南语之间的对抗训练,将从大量汉语新闻文本中学到的语言无关的事件类型特征融入到联合特征提取器中,进行汉越跨语言的无触发词事件检测,缓解越南语的数据稀缺和触发词的局限性。实验中提出的方法较最好的基线模型在准确率上提升了4.32%。相似文献

8.

结构特征一致性约束的双语平行句对抽取

毛存礼高旭余正涛王振晗高盛祥满志博《重庆大学学报(自然科学版)》2021,44(1):46-56

平行句对抽取是解决低资源神经机器翻译平行语料不足的有效途径.基于孪生神经网络的平行句对抽取方法的核心是通过跨语言语义相似度判断2个句子是否平行,在相似的语言对上取得了非常显著的效果.然而针对英语东南亚语言双语句对抽取任务,面临语言空间和句子长度存在较大差异,仅考虑跨语言语义相似度而忽略句子长度特征会导致模型对仅有语义包含关系但不平行句对的误判.笔者提出一种结构特征一致性约束的双语平行句对抽取方法,该方法是对基于孪生神经网络的双语平行句对抽取模型的扩展,首先通过多语言BERT预训练语言模型在嵌入层将两种语言编码到同一语义空间,以此缩小语义空间中语言的差异.其次分别对两种语言句子的长度特征进行编码,与孪生网络编码后的句子语义向量进行融合,增强平行句对在语义及结构特征上的表示,降低模型对语义相似但不平行句对的误判.在英缅双语数据集上进行实验,结果表明提出的方法相比基线模型准确率提高了4.64％,召回率提高了2.52％,F1值提高了3.51％. 相似文献

9.

基于有指导LDA用户兴趣模型的微博主题挖掘

王立人余正涛王炎冰高盛祥李贤慧《山东大学学报(理学版)》2015,50(9):36-41

用户发布的微博内容能够体现用户兴趣,微博中用户的转发、评论、回复、他人评论等微博行为对用户兴趣具有很强的指导作用。为了有效利用用户微博行为,提出了一种基于有指导LDA(latent dirichlet allocation)的微博内容用户兴趣建模方法。首先通过分析对微博的转发、评论、回复、他人评论这4个因素对用户微博兴趣主题的影响,定义了4种约束关系;然后基于用户微博内容,将4种约束关系融合到LDA 模型中构建有指导的LDA微博主题生成模型,最后得到用户的微博主题分布,从而获得用户兴趣模型。实验结果表明,相比LDA模型,该方法的准确率有很大提高,引入4种信息对微博用户兴趣发现有非常重要的指导作用。相似文献

10.

基于词映射构建伪查询改善低资源跨语言信息检索研究

李岩郭军军余正涛高盛祥《山西大学学报(自然科学版)》2022,(2):322-331

拟基于词映射实现跨语言沟通,缓解缺乏查询-文档语料及语言差异给检索带来的影响,提出一种基于双语交互注意力机制的伪查询句融合方法,通过词映射构造伪查询句,并基于双语交互注意力机制获取跨语言特征表示来实现跨语言信息检索(Cross-language information retrieval,CLIR)。主要包括以下三个部分:首先基于词映射分别构造伪查询句;其次,基于共享Transformer获取查询、伪查询及文档的上下文表示,同时借助查询与伪查询之间的双语交互注意力机制获得查询的跨语言特征表示;最后利用双语交互排序获得查询和文档的匹配分数实现跨语言信息检索。基于英菲、英斯两种低资源CLIR公共数据集和本文构建的汉越数据集的实验结果表明,本文方法相比跨语言检索基线方法,MAP指标分别提升了1.5%和5.4%。相似文献