首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 218 毫秒
1.
本文提出了一个基于法律事实的适用法条推荐模型.作为应用,本文选取了刑事诈骗罪和民事离婚纠纷两个案由的裁判文书数据集,使用FastText模型,并基于迁移学习方法从预训练的通用词向量出发训练法律词向量,再以此为基础进行文本分类.结果显示,经过迁移学习后,无论诈骗罪案件还是离婚纠纷案件均能做到对案情描述文本全面、准确地推荐适用法条,特别是具有针对性的法规、司法解释等.随着迁移学习模式的不断完善,本文研究的方法还应该可进一步用于证据推送、量刑预测等.  相似文献   

2.
为了强化案件语义信息以及法条间的联系,提升多法条自动推送效果,将法条司法解释加入到模型训练中,提出了一种基于XLCLS(XLNET-CNN Model Integrating Legal Interpretation and Similarity,融合法律解释和相似性的XLNET-CNN模型)模型的法条多标签分类方法。该方法首先利用数据增强对案件进行扩充预处理;引入XLNET模型提升案件的向量化表征能力,再加入法条司法解释加强案件语义信息;然后通过CNN模型获取特征信息,进而利用法条间相关性来解决罕见法条容易被忽略的问题,并结合sigmoid函数计算各法条概率;最后通过阈值的选取来实现法条多标签分类。实验结果表明,在公益诉讼案件数据上,该方法的F1,ma与F1,mi上分别达到了88.37%与89.92%,验证了所提方法的可行性与有效性。  相似文献   

3.
针对诉讼案件违法事实要素抽取效果依赖领域专业知识的特点,提出一种基于transformer双向编码器表示(bidirec-tional encoder representations from transformer,BERT)的诉讼案件违法事实要素自动抽取方法.首先,通过构建领域知识并采用谷歌BERT预训练语言模型进行训练得到拟合诉讼案件领域数据的模型参数和中文预训练字嵌入向量作为模型的输入,得到具有上下文相关的语义表示,以提高词嵌入的上下文语义质量.其次,采用循环卷积神经网络对文本进行编码并获取在文本分类任务中扮演关键角色的信息,提升案件违法事实要素抽取的效果.最后,采用focal函数作为损失函数关注难以区分的样本.违法事实要素抽取的工作是通过对文本标签进行分类得到的.实验测试表明,该方法对诉讼案件要素抽取的F1值为86.41%,相比其他方法性能均有提高.对模型注入领域内知识,也可以提高模型抽取准确率.  相似文献   

4.
针对文本立场检测中目标话题在微博文本中隐式出现以及文本语义隐含表达这2个核心问题,本文提出一种基于多类型知识增强与预训练语言模型相结合的立场检测新方法KE-BERT。该模型同时从知识图谱和百度百科中引入多类型的相关常识知识来弥补语义缺失,使用改进的预训练语言模型BERT作为编码器,然后通过卷积注意力机制对常识知识进行融合与聚焦,最后通过Softmax分类获得立场。该模型在NLPCC-2016语料库上实验的宏平均F1值达到0.803,分类性能超越现有主流模型,验证了模型的有效性。  相似文献   

5.
针对传统方法未能考虑词向量的动态性及句子间交互不充分等问题,提出基于BERT预训练模型及多视角循环神经网络的文本匹配模型。通过BERT-whitening方法对BERT输出的句向量进行线性变换优化,并利用多视角循环神经网络将两句子不同位置的BERT动态词向量进行双向交互计算;将句向量与词粒度交互向量进行融合后计算结果。实验结果表明,提出的模型相较于对比模型有明显性能提升,实用性良好。  相似文献   

6.
由于预训练模型输入分词数量限制,基于BERT的长文本分类任务效果与长文本分割后的文本段集合的处理及特征融合密切相关,现有的长文本分类研究在融合文本段特征时更关注文本段之间原始的顺序关系,而本文提出了一种基于BERT和集合神经网络的长文本分类模型.该方法以BERT为基础,可处理从同一文本样本分割得到的任意数量文本段,经过BERT后得到文本段特征,再将所有文本段特征输入到具有置换不变性的集合神经网络层中,提取出集合级别特征来优化长文本的特征表达.通过在三个数据上的实验分析,论文在平均分词长度较长的数据集上取得了90.82%的准确率,高出目前最优方法4.37%.  相似文献   

7.
近年来,网络中Web API的数量日益增多,如何面向Mashup应用推荐合适的高质量Web API已成为研究的热点问题,现有的方法忽略了Web API质量信息对推荐的影响从而制约了其性能.深度学习技术为进一步提高Web API推荐的准确性提供了新的解决方案,如何利用Web API质量信息并结合深度网络模型进行高精度推荐也成为关键问题.为此,提出了一种Web API质量感知的深度推荐模型.首先,使用BERT预训练模型作为文本编码器对Mashup和Web API的文本描述特征进行提取;然后,借助自注意力机制对Web API的质量信息进行融合,并利用所得的Web API质量增强特征进行推荐.基于真实数据集的实验结果表明,对比基线方法,该模型在Web API推荐任务的top-1准确率、召回率和归一化折损累积增益指标上分别提高了3.97%、3.45%和3.97%.  相似文献   

8.
为了快速处理航天情报,基于数据驱动的深度学习技术,提出融合多源异构知识标注中文航天情报数据集的方法流程,以及基于预训练(pre-training)模型的航天情报实体识别(AIER)方法;通过对航天情报进行命名实体识别,达到对航天情报进行信息抽取的目的.通过融合BERT(bidirectional encoder representation from transformers)预训练模型和条件随机场(CRF)模型构建AIER模型(BERT-CRF模型),将其与隐马尔可夫模型(HMM)、条件随机场(CRF)模型、双向长短期记忆网络加条件随机场(BiLSTM-CRF)模型进行实体识别对比实验.结果表明:基于预训练模型的AIER模型能够取得93.68%的准确率、97.56%的召回率和95.58%的F1值;相比于其他方法,基于预训练模型方法的性能得到提高.  相似文献   

9.
提出基于预训练语言模型的医疗命名实体审核算法.首先借助BERT预训练模型对短文本数据进行句子层面的特征向量表示;然后通过构建循环神经网络和迁移学习模型实现短文本分类;最后在参数相同的条件下,将获得的文本特征向量分别输入到循环神经网络和迁移学习模型中进行训练.实验结果表明,与迁移学习相比,基于BERT和循环神经网络模型的...  相似文献   

10.
以字为切分单位的BERT预训练模型在实体识别任务中表现优异,但其忽略粗粒度的领域词汇作为整体的语义表示信息,对于教育领域课程文本中存在大量嵌套实体的识别效果不佳。针对上述问题,提出动态融合字、词级别词向量的LEBERT-CRF教育领域课程文本实体识别方法,利用词典适配器将领域词典特征高效融入BERT模型中,以提升BERT模型对实体词边界的识别效果,更好地适应课程知识抽取任务。结果表明,LEBERT-CRF模型相较其他主流的实体识别模型表现更好,F1达到95.47%。  相似文献   

11.
图书的自动分类是图书管理和图书推荐算法中的基础工作,也是难点之一,而且目前针对中文分类算法主要集中在短文本领域中,鲜有对图书等长文本分类的研究.该文对深度学习分类算法进行了深入细致的研究,并对BERT预训练模型及其变体进行相应的改进.利用复杂层级网络叠加双向Transformer编码器来提取隐藏在文本中的细粒度信息.在...  相似文献   

12.
司法判决预测任务指的是根据真实的案情描述文本来预测案件的判决结果,有助于司法专业人士高效的工作,在智能司法方面具有广阔的应用前景。在实践中,易混淆罪名和少样本罪名的判别问题是目前的两大难点,普通模型很容易在上述问题上出现误判。为使易混淆罪名得到更好的区分,结合BERT(Bidirectional Encoder Representations from Transformer)和双向门控循环单元(Bidirectional Gated Recurrent Unit, BiGRU)深度学习网络,提出BGAAT(BERT BiGRU Attribute Self-Attention)网络模型。该模型引入具有区分性的罪名属性标签,通过注意力机制分别抽取属性特征与上下文特征,使用注意力分布对可解释性进行描述。为使少样本罪名更好的被识别,引入罪名分类权重,使模型在少样本罪名分类取得了更高的F1值。最后在真实的司法判决数据集上进行了实验,证明了所提出模型在该任务上有良好表现。  相似文献   

13.
知识图谱的表示学习方法将实体和关系嵌入到低维连续空间中,从而挖掘出实体间的隐含联系.传统的表示学习方法多基于知识图谱的结构化信息,没有充分利用实体的描述文本信息.目前基于文本的表示学习方法多将文本向量化,忽略了文本中实体间的语义关联.针对上述缺点提出一种利用实体描述文本进行增强学习的方法,基于文本挖掘出关联性实体并对关联性进行分级,将关联性作为辅助约束融合到知识图谱的表示学习中.实验结果表明,该辅助约束能明显提升推理效果,优于传统的结构化学习模型以及基于深度学习的文本和结构的联合表示模型.  相似文献   

14.
针对BERT模型领域适应能力较差,无法解决训练数据类别数量不均衡和分类难易不均衡等问题,提出一种基于WBBI模型的服务文本分类方法。首先通过TF-IDF算法提取领域语料中的词汇扩展BERT词表,提升了BERT模型的领域适应性;其次,通过建立的BERT-BiLSTM模型实现服务文本分类;最后,针对数据集的类别数量不均衡和分类难易不均衡问题,在传统焦点损失函数的基础上提出了一种可以根据样本不均衡性特点动态调整的变焦损失函数。为了验证WBBI模型的性能,在互联网获取的真实数据集上进行了大量对比试验,实验结果表明:WBBI模型与通用文本分类模型TextCNN、BiLSTM-attention、RCNN、Transformer相比Macro-F1值分别提高了4.29%、6.59%、5.3%和43%;与基于BERT的文本分类模型BERT-CNN、BERT-DPCNN相比,WBBI模型具有更快的收敛速度和更好的分类效果。  相似文献   

15.
针对危险化学品实体识别及关系识别的问题,本文基于双向长短期记忆网络连接条件随机场(Bidirectional Long Short-Term Memory with Conditional Random Field, BiLSTM-CRF)模型,通过引入双向编码器表示(Bidirectional Encoder Representation from Transformers, BERT)模型结合多头自注意力机制,提出了一种预训练命名实体模型BERT-BiLSTM-self-Attention-CRF,通过对危险化学品的文本进行字符级别编码,得到基于上下文信息的字向量,增强了模型挖掘文本全局和局部特征的能力。实验结果表明,在自行构建的数据集上,本文模型优于其他传统模型,其F1值为94.57%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号