首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
为了提高实体关系联合抽取的效果, 提出一种端到端的联合抽取模型(HSL)。HSL模型采取一种新的标记方案, 将实体和关系的联合抽取转化成序列标注问题, 同时采用分层的序列标注方式来解决三元组重叠问题。实验证明, HSL模型能有效地解决三元组重叠问题, 在军事语料数据集上F1值达到80.84%, 在公开的WebNLG数据集上F1值达到86.4%, 均超过目前主流的三元组抽取模型, 提升了三元组抽取的效果。  相似文献   

2.
描述了基于统计的蒙古文自动词性标注系统的功能和总体结构,并对系统的性能进行测试.以规模为95万词的语料库作为训练语料,对5万词的测试文本进行一级词性标注,结果表明封闭测试和开放测试的准确率分别达到96.96%和96.79%  相似文献   

3.
互联网开源渠道蕴含大量国防科技信息资源,是获取高价值军事情报的重要数据来源。国防科技领域开放信息抽取(open information extraction, OpenIE)旨在从海量信息资源中进行主谓宾-宾补(SAO-C)结构元组抽取,其对于国防科技领域本体归纳、知识图谱构建等具有重要意义。然而,相比其他领域的信息抽取,国防科技领域开放信息抽取面临元组重叠嵌套、实体跨度长且难识别、领域标注数据缺乏等问题。本文提出一种国防科技领域两阶段开放信息抽取方法,首先利用基于预训练语言模型的序列标注算法抽取谓语,然后引入多头注意力机制来学习预测要素边界。结合领域专家知识,利用基于实体边界的标注策略构建了国防科技领域标注数据集,并在该数据集上进行了实验,结果显示该方法的F1值在两阶段上比长短期记忆结合条件随机场(LSTM+CRF)方法分别提高了3.92%和16.67百分点。  相似文献   

4.
古汉语文本信息处理和语义理解一直是自然语言处理领域的重难点之一,而断句又是语义理解中的基础任务。传统的机器学习方法解决古汉语断句问题需要基于大量的专业标注语料,过程繁琐,效果不佳。本文基于已有的BERT模型,在《四库全书》中文繁体版全文数据集的基础上构建了SikuBERT预训练模型,并将该模型迁移到《方志物产》数据中,完成了在不同数据集上的古汉语自动断句实验,实验最优F值为77.23%,比基础的BERT模型断句效果高出10.3个百分点。实验结果表明,SikuBERT模型具有较好的古汉语断句效果,且在有一定关联性数据集合中的迁移性较好。  相似文献   

5.
藏文句子边界识别作为藏文信息处理研究领域中的一项重要工作,在词法分析、句法分析、语义分析和机器翻译等领域都具有广泛的应用.在分析藏语句子的概念、分类和边界特征的基础上,提出一种基于混合策略的藏文句子边界识别方法.经实验模型在测试数据集上的F值达99.25%.  相似文献   

6.
近年来基于字的词位标注汉语分词方法极大地提高了分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,词位标注汉语分词逐渐成为汉语分词的主要技术路线.该方法中特征模板集设定和词位标注集的选择至关重要,采用不同的词位标注集,使用最大熵模型进一步研究了词位标注汉语分词技术.在国际汉语分词评测Bakeoff2005的语料上进行了封闭测试,并对比了不同词位标注集对分词性能的影响.实验表明所采用的六词位标注集配合相应的特征模板集TMPT-6较其他词位标注集分词性能要好.  相似文献   

7.
汉语基本块标注系统的内部关系分析   总被引:1,自引:0,他引:1  
针对目前基本块分析主要侧重外部边界和句法标记识别的处理缺陷,提出了一种可以同时获得基本块的外部句法标记和内部关系描述的汉语基本块分析方法。首先通过设计关系标记集来描述基本块内部词与词之间的句法依存关系,然后利用统计建模对句子中的每个词进行序列关系标注,最后通过有限自动机规则自动获取句子的完整基本块标注结果。实验结果表明,与使用经典的边界标记(IOB)模型进行基本块句法标注分析的方法相比,该方法在句法标记识别性能略有下降的情况下获得了很好的内部关系分析结果。  相似文献   

8.
为了准确地从中文文本中识别出复杂体育赛事命名实体,提出了一种基于双层条件随机场模型的命名实体识别方法.该方法首先在低层条件随机场模型中识别出简单体育赛事命名实体,然后在高层条件随机场模型中识别出嵌套了简单体育赛事命名实体的复杂命名实体如赛事名、参赛球队名和比赛场馆名.在对大规模真实语料进行的开放测试中,赛事名、参赛球队名和比赛场馆名识别的F值分别达到97.09%,97.81%和98.03%.  相似文献   

9.
统计与规则相结合的藏文句子自动断句方法   总被引:1,自引:0,他引:1  
 藏文句子断句是藏文信息处理领域的难点之一,也是藏汉机器翻译、藏文文本分类等工作的一项重要基础性研究.提出了一种统计与规则相结合的藏文句子自动断句方法以解决藏文标点符号功能的歧义问题,实验结果表明该方法具有比较好的效果,F1值达到98%以上.在规则中首先使用经验的方法,识别出不确定的藏文句子作为候选句子,然后采用基于关联词的复句分析方法进行分句合并形成二次候选句子;最后使用最大熵的方法对二次候选句子进行断句.经验方法和复句分析有效解决了最大熵算法无法触及的语料稀疏和分句问题.  相似文献   

10.
针对中文分词序列标注模型很难获取句子的长距离语义依赖,导致输入特征使用不充分、边界样本少导致数据不平衡的问题,提出了一种基于机器阅读理解模型的中文分词方法。将序列标注任务转换成机器阅读理解任务,通过构建问题信息、文本内容和词组答案的三元组,以有效利用句子中的输入特征;将三元组信息通过Transformer的双向编码器(BERT)进行预训练捕获上下文信息,结合二进制分类器预测词组答案;通过改进原有的交叉熵损失函数缓解数据不平衡问题。在Bakeoff2005语料库的4个公共数据集PKU、MSRA、CITYU和AS上的实验结果表明:所提方法的F1分别为96.64%、97.8%、97.02%和96.02%,与其他主流的神经网络序列标注模型进行对比,分别提高了0.13%、0.37%、0.4%和0.08%。  相似文献   

11.
传统网络资源行为检测方法无法准确确定资源行为的符号观测,导致检测效果较差,整体检测严重受 限。为此,提出一种新的基于隐马尔科夫模型的公共资源滥用行为检测方法。构建隐马尔科夫模型,通过数据 分析,确定当前观测符号序列,利用Windows 操作系统信息为蓝本进行行为检测。建立敏感文件信息集,并使 其分布在系统敏感文件夹中。在此基础上确定当前隐马尔科夫模型参数。计算对应序列概率差值,根据当前 公共资源网络信息安全要求,设定实际阈值,确定资源滥用行为。仿真实验结果表明,该监测方法真实有效, 具有较高的推广和应用价值。  相似文献   

12.
13.
多文档自动摘要研究是自然语言处理领域的关键问题之一,为使抽取的摘要更能体现多文档主题,本文在子主题划分的基础上,提出了一种融合句义特征的句子优化选择方法.该方法基于句义结构模型,提取句义结构中的话题、谓词等特征,并融合统计特征构造特征向量计算句子权重,最后采用综合加权选取法和最大边缘相关相结合的方法抽取摘要.选取不同主题的文本集进行实验和评价,在摘要压缩比为15%情况下,系统摘要平均准确率达到66.7%,平均召回率达到65.5%.实验结果表明句义特征的引入可以有效提升多文档摘要的效果.   相似文献   

14.
大罐上水过程中的沉降变形具有规律性.利用灰色系统理论,把离散的沉降观测数据按某种序列(或某一约束条件)排列,考虑到大罐充水过程变形形式,分别建立了基于线性和非线性关系下的一阶连续灰微分沉降模型;同时选择上水水位高和上水时间序列作为模型变量分别进行解算,显示了软基础下的大罐,上水速度与罐体沉降变化基本呈线性的特点,就此推导了以连续时间变量序列来拟合与预测大罐上水过程的沉降变形模型.所提出的解算方法,可以方便大罐沉降变形的过程和规律分析,对指导同类上水试验工作具有一定意义.  相似文献   

15.
事件抽取是自然语言处理领域的重要研究方向。传统的事件类型抽取系统采用分类方式,无法解决跨句子的事件角色和事件类型匹配问题。为了解决该问题,提出一种基于序列标注的事件联合抽取模型,结合卷积神经网络(convolutional neural networks, CNN)与长短期记忆网络(long short-term memory, LSTM)提取全局特征和局部特征;并在浅层LSTM层共享参数实现联合抽取,以序列标注方式抽取事件论元并匹配事件类型。实验结果表明,模型能有效提取司法领域的文档事件信息。  相似文献   

16.
利用简单的编码理论提出一种在离散事件系统的故障诊断中快速找到诊断路径的方法.该方法通过状态编码,降低了在离散事件系统诊断同步过程中的时间复杂度,消减了诊断路径冗余.能够在给定的观测集合上快速提取诊断路径,更适合实际观测事件较少的系统.在模型完备假设下,除首次根据观测集合进行诊断需要指数级时间外,后续观测诊断时间降低到多项式级.实验验证了方法的有效性.  相似文献   

17.
针对传统用户意图识别主要使用基于模板匹配或人工特征集合方法导致成本高、扩展性低的问题,提出了一种基于BERT词向量和BiGRU-Attention的混合神经网络意图识别模型。首先使用BERT预训练的词向量作为输入,通过BiGRU对问句进行特征提取,再引入Attention机制提取对句子含义有重要影响力的词的信息以及分配相应的权重,获得融合了词级权重的句子向量,并输入到softmax分类器,实现意图分类。爬取语料实验结果表明,BERT-BiGRU-Attention方法性能均优于传统的模板匹配、SVM和目前效果较好的CNN-LSTM深度学习组合模型。提出的新方法能有效提升意图识别模型的性能,提高在线健康信息服务质量、为在线健康社区问答系统提供技术支撑。  相似文献   

18.
基于BP网络的汉语文本词类标注方法   总被引:1,自引:0,他引:1  
提出了利用BP网络解决汉语本词类标注,这种网络具有充分利用上下词类信息的处理能力。章以人工标注过的问子作训练集和测试集,分别给出了样本为3、5和7个词的测试结果,结果表明:经过训练收敛后的网络对测试集的词类标注正确率大于90%,排歧率大于87%,优于基于统计的词类标注结果。  相似文献   

19.
基于主题词权重和句子特征的自动文摘   总被引:1,自引:1,他引:0  
为获得高质量的自动文摘,在组合词识别算法的基础上,充分考虑词的频率、词性、词的位置、词长等因素,构建了一个词语权重计算公式,该公式能使表达主题的词和短语具有较高的权重.对句子权重的计算,则考虑了句子的内容、位置以及线索词的作用和用户偏好等.摘要的生成充分考虑了候选文摘句的相似性,避免了冗余信息的加入.对摘要的评估进行了从句子粒度到词语粒度的改进,提出了一种基于词语粒度的准确率和召回率计算方法.实验证明,该算法生成的自动文摘有着较高的质量,平均准确率达到77.1%.  相似文献   

20.
教师行动研究是提高教师专业水平的有效方法,行动研究是一种正在形成的研究范式,它的理论基础是构建主义认识论,即人对世界的认识源于经验。教师行动研究在英语教研应用的意义在于改变英语教学研究仍拘泥于字、词、句等语言单位和语言技巧的局面,使英语教学研究进入到教学情景之中。常用的方法有观察法、档案法和反思日志等,其步骤是提出问题、分析问题和解决问题。教师可依据个人教学实际和欲探索的问题,创造性地运用具体的研究方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号