首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
提出一种基于条件随机域模型的方法用于中文文本组块分析. 该方法将中文组块分析转化为对每个词语赋予一个组块标注符号, 再根据条件随机域对标注好的训练语料建立模型, 从而预测测试语料中每个词语的组块标注符号. 使用北京大学中文树库的测试结果为F1=85.5%, 高于隐马尔可夫模型和最大熵马尔可夫模型. 实验结果表明, 条件随机域在中文组块识别方面有效, 并避免了严格的独立性假设和数据归纳偏 置问题.  相似文献   

2.
组块分析是浅层句法分析的典型任务,但目前的研究大多集中于组块边界识别和组块句法功能研究,缺少对组块内部关系的分析。采用基于规则的多结构融合方法进行块内关系分析,即将规则集与有限状态自动机、树结构、网格结构以及搭配知识进行有效融合,分析结果以三元组的形式表示。以宾州中文树库中gold standard数据集的共计2 005句作为测试集进行了实验,最终F1值达到了85.82%。所提方法加深了句法分析的深度,推动了传统组块分析向完全句法分析的发展。  相似文献   

3.
针对句法分析中细粒度和粗粒度组块识别模型的冲突问题, 为解决句法分析中词语搭配规则多、减少搭配优先级变动的影响, 提出一种结合条件随机场(CRF)和多元规则的层次化句法分析模型. 先利用CRF算法识别细粒度语句的组块标记序列, 然后结合统计和多元规则识别粗粒度组块, 在识别出的组块中层层引入不同优先级的二元、三元规则. 该模型实现了同时进行细粒度和粗粒度组块的识别, 可更好地服务于句法分析. 在Chinese TreeBank8.0(CTB8.0)语料上采用5-折交叉验证, 结果表明, 相比于仅使用二元、 三元规则及使用CRF+二元规则的句法分析, 该模型的正确率分别约提高12%,3%,5%, 验证了该模型有效性和稳定性.  相似文献   

4.
针对句法分析中细粒度和粗粒度组块识别模型的冲突问题, 为解决句法分析中词语搭配规则多、减少搭配优先级变动的影响, 提出一种结合条件随机场(CRF)和多元规则的层次化句法分析模型. 先利用CRF算法识别细粒度语句的组块标记序列, 然后结合统计和多元规则识别粗粒度组块, 在识别出的组块中层层引入不同优先级的二元、三元规则. 该模型实现了同时进行细粒度和粗粒度组块的识别, 可更好地服务于句法分析. 在Chinese TreeBank8.0(CTB8.0)语料上采用5-折交叉验证, 结果表明, 相比于仅使用二元、 三元规则及使用CRF+二元规则的句法分析, 该模型的正确率分别约提高12%,3%,5%, 验证了该模型有效性和稳定性.  相似文献   

5.
为了快速处理航天情报,基于数据驱动的深度学习技术,提出融合多源异构知识标注中文航天情报数据集的方法流程,以及基于预训练(pre-training)模型的航天情报实体识别(AIER)方法;通过对航天情报进行命名实体识别,达到对航天情报进行信息抽取的目的.通过融合BERT(bidirectional encoder representation from transformers)预训练模型和条件随机场(CRF)模型构建AIER模型(BERT-CRF模型),将其与隐马尔可夫模型(HMM)、条件随机场(CRF)模型、双向长短期记忆网络加条件随机场(BiLSTM-CRF)模型进行实体识别对比实验.结果表明:基于预训练模型的AIER模型能够取得93.68%的准确率、97.56%的召回率和95.58%的F1值;相比于其他方法,基于预训练模型方法的性能得到提高.  相似文献   

6.
提出了一种基于支持向量机(SVM)和条件随机场(CRF)的双层模型进行中文机构名识别的方法.第一层模型采用CRF识别简单机构名,并将识别结果传至第二层辅助下一步的识别;第二层采用基于驱动的方法,将SVM和CRF结合进行复杂机构名的识别;最后将两层的识别结果合并,并通过一个后续处理对置信度较低的识别结果进行修正.大规模真实语料的开放测试表明,精确率达到94.83%,召回率达到95.02%,证明了该方法的有效性.  相似文献   

7.
阐述了基于统计的SVM(支持向量机)模型的汉语句子组块识别. SVM模型使用已进行组块标注的语料,通过多种特征参数选择和多分类划分,对数据进行统计学习得到训练模型后实现. 给出模型的算法和识别结果,分析了统计模型的特点.  相似文献   

8.
中文时间信息的TIMEX2自动标注   总被引:5,自引:0,他引:5  
为了完善中文时间信息标注规范,实现中文时间短语的自动标注,该文研究并修改国际通用的时间短语标注规范TIMEX2的中文标注草案,以此为基础开发一个基于正则表达式的中文TIMEX2自动标注系统(CTAT).该系统采用3层候选确定参考时间,并行使用多个模块识别输入句子中的时间短语,通过排序冲突消解确定最终结果.经测试,该系统识别时间短语和将时间信息值解析为标准格式的F-measure分别达到了90.15%和83.27%, 与其他语言同类系统性能相当.应用该系统标注的语料,为时间信息处理方面的后续研究提供了重要资源.  相似文献   

9.
统计分词模型需要使用合适的标注集合来将中文句子的分词问题转化成序列标注问题,因此,标注集合的选择是统计分词模型中需要解决的一个重要的问题。文章分别借助单因子方差分析、置信区间和p值三种方法来比较常用的几种标注集合对中文分词模型性能差异的显著程度。首先根据单因子方差分析方法得出标注集合对于中文分词模型性能的影响是显著的;其次,使用置信区间和p值来选择最优的标注集合。实验结果表明:在常用的标注集合中,标注集合BB2B3MSE可以明显地提升中文分词模型的性能。  相似文献   

10.
提出了基于条件随机场(conditional random fields,CRF)的网页动态关系抽取算法.给出了动态关系的定义,建立了动态关系的表示模型,并用一个六维结构来表达动态关系.与传统关系抽取中基于规则或者基于分类的解决方法不同,本文认为可以将动态关系识别问题转化为一个标注问题,并提出了基于CRF的句子层面的关系标注和抽取方法.在本算法中,首先将一个句子通过语义角色标注(semantic role labeling,SRL)系统进行成分识别,然后将语义角色标注结果以及词的POS类型、词组的命名实体类型等作为CRF的训练特征,对句子成分进行标注.最后测试了大量的真实新闻网页,实验结果表明了本文提出算法的实用性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号