首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 104 毫秒
1.
近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列数据标注模型,基于字的词位标注汉语分词方法逐渐成为汉语分词的主要技术路线.针对一些领域文本中含有较多的英文词汇、缩写、数字等非汉字子串,提出了一种基于字和子串联合标注的汉语分词方法,该方法将子串看作和汉字等同的一个整体,采用四词位标注集,使用条件随机场模型深入研究了基于字和子串联合标注的汉语分词技术.在CIPS-SIGHAN2010汉语分词评测所提供的文学、计算机、医药、金融四个领域语料上进行了封闭测试,实验结果表明此方法比传统的字标注分词方法性能更好.  相似文献   

2.
近几年来,中文分词技术取得了可喜的进步,各种机器学习方法被应用到这一领域,而采用标注的方法进行分词也是应用得比较多的方法。本文尝试了一种不同以往的方法,不对字本身进行标注,而对字与字之间的切分点进行标注,并结合条件随机场模型,实现了一个分词系统并参加了第三届国际中文处理评测的分词比赛,取得了较好的结果。  相似文献   

3.
在充分研究维吾尔语言形态特征的基础上,制定相应的分词规则并手工标注原始语料,建成原始语料库;针对传统机器学习分词方法过度依赖背景知识和特征选取的问题,提出了一种基于长短期记忆(LSTM)神经网络改进的双向长短时记忆条件随机场(BI-LSTM-CRF)网络模型来进行维吾尔语分词,其能够有效地使用过去和未来的输入特征.利用该分词模型与基于传统机器学习方法的条件随机场(CRF)模型对比,实验结果表明,使用BI-LSTM-CRF模型分词性能有明显提高,且具有良好的泛化能力.  相似文献   

4.
条件随机场能够很好地处理序列标注问题.引入条件随机场进行维吾尔语分词方法研究,主要包括制定词性和分词单独标注与一体化标注集并建成语料库;设计不同特征模板进行训练测试,反复比较实验结果,总结优化以获取最佳的特征模板.在设计特征模板时充分结合维吾尔语语言形态特征,采用了对称特征组合非对称特征的设计方法,并将获得的最佳分词模板应用到分步预测词性和分词实验中.相比单独分词标注,分词时加入词性特征列进行分词与词性一体化标注能展现更优的分词性能.  相似文献   

5.
针对深度学习模型进行建筑物提取时存在的建筑物边缘模糊问题,将级联CRFs(全连接条件随机场)引入到U-Net深度模型中,提出了一种改进的U-Net模型(U-Net+级联CRFs),以用于遥感影像建筑物自动提取:构建级联CRFs并将其引入到U-Net模型的解码层中,从多层结构中学习边界信息,增强模型对建筑物边界的分割能力...  相似文献   

6.
命名实体识别是自然语言处理和信息提取的基本任务,传统专家命名实体识别方法存在过度依赖人工特征标注和分词效果、专家简介中大量专业新词无法识别等问题.本文提出一种基于多特征双向门控神经网络结构并结合条件随机场模型进行领域专家实体抽取方法.该方法首先通过构建领域专家语料库以训练实体抽取模型;接着,使用Bert方法进行字嵌入表示,对语料库专业领域词汇构造要素进行特征分析并提取边界特征;然后,利用双向门控神经网络和注意力机制有效获取特定词语长距离依赖关系;最后,结合条件随机场模型实现命名实体识别.在同一数据集上进行5种方法实验比较分析,结果表明该模型较BiLSTM-CRF和IDCNN-CRF方法F1值提高9.98%以上.  相似文献   

7.
中文分词是信息检索工作的一项先决任务。随着大数据时代的到来,信息检索工作对于中文分词准确率和召回率的要求也不断提高。该文提出了一种针对中文短文本的分词方法。该方法首先利用机器学习中的条件随机场模型对待处理的中文短文本进行初步分词,然后再利用传统词典分词方法对初步分词结果进行修正,从而完成分词工作。针对中文短文本的特点,该方法在条件随机场的标记选择和特征模板编写上做了相应优化。测试结果表明,该方法改善了传统的基于词典的分词法因为未登录词和交叠歧义而产生的准确率和召回率下降的问题,并在Sighan bakeoff 2005的四个语料测试集中均取得了0.95以上的FScore。实验证明:该方法适合应用于信息检索领域的中文短文本分词工作。  相似文献   

8.
藏文分词是实现藏文语音合成和藏文语音识别的关键技术之一。提出一种基于双向长短时记忆网络加条件随机场(bidirectional long-short-term memory with conditional random field model, BiLSTM_CRF)模型的藏文分词方法。对手工分词的语料经过词向量训练后输入到双向长短时记忆网络(bidirectional long-short-term memory, BiLSTM)中,将前向长短时记忆网络(long-short-term memory, LSTM)和后向LSTM学习到的过去输入特征和未来输入特征相加,传入到线性层和softmax层进行非线性操作得到粗预测信息,再利用条件随机场(conditional random field, CRF)模型进行约束性修正,得到一个利用词向量和CRF模型优化的藏文分词模型。实验结果表明,基于BiLSTM_CRF模型的藏文分词方法可取得较好的分词效果,分词准确率可达94.33%,召回率为93.89%,F值为94.11%。  相似文献   

9.
针对领域本体构建中概念上下位关系获取难的问题,提出融合句子结构特征的概念上下位语义关系抽取方法。首先利用层叠条件随机场(cascaded conditional random fields, CCRFs)算法建模实现概念上下位实体识别,然后通过对句子结构特征分析得出融合概念上下位关系的句子结构特征,最后利用融入句法特征基于支持向量机(support vector machine,SVM)建模的方法实现概念上下位关系抽取。为验证提出方法的有效性,以旅游领域上下位实体关系抽取为例进行了相关实验。实验结果表明:基于CCRFs模型的识别效果相对于现有的单层模型有较大改进, 其F值提高了6.57%;加入句法特征基于SVM概念上下位关系抽取方法较现有的基于条件随机场(conditional random fields,CRFs)概念上下位关系抽取方法更有效,其F值提高了4.68%。  相似文献   

10.
以已经分词并进行了词性标注和介词短语标注的《人民日报》为实验语料,选取其中出现频次高于20次的61个介词为实验对象,采用支持向量机、最大熵和条件随机场这3种统计模型,对介词短语边界识别进行了研究.实验结果表明在3种模型中,采用条件随机场模型效果最好,微平均准确率达到了95.68%.  相似文献   

11.
在分析最小相位群延迟函数特点的基础上,提出了一种改进的汉语连续语音自动切分算法,该算法利用短时能量和类音节平均统计时长构造的最小相位群延迟函数为切分依据,将连续语音切分成一系列类音节单元.实验结果表明,本算法具有96.4%的切分正确率,比原算法提高5.2%.  相似文献   

12.
为解决手写汉字文本的自动切分问题,提出了一种基于动态规划的联机手写汉字分割方法.该方法根据手写笔画的结构特征、笔顺信息以及神经网络分类器给出的类概率构造代价函数,并将其分别应用于手写句子的预分割和基于识别的分割过程,然后利用动态规划算法寻找最佳分割路径.预分割在保持较低误分割率的前提下,可以有效地降低候选分割块的数量,以加速分割过程.实验结果表明,预分割的误分割率为0.57%,过分割率仅为11.1%;在未应用语言模型的情况下,最终的正确分割率为88.2%.  相似文献   

13.
为了预测震后关键救灾设施的运行状态,为抢险救灾提供决策参考,研究了关键救灾设施中断特征的量化推演问题;在地震灾害演化机理建模的基础上,采用图解评审技术(Graph Evaluation and Review Technique,GERT),构建了震后关键救灾设施中断的演化模型;提出了求解GERT随机网络的数值计算方法。通过逐步加入最新信息,修正GERT随机网络的活动情景和活动参数,优化推演结果;以汶川地震都江堰灾区为例,推演了区域内医疗设施功能中断的演变过程,预测了医疗设施功能中断的概率、持续时间及其方差范围;决策者可根据推演结果采取有针对性的应对措施,也可根据设施中断参数,进一步优化应急物流网络规划决策。  相似文献   

14.
针对汉语并列关系的标注方式, 提出一种基于条件随机场模型的并列关系自动识别方法。从语料库中自动抽取并列关系的角色信息, 进行角色标注, 在条件随机场模型的基础上实现并列关系的识别。与基于图的依存分析方法比较, 并列关系的召回率和正确率分别提高了9.1%和13.8%。  相似文献   

15.
基于识别的粘连手写数字串切分系统   总被引:3,自引:0,他引:3  
为解决手写数字串中的粘连问题,提出了一种基于识别的粘连手写数字串切分系统。该系统通过外轮廓分析和投影分析,找出相应的候选切分线。利用候选切分线对数字串过切分,过切分后的每个子图像定义为一个片段,相邻的一个或多个片段的组合定义为一个集团。数字串的每个候选切分结果由一个或多个集团组成。对所有的候选切分结果建立一个概率模型,并使用单个数字识别器对所有集团进行识别。根据最大后验概率准则,选出最优的切分结果。在搜索最优切分结果时,使用剪枝算法,降低了算法的时间和空间复杂度,从而满足实时处理要求。利用从NISTSD19中收集到的样本进行实验,正确切分率高达97.72%。  相似文献   

16.
针对烧结矿生产时无法直接得到粒度大小和分布,人工检测的准确性和即时性不高等问题,提 出了一种基于图像增强和霍夫变换的烧结矿粒度识别方法。 该方法首先使用形态学开操作、图像像素点分 割、拉普拉斯图像锐化算子等方法进行图像增强,然后应用高斯滤波和图像边缘检测算法,最后用霍夫圆检 测算法进行烧结矿粒度检测,实时处理获取的图像,并检测出烧结矿的粒度大小和分布。 该方法可以快速检 测出图像中的烧结矿,其中图像像素点分割方法是根据烧结矿和背景的像素值设置分段函数进行分割,大幅 度减少图像中的噪声,提升了烧结矿和背景的对比度以及亮度,并且检测的准确性和即时性高,克服了人工 检测的弊端,准确率可达到 98%以上。 通过实验表明:该方法对提高烧结矿的生产效率、改善资源的利用、 降低人员成本具有积极作用。  相似文献   

17.
为解决传统的基因识别算法主要关注编码区的整体特性,而并不着重考虑个别位点的信息,因此难以准确地识别出剪接位点的缺点,提出了基于条件随机场的剪接位点预测方法,条件随机场能够更好的处理标记数据之间的依赖关系,并且能够避免数据标记偏置的问题。实验结果表明基于条件随机场的剪接位点预测方法是一种合适的方法,能够取得更好的效果。  相似文献   

18.
在医学图像分割领域中,肺实质的分割对肺结节检测有着至关重要的作用,在考虑到模型参数量的情况下 追求更高的精度一直是研究热点之一;为此提出了新的三层密集卷积神经网络 DA-UNet,首先用密集卷积模块代 替在传统 U-Net 使用的普通 3×3 卷积,利用密集卷积特征重用特点,加强了网络的特征提取能力。 再者在没有太 过影响分割网络精确度的前提下加以修剪,减少了上下采样次数,减少不必要的算力消耗。 此外,使用了注意力门 (Attention gate),加强了跳跃连接中高底层信息融合效果,并且使用空洞空间金字塔池化( Atrous spatial pyramid pooling),模型加入了不同尺度的特征信息,进一步加强图像中任务相关的区域特征,有效减小噪声干扰,提高网络 分割精度。 通过实验证明:三次上下采样改进模型的参数量只有传统四次上下采样的 75. 2%左右,但是分割效果 没有太大的影响,用 LUNA 竞赛肺部影像数据集进行了分割验证,实验结果在测试集上的准确率达到了 0. 991,而 IoU 则为 0. 961,比起传统 U-Net 的评价指标 IoU 提升了 2. 9%;在泛化实验的肝脏图像中,DA-UNet 的 IoU 稳定在 0. 929 左右,而 U-Net 稳定在 0. 838 左右。 这些结果证明了改进的 U-Net 有更佳的分割效果。  相似文献   

19.
提出一种基于语境相似度的中文分词一致性检验方法。首先利用词法和句法层面的特征, 设计基于构词、词性和依存句法的分类规则, 再使用预训练词向量, 对不一致字串所在语境的语义信息进行编码, 通过语境间的语义相似度对不一致字串进行分类。在人工构建的36万字分词语料库中进行分词一致性检验, 结果表明该方法能够有效地提高中文分词一致性检验的准确率。进一步地, 使用3 种主流中文分词模型在修正一致性后的分词语料中重新训练和测试, 结果表明该方法可以有效地提高分词语料库的质量, 3种中文分词模型的F1值分别提高1.18%, 1.25%和1.04%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号