首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
王腾阳  赵小丹  胡林 《科学技术与工程》2023,23(27):11562-11569
马铃薯育种领域积累有大量尚未结构化处理的育种文献文本,人工整理文献内的种质资源数据费时费力。为了快速、准确地从育种文献中提取种植资源数据,使用基于词性标注规则和预设词的方法抽取文献数据。文献格式为PDF文档,对于不能直接获取文档文本的情况,使用游程平滑算法和光学字符识别(Optical Character Recognition, OCR)获取文本内容。采用用户可灵活建立的关键词库保存抽取项,通过正则表达式获取关键词所在语句,并利用自然语言处理工具对语句进行分词与词性标注,根据规则抽取目标词,同时采用基于关键词与预设词距离的信息抽取方法,实现将育种文献从自由文本转化为结构化数据。对115篇文献的1490个抽取项进行信息抽取,实验表明,该方法的准确率为82.97%,召回率为99.72%,F值为90.58%,能以较高的准确率和召回率对马铃薯育种文献种质资源进行抽取,可为构建马铃薯遗传育种数据库提供数据基础。  相似文献   

2.
提出了结合主动学习和自动标注的评价对象抽取方法。具体实现过程中,首先,利用少量的已标注样本训练分类器,对非标注样本进行测试,获取自动标注结果及其置信度:其次,通过置信度计算每个样本的整体置信度,挑选出低置信度即不确定性高的样本待标注:最后,对待标注样本中置信度低的词语进行人工标注,而置信度高的部分则采用自动标注结果。实验表明,该方法可以在确保抽取性能的同时有效地减小人工标注语料的开销。  相似文献   

3.
[目的]研究无监督词性标注模型在低资源语言上的性能表现.[方法]尝试利用无监督词性标注模型,包括高斯隐马尔科夫模型(Gaussian HMM,GHMM)、最大化互信息模型(mutual information maximization, MIM)与条件随机场自编码器(conditional random filed autoencoder, CRF-AE),展开低资源词性标注实验.基于对前人工作的凝练,在英文宾州树库上设置了少样本和词典标注两种低资源场景.[结果]无监督词性标注模型能够在少样本场景中超越条件随机场模型,但在词典标注场景中却始终逊色于条件随机场模型.[结论]无监督损失更加擅长对高频词进行建模,使得模型在少样本场景下获得更好的性能表现;同时无监督损失倾向于生成更加均匀的词性分布,从而降低模型在词典标注场景下的性能.  相似文献   

4.
为了扩大人工标注数据的规模, 从而提高模型性能, 尝试充分利用已有的异构人工标注数据训练模型参数。将Li等2015年提出的耦合序列标注方法扩展到基于BiLSTM的深度学习框架, 直接在两个异构训练数据上训练参数, 测试阶段则同时预测两个标签序列。在词性标注、分词词性联合标注两个任务上进行大量实验, 结果表明, 与多任务学习方法和传统耦合模型相比, 神经耦合模型在利用词法异构数据方面更优越,在异构数据转化和融合两个场景上都取得更高的性能。  相似文献   

5.
提出一个基于本体的语义检索方法,利用领域本体知识对各类资源进行语义标注.把用户查询转化为形式化的SPARQL检索描述,再把执行查询后的结果扩展到相关的标注资源.  相似文献   

6.
针对藏语区别于英语和汉语,分析藏语的构形特征,得到词性标注集.从人工标注的语料中统计词和词性频率以及训练得到二元语法的HMM模型参数,运用Viterbi算法完成基于统计方法的词性标注.  相似文献   

7.
针对词性标中单独使用概率方法或规则方法的缺陷,将概率方法和规则方法有机结结合起来,并引入了部分句法分析除分歧义和标注歧义,利用机器学习得到的规则对输出结果进行修正,实现了一个自学习结合部分句法分析的汉语词性标注系统。  相似文献   

8.
提出一种基于规则的无监督词性标注方法, 利用200多条英语语法规则, 创建26个规则函数, 先将输入的待标注英语句子进行预处理后得到初始标记, 再对每个单词调用规则函数, 最终得到标注后的英语句子. 通过对Brown语料库的实验, 词性标注的正确率达到9395%. 实验结果表明, 本文方法可行、 有效, 能很好地提高英语词性标注的准确率.  相似文献   

9.
借鉴并利用基于短语的因子化机器翻译方法,结合基于隐马尔科夫模型的词性标注系统实现了蒙古文的自动词性标注.首先使用基于短语的因子化机器翻译方法对词表词进行标注,然后用基于隐马尔科夫模型的词性标注方法对生词进行标注.实验结果表明,采取的蒙古文词性标注方法的准确率达到97.91%.最后,将该方法标注的词性融入到蒙汉统计机器翻译系统后,译文质量有了较大提高,进一步证明该方法的有效性和实用性.  相似文献   

10.
建立了一种德语语料词性标注方法以及基于词性标注的统计方法.初步实验证明了上述方法对德语语料标注和标注后的语料进行单词、词类、短语结构和句子的统计是正确和有效的.  相似文献   

11.
提出了基于两步策略的3种多类多标签英文文本分类方法:①以贝叶斯为分类器,以抽取词根的单词和未抽词根的单词分别作为第一、第二步使用特征的两步方法;②以贝叶斯和决策树分别为第一、第二步使用分类器的两步方法;③以ID 3、C 4.5和贝叶斯的组合分类器对部分特定类别进行分类,然后对余下类别采用方法②进行二次分类的混合两步方法。实验表明,3种方法中方法③具有最好的性能。  相似文献   

12.
规范的重音标注将对重音研究和语音合成技术产生积极影响。该文通过对大规模语料进行语流中词重音和句重音标注,总结出了重音标注的规则。重音标注包括标注训练、正式标注、语料库建立3个步骤。通过标注训练明确重音概念和标注方法,词重音采取词内对比法,所谓"重"主要指突显度和饱满度;句重音采取呼吸句群单位标注法,注重标注的层级性,不跨句群进行重音知觉对比。重音标注完成后,重音语料库也随之建立起来。这个大规模的重音语料库具备词重音和句重音信息,适用于语音合成领域,能较好地提高合成语音的自然度。  相似文献   

13.
基于代表的邻域覆盖粗糙集分类算法,在某些数据集上表现良好,数据的类别不平衡问题严重影响算法的分类精度.为尽量消除类别不平衡问题的影响,在k折交叉验证方法的基础上,针对基于代表的邻域覆盖粗糙集分类算法,提出了3种集成策略.策略1依靠k折交叉验证,获得对应的k个基分类器,所有的基分类器组成委员会对未分类样本分类;在策略1的基础上,策略2选择分类精度相对较高的基分类器组成委员会,对未分类的样本进行分类;策略3在前2种策略的基础上,利用主动学习的思想,对训练集进行扩充,得到新的分类器再对未分类样本分类.实验所用数据集为UCI标准数据集,且对k的取值做了对比实验.结果显示,3种策略均有不同程度的提升,且k取5时总能取得较好的提升效果.对于不同数据集,应选择相适应的改进策略.  相似文献   

14.
Boundary recognition is an important research of natural language processing, and it provides a basis for the application of Chinese word segmentation, chunk analysis, named entity recognition, etc. Based on ambiguity in boundary recognition of Chinese punctuation marks, this paper proposes grammar testing methods for boundary recognition of slight-pause marks and then calculates the annotation consistency of these methods. The statistical results show that grammar testing methods can greatly improve the annotation consistency of slight-pause marks boundary recognition. The consistency during the second time is 0.030 3 higher than during the first, which will help guarantee the consistency of large-scale corpus annotation and improve the quality of corpus annotation.  相似文献   

15.
肺结节的精确分割能有效地辅助医生的治疗诊断工作,但由于不同患者所呈现的肺结节病灶形式多种多样,基于传统专家系统和统计学习的方法难以获得准确的肺结节分割结果。针对这种情况,提出一种由全局注意力引导的注意力机制,达到了从一张完整的胸部影像切片中自动定位并分割出肺结节的效果。该方法首先对目标区域进行肺实质分割,再利用区域建议网络(region proposal network,RPN)进一步缩小感兴趣区域,并生成注意力权重图,最后使用融合了残差网络(residual network,ResNet)与卷积长短期记忆网络(convolutional long short-term memory,ConvLSTM)的结构结合注意力权重进行肺结节分割。将所提方法在肺图像数据库联盟(lung image database consortium,LIDC-IDRI)数据集上进行了全面的评估,结果表明,本文方法分割结果的平均dice得分(标准差)为89.97%(8.9%),具有出色的分割性能,精度相较其他方法取得一定提升。进一步在相同数据集上将所提方法的肺结节分割结果与4位放射科医生的手工标注结果进行了比较,结果表明本文方法的分割结果与医生们的标注结果的一致性达到了85.81%,相较于医生们手工标注之间的一致性高出了3.39%。  相似文献   

16.
中文篇章零元素语料库构建   总被引:1,自引:0,他引:1  
针对中文零指代问题, 从篇章视角进行理论分析, 并完成中文篇章零元素语料库(Chinese Discourse Zero Corpus, CDZC)的构建工作。首先, 整理和分析已有的理论研究以及语料资源, 探究篇章层面中文零元素语料库标注的必要性。然后, 采用自底向上、前向搜索的标注策略和人机结合的半自动标注方式, 完成CDZC语料库的构建。最后, 对该语料库进行一系列详细的统计分析。结果表明, CDZC能够充分反映出中文零元素省略的语言特点, 为相关研究提供语料资源支持。  相似文献   

17.
基于特征模型的预测函数控制   总被引:2,自引:0,他引:2  
传统的预测函数控制通常采用一阶的预测模型,该预测模型不能完全表征被控对象,因此使得传统的预测函数控制的鲁棒性受到一定限制.特征模型是一种比动力学模型简单,但能表征被控对象特征的模型.该文针对预测函数控制算法的缺陷,提出利用二阶特征模型来构成预测模型.通过工程建模获取了被控对象的特征模型,实现了基于特征模型的新型预测函数控制,并通过与采用一阶预测模型的预测函数控制进行比较.理论分析与实验结果均表明,采用特征模型的预测函数控制具有比一阶预测模型更好的控制效果,该算法在SUPCON-JX300X集散控制系统上实现.  相似文献   

18.
为响应最多事务请求和满足定时限制的要求,提出了一种按需广播的实时事务广播调度策略.该实时调度策略分为两个阶段,第一阶段根据截止期、数据项的请求个数计算每一个用户请求的优先权,从中选择最高优先权值的事务请求;第二阶段确定广播数据项的顺序.实验结果表明,在减少截止错失率和算法调度有效率方面,它比现有的SIN和EDF-T有明显的优越性.  相似文献   

19.
提出了MIMO系统中基于EM(Expectation Maximization)-SD(Sphere Decoding)相结合的信道估计和检测的联合处理算法。在采用EM-SD算法进行联合处理时,首先通过观测数据、训练序列及以前估计的符号对信道信息进行更新,随后把更新后的信道信息及观测数据重新送入SD算法中进行最小距离搜索,从而可以估计发送符号。仿真显示:这种联合估计及检测算法的性能属于次优算法,但是其复杂度会随着搜索而下降。在比较少的迭代次数下,可以获得理想的信道估计和检测结果。  相似文献   

20.
中文新闻信息分类的类别数量大,难以一次性获取均衡的分类性能。针对这一问题,提出了一种基于差错网络的文本分类反馈校正方法。首先对文本进行一次分类,^根据分类结果生成有向差错网络,得到标注类别与真实类别的候选映射规则。然后计算差错网络的类别关联度参数,再对候选映射规则进行筛选,得到标注类别与真实类别的映射规则。最后根据映射规则进行二次分类,实现分类反馈校正。实验表明,差错网络清晰地反映了类 别的相关度。通过映射关系进行反馈校正,比普通文本分类的F值提高了6.2%。在NLP&CC2014评测中,基于差错网络的方法平均正确率达到73% ,证明了该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号