首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 765 毫秒
1.
条件随机场能够很好地处理序列标注问题.引入条件随机场进行维吾尔语分词方法研究,主要包括制定词性和分词单独标注与一体化标注集并建成语料库;设计不同特征模板进行训练测试,反复比较实验结果,总结优化以获取最佳的特征模板.在设计特征模板时充分结合维吾尔语语言形态特征,采用了对称特征组合非对称特征的设计方法,并将获得的最佳分词模板应用到分步预测词性和分词实验中.相比单独分词标注,分词时加入词性特征列进行分词与词性一体化标注能展现更优的分词性能.  相似文献   

2.
针对藏语区别于英语和汉语,分析藏语的构形特征,得到词性标注集.从人工标注的语料中统计词和词性频率以及训练得到二元语法的HMM模型参数,运用Viterbi算法完成基于统计方法的词性标注.  相似文献   

3.
针对目前大多数非分类关系抽取方法忽略词性和部分局部特征的问题,提出融合词性信息和注意力机制的BiLSTM模型.利用预训练词向量和词性标注工具,将舆情信息语义词向量和词性词向量作为BiLSTM的输入来获取句子高维语义特征,解决长距离依赖问题.利用词语层注意力机制计算2个概念与上下文词语的相关性,获取句子的上下文语义信息....  相似文献   

4.
利用基于统计机器学习方法进行汉语语义角色标注(Semantic Role Labeling,SRL)存在人工抽取特征工作繁琐低效、模型难以捕捉长句上下文语义信息等问题.对此,提出BiLSTM-MaxPool-CRF融合模型进行汉语SRL,同时进行模型性能优化研究.首先,在训练语料中融入词性、论元标记、短语句法等多层级语言学特征;然后,结合AvgPool技术对特征组进行采样选取;最后,通过多组实验结果表明,相比于未采样提取的多特征组,经过池化技术采样提取的多特征能够显著提高模型的性能.  相似文献   

5.
近年来基于字的词位标注汉语分词方法极大地提高了分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,词位标注汉语分词逐渐成为汉语分词的主要技术路线.该方法中特征模板集设定和词位标注集的选择至关重要,采用不同的词位标注集,使用最大熵模型进一步研究了词位标注汉语分词技术.在国际汉语分词评测Bakeoff2005的语料上进行了封闭测试,并对比了不同词位标注集对分词性能的影响.实验表明所采用的六词位标注集配合相应的特征模板集TMPT-6较其他词位标注集分词性能要好.  相似文献   

6.
在汉语简单句改写的基础上,提出了基于模板的汉语复句的改写方法.通过对复句分类以及复句的语法结构分析,进而抽取复句的改写模板.在构筑以关联词为核心的复句语料库,对语料库进行分词、词性标注等处理的基础上,通过大量的相似度计算实验,确定了待改写句与其改写模板之间的阈值,进行的改写实验结果表明复句模板覆盖率为40.20%,改写正确率62.61%.  相似文献   

7.
针对微博数据特点,采用降噪算法和条件随机场模型对微博数据进行词性标注,并对其中比重较大的谐音词使用贝叶斯方法进行词性二次纠正.首先利用新浪平台API和爬虫获取原始微博数据,再根据噪音特点人工制定规则进行降噪.由于条件随机场在中文词性标注中特征提取的优势,使用条件随机场模型对降噪后的微博语料词性标注.在此基础上,利用微博语料中谐音词比重较大的特点,将微博词语转化为拼音,根据贝叶斯方法计算得到谐音词的原生词候选,再根据词语的上下文建立谐音词和原生词映射,并利用原生词的词性已知的性质,对谐音词进行词性纠错.实验结果表明,该方法可以较好地标注微博未登录词,词性标注准确率达到95.23%.  相似文献   

8.
为了提高词性标注模型训练语料的质量,设计了一种利用FP-Growth算法从训练语料库中自动获取词性标注规则的方法,并将该方法与基于Apriori算法的词性标注规则获取方法进行了对比实验.实验结果显示,对于0.1万、0.2万和1万词级的小规模语料库,2种方法获取的词性标注规则条数均相同,但基于FP-Growth算法的时间耗费分别仅为基于Apriori算法的0.013 866%,0.010 399%,0.003 132%;对于10万、100万词级的训练语料库,基于Apriori算法无法获取任何规则,但基于FP-Growth算法依然可以在合理时间内获取有效的规则.这说明,基于FP-Growth算法的词性标注规则获取方法是可行且高效的,满足在优化训练语料库时能从不同规模的语料库中自动获取词性标注规则的实际需求.  相似文献   

9.
刘星宇  宁慧  张汝波 《应用科技》2021,(1):25-30,35
针对如何使用适当的模型或结构使得词性标注结果准确率提升的问题,对隐马尔可夫模型和条件随机场模型进行了深入研究和实验,使用条件随机场的不同特征方程进行了多组实验,并对比了每组实验的准确率.实验结果表明,条件随机场对于解决英文词性标注问题有着更大的优势;将共性的特征与相对具体的后缀特征结合使用所达到的词性标注准确率最高.  相似文献   

10.
动词与动词搭配类型的自动标注方法   总被引:1,自引:0,他引:1  
自动句法分析是中信息处理的重要环节,而在自动句法分析中,词语搭配关系的分析是关键.动词是汉语中常见的一种词性,所以动词搭配关系的确定便显得尤为重要.本在统计了动词-动词搭配中各关系类型的分布特征以及搭配词语的位置分布特征的基础上,运用统计模型、搭配类型标注规则,识别语料中的动词-动词搭配类型.  相似文献   

11.
语义标注所用标签数目众多,训练数据更为稀疏,用HMM作语义标注面临参数估计不准的难题。不同于传统的解决数据稀疏方法,以《同义词词林》的层次式结构为依据,提出了利用语义层次的提升来改善HMM(hidden Markov model)中参数的估计质量;在算法实现中,采用选择受限策略来解决因语义提升而引起的模型辨别力下降问题。测试表明,在训练数据相对稀疏的情况下,适度调整模型的语义层次可大幅提高语义标注的精度,该方法表现出较好的可塑性。  相似文献   

12.
为了进一步提高中文语料库中语料的词性标注效率,在分析最大熵模型(MEM)和隐马尔科夫模型(HMM)所涉及理论、算法及其在中文词性标注技术中的应用的基础上,进行了基于MEM和HMM的中文词性标注实验.实验结果显示,基于MEM和HMM的中文词性标注算法都获得了一致性很好且覆盖率较高的标注效果,中文词性标注的准确率、召回率和F1这3个指标均达到92%以上;MEM的标注效果总体上比HMM的稍佳.  相似文献   

13.
在字面相同语义不同和字面不同语义相同的情况下,短文本匹配往往不能准确地得到语句间语义的相似程度。针对这一问题,提出一种融合语境语义差异特征的短文本匹配模型。该模型以BERT系列的语言模型作为基础匹配模型,采用一种新的Diff Transformer结构作为差异特征提取器,并以门控方式融合基础语义表示和差异特征表示来提升匹配效果。在中文测试数据集上的实验结果表明,所提出的模型可以达到先进模型的效果。  相似文献   

14.
为了进一步提高中文语料库中语料的词性标注效率,在分析最大熵模型(MEM)和隐马尔科夫模型(HMM)所涉及理论、算法及其在中文词性标注技术中的应用的基础上,进行了基于MEM和HMM的中文词性标注实验.实验结果显示,基于MEM和HMM的中文词性标注算法都获得了一致性很好且覆盖率较高的标注效果,中文词性标注的准确率、召回率和F1这3个指标均达到92%以上;MEM的标注效果总体上比HMM的稍佳.  相似文献   

15.
基于最大熵模型的交集型切分歧义消解   总被引:6,自引:0,他引:6  
利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过正向最大匹配(FMM)和逆向最大匹配(BMM)相结合的分词方法,发现训练文本中的交集型歧义字段并进行标注,用于最大熵模型的训练.实验用1998年1月<人民日报>中出现的交集型歧义字段进行训练和测试,封闭测试正确率98.64%,开放测试正确率95.01%,后者比常用的词概率法提高了3.76%.  相似文献   

16.
名词标注是语料库加工的重点和难点问题。兼顾形式和意义的句法语义一体化处理策略,是名词深加工的重要原则。把对大多数组合具有普遍解释力的语义特征构建成层级体系,并确立相应的形式识别标准,就可以将名词进行有效的分类与归类。我们对大量名词所做的组合特征标注实践证明,“特征即关系”,名词组合属性的细致标注,对揭示双名直接组合模式与搭配规则能够起到很好的作用。  相似文献   

17.
针对隐马尔可夫(HMM)词性标注模型状态输出独立同分布等与语言实际特性不够协调的假设,对隐马尔可夫模型进行改进,引入马尔可夫族模型。,该模型用条件独立性假设取代HMM模型的独立性假设。将马尔可夫族模型应用于词性标注,并结合句法分析进行词性标注。用改进的隐马尔可夫模型进行词性标注实验。实验结果表明:与条件独立性假设相比,独立性假设是过强假设,因而基于马尔可夫族模型的语言模型更符合语言等实际物理过程;在相同的测试条件下,马尔可夫族模型明显好于隐马尔可夫模型,词性标注准确率从94.642%提高到97.126%。  相似文献   

18.
以湘西椪柑为研究对象,提出了一种基于颜色与缺陷检测的椪柑自动分级算法.首先,对椪柑灰度图像进行阈值分割和孔洞填充得到二值图像;然后,将二值图像与椪柑彩色图像的R,G,B分量分别进行与运算,并将运算后的3幅单色图像进行合成,从而得到彩色图像的椪柑目标区域;接着,提取目标区域的黄色像素占比和缺陷面积作为色泽特征参数和缺陷特征参数;最后,利用决策树模型融合特征参数以进行椪柑分级判定.实验结果表明,对比基于单一特征的椪柑分级算法,新算法通过特征的互补提高了椪柑分级的准确率.  相似文献   

19.
为解决低光照条件下已有图像分割模型性能降低的问题,提出了一个基于RGB和深度图特征融合网络的MDF-ANet图像分割方法.为了对原始数据进行充分的特征学习,采用两路特征提取网络分别提取RGB和深度图特征;设计了一个特征融合模块,分别将两路特征提取网络对应尺度下的输出特征图通过融合模块进行融合,并作为RGB网络下一层的输入,通过不受光照条件影响的深度图来辅助RGB的特征提取;将各个尺度输出的特征图输入多尺度上采样融合模块,进行不同感受野间的信息互补,再上采样至原始输入图像大小,得到分割图像.在Cityscapes及其转化后的低光照图像上进行了一系列实验,在其验证集上取得了62.44%的均交并比(mean intersection over union,mIOU),相比只使用RGB输入的模型,性能提高了9.1%,达到了在低光照条件下提高图像分割性能的目的.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号