首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 531 毫秒
1.
为了扩大人工标注数据的规模, 从而提高模型性能, 尝试充分利用已有的异构人工标注数据训练模型参数。将Li等2015年提出的耦合序列标注方法扩展到基于BiLSTM的深度学习框架, 直接在两个异构训练数据上训练参数, 测试阶段则同时预测两个标签序列。在词性标注、分词词性联合标注两个任务上进行大量实验, 结果表明, 与多任务学习方法和传统耦合模型相比, 神经耦合模型在利用词法异构数据方面更优越,在异构数据转化和融合两个场景上都取得更高的性能。  相似文献   

2.
无约束手写体支票金额汉字串识别系统   总被引:4,自引:0,他引:4  
针对手写支票金额汉字串分割和识别都十分困难的特点 ,提出了一种基于隐 Markov模型的 ,分割与识别相结合的算法。该算法具有如下的突出优点 :在分割方面 ,将偏旁部首作为分割的基本单位 ,充分考虑无约束手写汉字分割的各种交叠和粘连情况 ,降低了金额汉字串分割的难度 ;在识别方面 ,通过对字符识别结果采用多选 ,利用动态规划算法来对整串字符进行识别 ,提高了汉字串的识别率。作为处理分割困难的汉字串的一种新思路 ,该方法对于其他手写字符识别问题也具有重要的借鉴意义。  相似文献   

3.
4.
为了进一步提高中文语料库中语料的词性标注效率,在分析最大熵模型(MEM)和隐马尔科夫模型(HMM)所涉及理论、算法及其在中文词性标注技术中的应用的基础上,进行了基于MEM和HMM的中文词性标注实验.实验结果显示,基于MEM和HMM的中文词性标注算法都获得了一致性很好且覆盖率较高的标注效果,中文词性标注的准确率、召回率和F1这3个指标均达到92%以上;MEM的标注效果总体上比HMM的稍佳.  相似文献   

5.
为了进一步提高中文语料库中语料的词性标注效率,在分析最大熵模型(MEM)和隐马尔科夫模型(HMM)所涉及理论、算法及其在中文词性标注技术中的应用的基础上,进行了基于MEM和HMM的中文词性标注实验.实验结果显示,基于MEM和HMM的中文词性标注算法都获得了一致性很好且覆盖率较高的标注效果,中文词性标注的准确率、召回率和F1这3个指标均达到92%以上;MEM的标注效果总体上比HMM的稍佳.  相似文献   

6.
提出了一种异构数据源的实体模式匹配算法.算法从中英双语的环境出发,利用基于中文wordnet的中英文词义相似度算法和中文分词工具,从列名距离、数据类型、数据内容的词性成份等角度来建立同类实体不同模式之间的映射关系.该算法可用于分析数据空间中不同数据源实体之间的关联,以及其他研究领域中的中英文语义信息相关性分析和实体模式匹配.  相似文献   

7.
词性标注是词法分析的基础.HMM是一个数学模型,具有算法成熟、效率高、易于训练的优点;负反馈是一个控制模型,在规则中引入负反馈,可以增强规则的客观性.本文探讨了两个模型,然后将它们应用于词性标注中.实验结果表明两者的结合是有效的和成功的.  相似文献   

8.
李琼 《皖西学院学报》2011,27(1):108-110
为了建设一个面向中文信息处理的大规模复句"精加工"语料库,首先要完成自动分词和词性标注工作,在此基础上进行分句层次和关系的自动划分和标注。由于标点符号是最直观而明晰的断句标记,我们编制的初始程序让计算机一"碰到"标点符号就把它前后的语言片段都判定为分句。这就为今后基于句法和语义知识的非分句识别奠定了良好的基础。  相似文献   

9.
近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列数据标注模型,基于字的词位标注汉语分词方法逐渐成为汉语分词的主要技术路线.针对一些领域文本中含有较多的英文词汇、缩写、数字等非汉字子串,提出了一种基于字和子串联合标注的汉语分词方法,该方法将子串看作和汉字等同的一个整体,采用四词位标注集,使用条件随机场模型深入研究了基于字和子串联合标注的汉语分词技术.在CIPS-SIGHAN2010汉语分词评测所提供的文学、计算机、医药、金融四个领域语料上进行了封闭测试,实验结果表明此方法比传统的字标注分词方法性能更好.  相似文献   

10.
提出了面向翻译研究的融合短语结构树和依存分析的短语依存树库(phrase dependency treebank,PDT)的构建思想,阐述了中英平行PDT的构建方法.PDT采用"扁平结构优先"的短语结构树和"基于语义"的依存句法功能标注原则,有别于传统依存分析的完全二分法.大连理工大学中英平行PDT(DUT-CEPDT)的生语料取自文本质量较高的政府工作报告和白皮书及其官方译文.首先,对文本进行分词和词性标注之后,利用专为语言学家开发的辅助工具LingTreeConstructor构建中文和英文的单语PDT;之后,在两个单语PDT之间从篇章到词的节点进行对齐,这种多层次的立体对齐比只有词、短语或句子的单层对齐能提供更丰富的翻译知识;最后,依据FrameNet进行双语平行的框架语义角色标注.DUTCEPDT将为译员培训和机器翻译研究提供所需的标准语料.  相似文献   

11.
近年来基于字的词位标注汉语分词方法极大地提高了分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,词位标注汉语分词逐渐成为汉语分词的主要技术路线.该方法中特征模板集设定和词位标注集的选择至关重要,采用不同的词位标注集,使用最大熵模型进一步研究了词位标注汉语分词技术.在国际汉语分词评测Bakeoff2005的语料上进行了封闭测试,并对比了不同词位标注集对分词性能的影响.实验表明所采用的六词位标注集配合相应的特征模板集TMPT-6较其他词位标注集分词性能要好.  相似文献   

12.
针对汉语自动分词后词条的特征信息缺失的问题,本文提出把整个分词过程分解为三个子过程,以词串为分词单位对文本进行分词:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的特征信息更丰富,改善了文本特征选择的效果,提高了文本分类性能。  相似文献   

13.
针对藏语区别于英语和汉语,分析藏语的构形特征,得到词性标注集.从人工标注的语料中统计词和词性频率以及训练得到二元语法的HMM模型参数,运用Viterbi算法完成基于统计方法的词性标注.  相似文献   

14.
针对汉语自动分词后词条的特征信息缺失的问题,提出以词串为分词单位的中文文本分词方法,将整个分词过程分解为三个子过程:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的语义信息更丰富,有助于文本特征选择效果的改善和文本分类性能的提高。  相似文献   

15.
近几年来,中文分词技术取得了可喜的进步,各种机器学习方法被应用到这一领域,而采用标注的方法进行分词也是应用得比较多的方法。本文尝试了一种不同以往的方法,不对字本身进行标注,而对字与字之间的切分点进行标注,并结合条件随机场模型,实现了一个分词系统并参加了第三届国际中文处理评测的分词比赛,取得了较好的结果。  相似文献   

16.
基于状态驻留时间的汉语语音分段概率模型   总被引:1,自引:0,他引:1  
为了解决分段概率模型 (SPM)因缺少对时间信息描述而带来的建模精度低的问题 ,提出了状态驻留分段概率模型 (SDSPM)。SDSPM中包含了用伽玛分布表示的状态驻留概率 ,以刻划语音的时间特征。此驻留概率相当于隐马尔可夫模型 (HMM)中的状态转移概率 ,但使 SDSPM描述语音时间特征的能力强于 HMM。SDSPM既改善了 SPM的模型性能 ,同时又避免了 HMM的计算复杂度问题。测试实验证明了 SDSPM模型在汉语语音识别中的有效性。  相似文献   

17.
文章以维吾尔文为对象,提出了一种汉维对齐的维文语料库获取方法,通过对照汉维特点,首先对维文进行词干切分,并在此基础上借助词干表和词频表进行词性标注,然后对汉维进行对齐,从而实现汉维双语语料库的获取,对维文及其他少数民族语言的分析及研究提供一种可行的方法.  相似文献   

18.
语音识别中隐马尔可夫模型状态数的研究   总被引:2,自引:0,他引:2  
该文从信息论的观点出发,对语音信号的隐马尔可夫模型(HMM)的状态数进行研究,建立了HMM的状态数研究的简化模型,指出HMM的信息熵是由语音信号的固有熵和附加熵组成。随状态数增加,信息熵趋向固有熵。最后,在综合考虑信息熵和运算量两方面因素情况下,得出了状态数宜在6 ̄8之间的结论。  相似文献   

19.
一个改进的汉语词性标注系统   总被引:5,自引:0,他引:5  
汉语词性标注的难点在于确定具有多个词类的词(兼类词)在上下文中的词性。基于兼类词在词典中仅占很小的比例(约为3%),提出了具有双重状态的隐马尔可夫模型,它不但有一个常规的状态转移概率矩阵,还在逻辑上为每个具有多个词类的词保留一个专有的状态转移概率矩阵,使模型从一个状态转移到另一个状态的概率不再和观察无关,提高了模型的精确性。  相似文献   

20.
全文检索是一种有效的信息检索技术,改进最大熵模型的应用研究在自然语言处理领域中受到关注。笔者利用语料库中词性标注和词频标注的上下文信息,建立基于互信息的最大熵方法的检索系统,研究的重点在于提出一种中文分词算法,并从实际问题出发,采用面向对象和模型驱动的设计方法,将该算法应用于实际的全文检索系统的设计中。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号