首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
针对藏语区别于英语和汉语,分析藏语的构形特征,得到词性标注集.从人工标注的语料中统计词和词性频率以及训练得到二元语法的HMM模型参数,运用Viterbi算法完成基于统计方法的词性标注.  相似文献   

2.
近些年来语料库语言学的发展较为迅速,语料库的建设成为一项重要的工作.在对语料加工的过程中,保证词性标注的一致性也成为建设高质量语料库的重要问题.目前国内外对汉语语料库词性标注结果的校对,还停留在人工校对上,对词性标注结果不一致现象尚未进行系统的研究.对于词性标注方法不是很成熟的维吾尔语语料库来说,词性校对方面的研究工作更少.首先概要介绍了一种维吾尔语的标注方法,并受一些文献的启发,根据维吾尔语的特点对其进行词性标注自动校对的研究,并分析其适用于维吾尔语词性校对的可行性,进而提高维吾尔语词性标注的正确率.  相似文献   

3.
为了提高词性标注模型训练语料的质量,设计了一种利用FP-Growth算法从训练语料库中自动获取词性标注规则的方法,并将该方法与基于Apriori算法的词性标注规则获取方法进行了对比实验.实验结果显示,对于0.1万、0.2万和1万词级的小规模语料库,2种方法获取的词性标注规则条数均相同,但基于FP-Growth算法的时间耗费分别仅为基于Apriori算法的0.013 866%,0.010 399%,0.003 132%;对于10万、100万词级的训练语料库,基于Apriori算法无法获取任何规则,但基于FP-Growth算法依然可以在合理时间内获取有效的规则.这说明,基于FP-Growth算法的词性标注规则获取方法是可行且高效的,满足在优化训练语料库时能从不同规模的语料库中自动获取词性标注规则的实际需求.  相似文献   

4.
描述了基于统计的蒙古文自动词性标注系统的功能和总体结构,并对系统的性能进行测试.以规模为95万词的语料库作为训练语料,对5万词的测试文本进行一级词性标注,结果表明封闭测试和开放测试的准确率分别达到96.96%和96.79%  相似文献   

5.
刘留 《科技信息》2010,(25):172-172,418
随着经济的发展和文化的交流,德语中引入了许多的英语外来词,这对德语语言本身产生了很大的影响。由于英语和德语的名词在词性方面具有差异,因此德语中引入一个名词性英语外来词时就会存在确定词性的问题。本文对德语中英语名词的词性问题进行了分析和概括,为汉语中外来词的发展规律和划分提供一个依据,也为汉语外来词的融入和应用提供借鉴。  相似文献   

6.
提出一种算法,用来高效地完成训练语料的大量工作,并解决好训练语料的扩充问题,然后基于Viterbi算法提出一些改进之策,结合训练语料工作完成后的结果在二元模型基础上,采用不同规模的训练语料对同一规模的测试语料进行测试、比较与分析,并提出模型的改进方向。  相似文献   

7.
利用多资源转化方法进行词性标注研究, 旨在将源端资源的标注进行转化, 以符合目标端标注规范, 进而将转化后的资源与目标资源合并, 增大训练数据规模。做了两方面创新: 在转化过程中, 额外利用指导特征的置信度信息; 在转化后的资源中, 用模糊标注表示方法减少错误标注。实验表明, 利用置信度信息能有效帮助转化, 而模糊标注表示方法的影响不大。  相似文献   

8.
为了进一步提高中文语料库中语料的词性标注效率,在分析最大熵模型(MEM)和隐马尔科夫模型(HMM)所涉及理论、算法及其在中文词性标注技术中的应用的基础上,进行了基于MEM和HMM的中文词性标注实验.实验结果显示,基于MEM和HMM的中文词性标注算法都获得了一致性很好且覆盖率较高的标注效果,中文词性标注的准确率、召回率和F1这3个指标均达到92%以上;MEM的标注效果总体上比HMM的稍佳.  相似文献   

9.
词性标注是词法分析的基础.HMM是一个数学模型,具有算法成熟、效率高、易于训练的优点;负反馈是一个控制模型,在规则中引入负反馈,可以增强规则的客观性.本文探讨了两个模型,然后将它们应用于词性标注中.实验结果表明两者的结合是有效的和成功的.  相似文献   

10.
王腾阳  赵小丹  胡林 《科学技术与工程》2023,23(27):11562-11569
马铃薯育种领域积累有大量尚未结构化处理的育种文献文本,人工整理文献内的种质资源数据费时费力。为了快速、准确地从育种文献中提取种植资源数据,使用基于词性标注规则和预设词的方法抽取文献数据。文献格式为PDF文档,对于不能直接获取文档文本的情况,使用游程平滑算法和光学字符识别(Optical Character Recognition, OCR)获取文本内容。采用用户可灵活建立的关键词库保存抽取项,通过正则表达式获取关键词所在语句,并利用自然语言处理工具对语句进行分词与词性标注,根据规则抽取目标词,同时采用基于关键词与预设词距离的信息抽取方法,实现将育种文献从自由文本转化为结构化数据。对115篇文献的1490个抽取项进行信息抽取,实验表明,该方法的准确率为82.97%,召回率为99.72%,F值为90.58%,能以较高的准确率和召回率对马铃薯育种文献种质资源进行抽取,可为构建马铃薯遗传育种数据库提供数据基础。  相似文献   

11.
以60名非英语专业学生的作文为样本,通过统计分析作文中出现的词汇错误,试图解决三个问题:(1)确认学生在写作中所犯词汇错误类型及比例;(2)分析主要错误来源;(3)评估词汇错误的严重程度。结果表明,学生的词汇错误主要集中在词义混淆和词汇搭配。因此,笔者建议在教学中尝试利用语料库以及词汇法教学等手段,提高学生在写作中英语词汇运用的准确性与流利性。  相似文献   

12.
社会媒体共享网站允许用户上传图片的同时,也鼓励用户对上传图片内容加以标注.不过要对网站中所有图片进行内容标注,将是一项非常费时的任务;而如对同一类型图片统一进行标注则会大大降低内容标注的准确性.因此,文中提出了一个内容标注的新方法.首先,采用仿射传播聚类算法,从同一类型图片中获取一组具有代表性的图像;然后,利用图像内容的视觉信息和语义信息,对能够表示代表性图像内容标签的相关值进行估计,并依据随机游走算法改进标签的相关值;最后,通过半监督学习方法自动为同一类型的其它图片分配标签.基于Flickr图片集的实验结果表明所提方案的有效性.  相似文献   

13.
提出一种基于规则的无监督词性标注方法, 利用200多条英语语法规则, 创建26个规则函数, 先将输入的待标注英语句子进行预处理后得到初始标记, 再对每个单词调用规则函数, 最终得到标注后的英语句子. 通过对Brown语料库的实验, 词性标注的正确率达到9395%. 实验结果表明, 本文方法可行、 有效, 能很好地提高英语词性标注的准确率.  相似文献   

14.
介绍基于词汇坐标的语料库文本处理模型,并对英语文本词汇坐标思想进行详细阐述.对语料库文本进行词汇坐标化处理从本质上讲就是从字母串到数字串的映射实现过程.基于词汇坐标的文本处理模型改变了传统的语料库检索模式,从一定程度上适应了当前超大型语料库建设的需要.  相似文献   

15.
翁小云 《龙岩学院学报》2012,30(4):36-38,49
用语料库语言学的研究方法探讨中西菜名的差异,分析中式菜名与西式菜名各自语言特征:中式菜名偏爱四字结构、喜用浮华词藻修饰,以及常用比喻、夸张、引用等修辞格;而西式菜名则主要为写实型,追求简约易懂、重在表现菜肴用料、做法与风格。了解中西菜名各自的语言特征对菜谱翻译具有重要启示。  相似文献   

16.
回顾二语习得领域关于词块的研究以及语料库用于教材词汇评析的发展状况;以语料库语言学的词汇语法作为理论支撑,在英语专业教材《综合教程》中找出与Coxhead学术词汇相吻合的动词,尝试以大型英语本族语者语料库COCA为参照,把这些动词的深度知识,如搭配词(Collocates)、类联接(Colligation)、语义趋向(Semantic preference)、语义韵(Semantic prosody)与它们在教材中的呈现样貌进行对比分析;以动词sustain作为具体的例子,把该词在整套教材中的呈现样貌与其在COCA中所呈现的深度知识进行比较分析,期待能为语料库手段应用于英语专业教材分析提供一个新的切入点。  相似文献   

17.
周琴 《科技信息》2007,(12):158-159
本文试图通过对比分析英国著名小说《呼啸山庄》的两个中文译本来说明,语篇中的衔接手段不管是在理解原文或是在构建译文的过程中都起着非常重要的作用。在语篇翻译的过程中,对词汇衔接进行识别与重构,不仅能够更好的理解原文,而且能够产生与原文在意义上、功能上对等的译文。  相似文献   

18.
本文详细分析了科技德语研究与现代语言学发展的相互关系,归纳了科技德语的六大特点。并概述了科技德语今后研究面临的主要任务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号