首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
为了满足汉语(二语)教学中语言点教学与研究的需求,以汉语(二语)教学中语言点的标注问题为研究对象,探讨了在汉语语料库中语言点标注的内容、维度、方法,制订了语言点的标注框架,在近15万句的经典汉语(二语)教材语料中对108个核心语言点进行了试标注,在此基础上检验并修订了语言点的标注框架,获得了102288个句次的包含语言点语义、句法、语用信息的标注语料。  相似文献   

2.
针对利用远程监督标注文本实体过程中存在实体类别标注错误问题导致模型难以有效区分各实体的类别特征,影响模型精准度的问题,本文提出一种利用原型网络过滤训练语料中标注错误样本的远程监督命名实体识别方法,利用预训练的原型网络编码正确标注实体生成类别原型表示,过滤语料中距类别原型较远的样本.实验表明,使用原型网络有效地提高了语料的标注质量,提升了模型性能.  相似文献   

3.
句法标注多选现象的持续性是否意味着中介语语法系统的损伤是近年来二语习得研究的热点之一.该文针对中国英语专业大学生对英语题元动词的过去时态标注情况展开研究,文中语料取自《中国学生英语口笔语语料库》,在最简方案的理论框架下,研究中国学生在口笔语中对英语题元动词一般过去时态的标注情况,验证中国学生英语中介语语法系统是否损伤.结果表明:中国学生的中介语语法系统没有受损,能够习得英语中的时态特征.  相似文献   

4.
BFS-CTC汉语句义结构标注语料库构建方法   总被引:4,自引:3,他引:4  
根据现代汉语语义学,构建了一种层次化的句义结构模型.基于该模型构建了汉语句义结构标注语料库(Beijing forest studio-Chinese tagged corpus,BFS-CTC).利用自行开发的标注和管理工具,对模型中各个句义成分及其组合关系进行快速标注,降低培训工作量和标注成本.BFS-CTC涵盖了6种句式类型,约1万句,提供了符合现有规范的词法和句法标注信息与自定义规范的句义结构标注信息,便于词法、句法和句义的对照分析研究,以及语料的综合使用和横向分析.此外,BFS-CTC还具有较强的可扩展性,可在核心标注库基础上扩展生成其它扩展库和标注资源.  相似文献   

5.
提出了面向翻译研究的融合短语结构树和依存分析的短语依存树库(phrase dependency treebank,PDT)的构建思想,阐述了中英平行PDT的构建方法.PDT采用"扁平结构优先"的短语结构树和"基于语义"的依存句法功能标注原则,有别于传统依存分析的完全二分法.大连理工大学中英平行PDT(DUT-CEPDT)的生语料取自文本质量较高的政府工作报告和白皮书及其官方译文.首先,对文本进行分词和词性标注之后,利用专为语言学家开发的辅助工具LingTreeConstructor构建中文和英文的单语PDT;之后,在两个单语PDT之间从篇章到词的节点进行对齐,这种多层次的立体对齐比只有词、短语或句子的单层对齐能提供更丰富的翻译知识;最后,依据FrameNet进行双语平行的框架语义角色标注.DUTCEPDT将为译员培训和机器翻译研究提供所需的标准语料.  相似文献   

6.
框架网络工程是一个基于语料库的、经验性的、以框架为基础的计算机词典编撰项目。框架网络的基本单元是被称作框架的概念结构,它由三大部分组成,即框架库、词元库和例句库,而例句库又是其中的重要部分。针对构建例句库和词元库给出了一种基于汉语框架网络例句库的辅助标注系统的设计与实现的方法,介绍了配价模式的提取以及框架元素的句法实现模式的提取,并对框架元素、短语类型和句法功能分别进行了展示。  相似文献   

7.
由于传统语料标注方法耗时耗力,已经难以适应大数据语料的处理,该文提出了大数据语音语料库的社会标注策略。引入了针对语音数据标注的六元组模型,将语音资源的自身特征考虑进去,并将标签对象扩展为更为广义的标记。提出基于"兴趣+收获+报酬"的标注模式,并建立标注质量的3层检验机制。通过工程实现和应用,验证了本文方法在标注效率、质量和成本等方面都具有明显优势。同时,该标注策略可以推广到其他语料的标注,特别是对主观性较强的翻译语料和评价型语料的标注。  相似文献   

8.
文本情绪分类是自然语言处理研究中的一项基本任务.目前,已有的文本情绪分类研究大都在单语语料上进行,存在已标注样本不足、分类文本较短、信息量少等问题.为了解决上述问题,提出了一种基于双语信息和神经网络模型的情绪分类方法.首先,利用机器翻译工具对源语料进行翻译得到翻译语料;其次,将对应语言的语料进行合并,得到两组不同语言的语料;最后,将文本分别使用源语言和翻译语言进行特征表示,建立双通道长短期记忆(long short-term memory,LSTM)网络模型融合两组特征,并构建情绪分类器.实验结果表明该方法能够稳定提升文本情绪分类的性能.  相似文献   

9.
根据篇章分析的任务和实践, 结合传统研究, 提出汉语的基本篇章单位为子句, 并从结构、功能、形式等方面给出其定义。分析了逗号与子句的关系, 并在标注语料上进行了基于逗号的汉语子句识别研究。首先手工标注了CTB6.0中前100篇文档的逗号是否为子句边界的信息, 在标注结果中抽取句法、词汇、长度等特征进行实验, 子句识别准确率为90%。然后利用信息增益选出贡献最大的9个特征, 使用它们也可获得较高的子句识别准确率。最后仅使用词法信息, 子句识别准确率可达84.5%。实验证明子句的定义合理, 基于逗号的子句识别在理论上和实验上均可行。  相似文献   

10.
低资源环境下,受限于平行语料的规模和质量,神经机器翻译的效果并不理想.汉-越神经机器翻译作为典型的低资源型机器翻译,同样面临平行语料匮乏的问题.针对这一问题提出了基于句法差异的汉-越平行句对抽取方法.一方面,分析了汉语和越南语间的句法差异,通过词性标签对差异进行表述;另一方面,利用孪生结构的循环神经网络,在编码过程中融入句法差异信息,从句法规则角度更好的指导抽取过程.实验表明,基于汉越可比语料所提方法能够有效地抽取出高质量汉越平行句对.  相似文献   

11.
考虑到句法结构与语义结构之间的紧密联系, 尝试将句法信息融入UCCA语义分析模型中来增强语义分析的性能。基于目前性能最好的基于图的 UCCA语义分析模型, 提出并比较4种不同的融入依存句法信息的方法。采用SemEval-2019国际评测语义分析任务的英文数据集进行实验, 在本领域和跨领域两个数据集上的结果均表明, 句法增强的方法能够给显著地提高UCCA分析性能。引入BERT特征后, 句法信息仍然可以提供一定的帮助。  相似文献   

12.
Word-order information is very useful in information processing, and it is worthy to annotate in corpus. In this paper, we analyze the syntactic functions afforded by word-order switch in Mandarin Chinese, and present a feasible annotation approach based on the word order information. The experiment results show that there is a very significant difference for the frequency information of word distribution after annotation. Therefore, it is helpful for obtaining the accurate frequency information. Meanwhile, word-order switch information can also offer meaningful pragmatic information to improve the quality of machine translation.  相似文献   

13.
Statistical properties of Chinese semantic networks   总被引:1,自引:0,他引:1  
Almost all language networks in word and syntactic levels are small-world and scale-free. This raises the questions of whether a language network in deeper semantic or cognitive level also has the similar properties. To answer the question, we built up a Chinese semantic network based on a treebank with semantic role (argument structure) annotation and investigated its global statistical properties. The results show that although semantic network is also small-world and scale-free, it is different from syntactic network in hierarchical structure and K-Nearest-Neighbor correlation.  相似文献   

14.
以已经分词并进行了词性标注和介词短语标注的《人民日报》为实验语料,选取其中出现频次高于20次的61个介词为实验对象,采用支持向量机、最大熵和条件随机场这3种统计模型,对介词短语边界识别进行了研究.实验结果表明在3种模型中,采用条件随机场模型效果最好,微平均准确率达到了95.68%.  相似文献   

15.
尝试将依存树转化为短语结构树, 并基于规则的方法自动检测出人工标注结果中的错误。将该方法应用于已经过两遍人工校对的北京大学多视图依存树库, 从50275个句法树中发现1529处错误, 正确率为100%。进一步, 所有错误可以分为3个层次: 分词错误、词性与句法角色不符、句法角色错标。该方法可以有效提高依存树库的质量, 并且适用于各类型的依存树库。  相似文献   

16.
副词基础形式与重叠形式的不同点体现在三个方面:句法功能上的区别,在语用功能上的区别和在语用功能上的区别。副词重叠式是一种形态变化,重叠式表强调是一种格式义,副词重叠表强调也是一种人类认知普遍规律在语言中的体现。  相似文献   

17.
针对目前商用CAD软件中MBD功能三维标注缺乏正确性校验问题,基于OpenCASCADE几何造型内核研究了三维尺寸标注与标注有效性检查的问题.通过提取被标注对象的几何特征,结合信息标注规则,判断用户标注内容与标注对象间的匹配性,进而判断标注的正确性,增加了系统三维尺寸标注的智能性.设计了分层数据结构存储标注信息,并将标注信息与形体要素相关联,避免了三维标注中重复标注的现象,也为后续的产品虚拟装配、加工制造以及产品服役中产品语义信息的自动化提取提供可能.将标注信息以XML格式储存,便于信息的传输和访问,为进一步研究产品的数字孪生技术打下良好的基础.  相似文献   

18.
从汉语树库建设和应用角度分析了汉语语法研究数字化现状,指出现有的短语树库和依存树库均缺乏有效的句式结构信息.以黎氏语法"图解法"为原型,改造设计了一套可用于计算机实现的句式结构数字化图解方案,介绍了该图解系统在对外汉语教学中的2项应用.最后结合图解树库的标注实践谈了对句本位语法关于结构层次和"活看法"的理解.  相似文献   

19.
就分布式多媒体系统DMS中同步问题进行了分析与探讨,首先论述了形式化规范语言LOTOS的约定与其本概念,然后对其进行了基于时间的扩充,引入时间操作算子,确定了相应的语法定义和语义规则。通过基于时间扩充的LOTOS,对分布式环境下的多媒体同步问题进行分析,给出了一种复杂的多媒体严格同步系统和具体的算法描述。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号