首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 906 毫秒
1.
提出了一种基于柬汉双语词对齐语料构建柬埔寨语依存树库的方法。首先构建柬汉词对齐语料库,在该过程中不仅使用GIZA++模型进行词对齐,还利用词典模糊匹配和词向量相似性比较的方法进行双语词对齐语料库的构建;其次根据哈工大LTP平台构建中文依存树库;最后结合柬汉词对齐语料库和中文依存树库通过映射的方式构建柬语依存树库,再经过人工调整得到最终的柬语依存树库。实验表明,该方法简化了人工标注柬埔寨语句子依存关系的过程,减少了昂贵的人工标注工作,有效地提高了依存树库的构建效率。  相似文献   

2.
为基于真实语料进行句法分析,构建了大规模的短语结构树库和依存结构树库,并尝试在两种结构的树库之间进行转换.讨论了宾州中文树库(Penn Chinese Treebank,CTB)中短语结构树库和依存结构树库的关系,并基于现代中文依存文法制定了中心子节点过滤表,依据该表将短语结构的CTB转换为依存结构树库.在CTB中随机抽取200句语料,转换正确率达到了99.50%.基于该转换得到的依存结构树库可以进一步进行中文依存关系解析的研究.  相似文献   

3.
依存语法又称"从属关系语法",研究句子各构成成分之间的支配和从属关系。依存结构是指句子中词与词之间的句法结构关系,该结构以树状结构进行描述,被称之为依存结构树库。文章以依存语法的理论框架作为藏语树库构建的理论指导,充分借鉴依存语法的思想精髓,结合藏语语法体系,设立出符合藏语语法体系的句法和语义标注关系体系,设计了判别式的句法分析算法,从而构建了多维视窗的藏语依存树库。具体分析时,首先,对依存语法的由来、定义、依存关系的适用性等背景知识做了简要的阐释;其次,在藏语句子的筛选、藏语依存结构的形式化模型、藏语依存的骨架结构以及藏语依存树的多维关系等方面进行了研究和分析。  相似文献   

4.
提出了面向翻译研究的融合短语结构树和依存分析的短语依存树库(phrase dependency treebank,PDT)的构建思想,阐述了中英平行PDT的构建方法.PDT采用"扁平结构优先"的短语结构树和"基于语义"的依存句法功能标注原则,有别于传统依存分析的完全二分法.大连理工大学中英平行PDT(DUT-CEPDT)的生语料取自文本质量较高的政府工作报告和白皮书及其官方译文.首先,对文本进行分词和词性标注之后,利用专为语言学家开发的辅助工具LingTreeConstructor构建中文和英文的单语PDT;之后,在两个单语PDT之间从篇章到词的节点进行对齐,这种多层次的立体对齐比只有词、短语或句子的单层对齐能提供更丰富的翻译知识;最后,依据FrameNet进行双语平行的框架语义角色标注.DUTCEPDT将为译员培训和机器翻译研究提供所需的标准语料.  相似文献   

5.
现有分词工具应用于医学文本,出错率高,并且现有分词工具所参照的词性标注规范集,用于医学文本标注,也明显表现不足。文章基于医疗卫生文本研究依存句法,旨在发现医疗卫生文本词特征和句法特征,构建一定规模依存句法树库,为提高医疗卫生领域汉维机器翻译质量提供优质数据资源。重点研究了语义依存,不仅全面掌握词性标注特征,提出建议;而且着重发现医疗卫生文本数据独特的词间关系,标注并保存,获得医疗卫生领域语义依存树库。同时,总结的特殊句法规则,为下一步实现自动化后处理提供依据。  相似文献   

6.
一种基于汉语隐喻依存句法树的嵌入式树匹配算法   总被引:1,自引:0,他引:1  
提出了一种基于汉语隐喻依存句法树的嵌入式树匹配算法,旨在发掘给定语句中所有可能存在隐喻关系的句法依存结构模式,即从隐喻依存模式库中寻找出所有能够嵌入目标依存句法树的模式,同时记录下对应的节点匹配结果.模式库由预先存入的从大规模隐喻句中抽象出来的标准化依存句法树组成,算法采用自上而下和自下而上回溯修正相结合的办法,实现了依存模式的精确匹配.测试结果表明,本算法能够准确无误的找出依存模式库中能够嵌入目标树的所有规则树,实现精确匹配的同时准确记录了每个节点的对应匹配结果,算法保证了较高的运行效率.  相似文献   

7.
针对传统的基于实例的机器翻译(EBMT)方法中系统构筑复杂度和成本较高的问题,提出一种基于依存树到串的汉英实例机器翻译方法。与传统方法相比,该方法只需进行源语言端的句法结构分析,可以大大降低构筑系统的复杂度,有效降低成本。为了提高翻译精度,引入中文分词、词性标注和依存句法分析联合模型,可以减少汉英EBMT中源语言端基础任务中的错误传递,提高提取层次间特征的准确性。在此基础上,结合依存结构的特征和中英语料的特性,对依存树到串模型进行规则抽取以及泛化处理。实验结果表明,相对于基线系统,该方法可以提高实例对抽取质量,改善泛化规则和译文质量,提高系统性能。  相似文献   

8.
为有效解决数据的稀疏性问题,并考虑句法预测的内在层次性,提出了一个基于双向长短时记忆(bidirectional long short term memory,BLSTM)神经网络模型的渐步性句法分析模型.该模型将树形概率计算方法应用到对句法标签分类的研究中,利用句法结构和标签之间的层次关系,提出一种从句法结构到句法标签的渐步性句法分析方法,再使用句法分析树来生成句法标签的特征表示,并输入到BLSTM神经网络模型里进行句法标签的分类.在清华大学语义依存语料库上进行实验的结果表明,与链式概率计算方法以及其他依存句法分析器比较,依存准确率提升了0~1个百分点,表明新方法是可行、有效的.  相似文献   

9.
从汉语树库建设和应用角度分析了汉语语法研究数字化现状,指出现有的短语树库和依存树库均缺乏有效的句式结构信息.以黎氏语法"图解法"为原型,改造设计了一套可用于计算机实现的句式结构数字化图解方案,介绍了该图解系统在对外汉语教学中的2项应用.最后结合图解树库的标注实践谈了对句本位语法关于结构层次和"活看法"的理解.  相似文献   

10.
作者识别是通过分析未知文本的写作风格推断作者归属的交叉学科。现有的研究多基于字符和词汇特征,而句法关联信息在研究中鲜有涉及。该文提出了基于句法树节点嵌入的作者识别方法,将句法树的节点表示成其所有依存弧对应的嵌入之和,把依存关系信息引入深度学习模型中。然后构建句法注意力网络,并通过该网络得到句法感知向量。该向量同时融合了依存关系、词性以及单词等信息。接着通过句子注意力网络得到句子的表示,最后通过分类器进行分类。在3个英文数据集的实验中,该文方法的性能位列第2或3位。更重要的是,依存句法组合的引入为模型的解释提供了更多的方向。  相似文献   

11.
基于细粒度依存关系的中文长句相似度计算   总被引:1,自引:0,他引:1  
长句是中文书面语的常见现象,其由于结构复杂在计算句子相似度时难度较大。综合考虑依存关系中的关键元素,对中文依存句法树进行研究和分析,提出了一种细粒度依存关系的相似度计算方法。通过研究依存句法树中的各节点的词语、词性以及它们之间的依赖关系及其重要性权重等多个特征量,给出了两个依存句法树的相似度计算方法;基于该算法实现中文长句的相似度计算。实验结果表明该方法用于计算中文长句相比较其他算法有更高的准确率。  相似文献   

12.
基于离散时间贝叶斯网络的动态故障树分析方法   总被引:6,自引:0,他引:6  
提出了一种基于离散时间贝叶斯网络的动态故障树分析方法.首先给出优先与门、顺序相关门、备件门、功能相关门等动态逻辑门向离散时间贝叶斯网络的转化方法,在得到动态故障树对应的离散时间贝叶斯网络之后,再利用贝叶斯网络推理算法计算、诊断和预计顶事件概率、重要度等常规分析结果.对数字飞控计算机系统进行的分析表明,该方法能够保证较高的求解精度,其相对误差均保持在0.4%以内,而且易于扩展到多态和非确定性逻辑关系的情形.  相似文献   

13.
针对由于传统的源代码缺陷分析技术依赖于分析人员的对安全问题的认识以及长期经验积累造成的缺陷检测误报率、漏报率较高的问题,提出了一种深度学习算法源代码缺陷检测方法.该方法根据深度学习算法,利用程序源代码的抽象语法树、数据流特征,通过训练源代码缺陷分类器完成源代码缺陷检测工作.其依据的关键理论是应用深度学习算法及自然语言处理中的词嵌套算法学习源代码抽象语法树和数据流中蕴含的深层次语义特征和语法特征,提出了应用于源代码缺陷检测的深度学习一般框架.使用公开数据集SARD对提出的方法进行验证,研究结果表明该方法在代码缺陷检测的准确率、召回率、误报率和漏报率方面均优于现有的检测方法.   相似文献   

14.
径流中长期预报级别特征值特征展开模糊推理方法   总被引:3,自引:0,他引:3  
针对现有径流中长期预报模糊推理方法在实际应用中存在的问题,提出了径流中长期预报级别特征值特征展开模糊推理方法,使原有的模糊推理法得到改进,从而增强了模糊推理预报方法在径流中长期预报以及其他实际工程预报中的应用效果;并将新方法应用于大伙房水库年径流预报中,实例应用研究表明应用该方法预报中长期径流可以得到较好的预报结果.  相似文献   

15.
利用语义、语法等语言知识,建立一种分层句法分析统计模型,并进行句法分析实验.研究结果表明:该模型具有规则和统计相结合的特点,且在层次分析的不同阶段,根据不同的语法、语义、语用特性采用不同的方法和不同的统计模型;该模型结合分词、词性标注进行句法分析,是一个词汇化的句法分析模型,可同时考虑多个语义依存关系;采用该模型,精确率和召回率分别为87.23%和86.15%,其综合指标F与头驱动句法分析模型的相比提高了5.25%.  相似文献   

16.
在Bigram语言模型建模过程中,语言被看作符号集序列,没有考虑语言本身具有的语法和语义结构特征,虽然在线的文本训练数据迅速增长,但语言模型的性能却再获得大幅度的提高,基于统计方法语言建模的基本原理,提出了一种结合Bigram和主题依存特征的中文语言建模方法,初步实验结果表明,该方法可有效地补充Bigram模型提取特征的不足,通过提取远距离主题依存特征降低了语言模型的分支度。  相似文献   

17.
IntroductionMuch recent research on statistical parsers hasfocused on English.English has a large syntacticcorpus,the English UPenn Treebank.Everysentence in this corpus corresponds to a syntacticstructure[1] .Many kinds of parsers for Englishhave been developed based on this corpus[2 4 ] .Thestructure of the Chinese language is quite differentfrom English and there have been only a fewefforts to build syntactic corpora in recent years.Two syntactic corpora were just announced in2 0 0 0 ,t…  相似文献   

18.
综合考虑关键词、词向量及句法结构对句子相似度计算的影响,将平滑逆频率(smooth inverse frequency,SIF)与依存句法相结合以提高句子相似度计算的精准性。SIF的核心思想为利用加权和去除非信息噪音得到的句向量来计算句子相似度。借助哈尔滨工业大学的语言技术平台,将句子的结构信息添加到句子相似度计算中,通过句子中"词语依存关系"三元组的相似性来度量句子间的相似度。实验结果表明,基于SIF和依存句法的句子相似度计算方法所得的反映准确率和召回率平衡度的指标为84. 4%,与同类的句子相似度计算方法相比,能更为有效衡量句子间的相似程度。  相似文献   

19.
针对类簇中类间依赖关系以及类间消息交互产生的错误而导致测试冗余和测试遗漏的问题,提出一种类间依赖集约简的类簇测试用例生成算法。形式化定义了类间继承依赖、聚集依赖和关联依赖这3种依赖关系,建立类簇测试模型。定义类簇模式和用户(领域专家)解释集,并在用户解释集中依据每一个类对象的若干实例广义相等建立等价类,得出用户解释集幂集的1个子集即匹配划分集。据匹配消去算法求出类的最大匹配集,证明该集合就是所求类的最大非平凡非依赖集;提出一种交互差组合约简算法,计算类的最大非平凡非依赖集的补集,约简得到类的最小交叠集,并证明其就是类的最小非平凡依赖集,即类的组合测试用例;对其中每一个类的组合元素进行组合测试,并与其余类交互测试,得出类的交互测试序列。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号