首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 244 毫秒
1.
为了解决柬埔寨语词法标注语料稀缺、柬埔寨语命名实体缺乏明显标识特征的问题,提出一种引入英柬跨语言特征的柬埔寨语命名实体识别方法.首先,借助英语命名实体的成熟模型及英柬双语平行语料的词对齐关系,将源语言的实体类别映射到目标语言;然后根据柬埔寨语词向量构造最近邻图,采用标签传播算法,获得柬埔寨语单词的实体类别分布,完成跨语言知识转移;最后,将柬埔寨语单词的命名实体类别分布作为约束特征融入到条件随机场模型中.实验结果表明,融入跨语言特征的条件随机场模型能有效地提升柬埔寨语命名实体识别的效果.  相似文献   

2.
采用基于最大熵模型的方法对泰语句子级实体从属关系的抽取方法进行了研究.针对泰语句子中实体关系抽取的研究进程中语料库较为匮乏的问题,首先使用汉泰双语平行句对作为中间桥梁,将中文研究领域中相对成熟的分词、词性标注和实体识别等成果,通过汉泰双语词典映射到与中文句子相对齐的泰语句子上,对泰语句子进行必要的数据处理操作,并进行一定量的人工校正和人工实体关系标注工作;进而构建基础的泰语实体关系训练语料库.在语料库的基础上,将泰语实体关系抽取问题转化为分类问题,同时结合泰语语言本身的特点,选取合适的上下文特征模板,使用最大熵模型算法对训练语料进行学习训练,构建分类器,对泰语句子中的候选实体关系三元组进行识别,最终达到实体间从属关系自动抽取的目的.实验结果显示该方法可使F值相对于已有的泰语实体关系抽取研究方法提升8%左右.  相似文献   

3.
为了克服高考阅读理解观点类问题中仅仅利用关键词进行答案句抽取的不足,通过对单篇文章建立LDA(latent dirichlet allocation)模型,计算阅读材料中每一句话与问题的主题分布相似度.利用SVM(support vector machine)分类器,对主题分布相似度高的句子进行分类,用于获取具有观点特征的候选观点句,最后将其与问题观点进行相似度计算并排序,选取排名前α个句子作为题目的答案句.该方法在标注好的高考观点类问题的答案句识别中,总体正确率达到了47.8%,并能将答案句的排序提前.实验结果表明,散文阅读理解题中采用多主题方法比单主题时具有更好的效果.  相似文献   

4.
统计与规则相结合的藏文句子自动断句方法   总被引:1,自引:0,他引:1  
 藏文句子断句是藏文信息处理领域的难点之一,也是藏汉机器翻译、藏文文本分类等工作的一项重要基础性研究.提出了一种统计与规则相结合的藏文句子自动断句方法以解决藏文标点符号功能的歧义问题,实验结果表明该方法具有比较好的效果,F1值达到98%以上.在规则中首先使用经验的方法,识别出不确定的藏文句子作为候选句子,然后采用基于关联词的复句分析方法进行分句合并形成二次候选句子;最后使用最大熵的方法对二次候选句子进行断句.经验方法和复句分析有效解决了最大熵算法无法触及的语料稀疏和分句问题.  相似文献   

5.
平行句对抽取是解决低资源神经机器翻译平行语料不足的有效途径.基于孪生神经网络的平行句对抽取方法的核心是通过跨语言语义相似度判断2个句子是否平行,在相似的语言对上取得了非常显著的效果.然而针对英语东南亚语言双语句对抽取任务,面临语言空间和句子长度存在较大差异,仅考虑跨语言语义相似度而忽略句子长度特征会导致模型对仅有语义包含关系但不平行句对的误判.笔者提出一种结构特征一致性约束的双语平行句对抽取方法,该方法是对基于孪生神经网络的双语平行句对抽取模型的扩展,首先通过多语言BERT预训练语言模型在嵌入层将两种语言编码到同一语义空间,以此缩小语义空间中语言的差异.其次分别对两种语言句子的长度特征进行编码,与孪生网络编码后的句子语义向量进行融合,增强平行句对在语义及结构特征上的表示,降低模型对语义相似但不平行句对的误判.在英缅双语数据集上进行实验,结果表明提出的方法相比基线模型准确率提高了4.64%,召回率提高了2.52%,F1值提高了3.51%.  相似文献   

6.
核心目标词识别是对一条待测句子,识别出句子中能够激起核心语义场景的目标词.文章把核心目标词识别任务分成基于规则过滤识别阶段和基于分类模型识别阶段.利用预先构建的词元表对待测句子中的词进行筛选,识别出候选目标词,使用基于分类模型的识别方法,构建分类特征模板,最终确定句子的核心目标词.文章在汉语框架网的标注语料集上进行测试,实验结果表明,相比于基于规则过滤识别阶段,基于分类模型识别阶段识别率有显著地提升.  相似文献   

7.
为解决课程评论中隐式评价对象识别问题,提出了一种基于文本分类的隐式评价对象的识别方法。首先通过word2vec 模型获得训练文本对应的词向量,获得短文本特征; 其次将短文本特征在TextCNN 中进一步提取高层次特征,通过K-max 池化操作后放入Softmax 分类器中进行训练得出分类模型; 最后利用训练好的分类器对隐式评价句进行分类,获取隐式评价句对应的评价对象。实验表明,基于卷积神经网络对隐式课程评论进行属性分类,课程评论的隐式评价对象识别正确率达到89. 9%,满足了课程评论中对隐式评价句对象识别的需求。  相似文献   

8.
利用计算机进行字符自动识别与录入的技术对机器翻译、数据挖掘、人工智能等都有着重要的理论意义和实用价值,基于数字图像处理技术的字符识别是其中的一个重要发展方向。文章重点研究了字符特征提取和匹配识别这两个影响字符识别效果的因素,根据中文字符笔画的方向特点,选择了对图像方向特征敏感的Gabor变换作为特征提取方式,在获取字符的特征向量后,先利用最小距离分类器进行预分类,再利用最小距离分类中产生的候选样本集训练SVM分类器,识别时只需利用候选集分类器依次判决,降低了训练和识别工作量,同时提高了识别效率。实验表明,系统对网站导航字符平均识别率达94%以上,具有一定的理论意义和实用价值。  相似文献   

9.
根据领域性较强的网站往往蕴含大量平行或可比较双语样本这一特点,针对特定领域双语网站的自动识别问题,提出了一种基于全局搜索和局部分类的方法。以电子器件领域为目标,采用全局搜索方法获得该领域双语网站18 944个,随机抽取其中3 000个网站进行人工标注,在标注语料上,采用局部分类方法识别该领域双语网站的性能(F值)达到85.19%。在此基础上,利用识别出的目标领域双语网站中的双语句对,扩充特定领域机器翻译系统的训练集进行实验。实验结果表明,相同测试集下,特定领域机器翻译系统的性能获得显著提升,验证了本文所提出的自动识别特定领域双语网站方法的有效性。  相似文献   

10.
从可比语料中抽取伪平行句对是翻译语料扩充的重要方法之一。汉-越机器翻译是典型的资源稀缺型机器翻译,提高汉越翻译语料的规模能够显著提升汉越神经机器翻译性能。文章提出基于句子特征向量的汉越伪平行句对抽取方法,该方法首先根据汉越句法特性,将汉越句法差异部分的词性融入嵌入层,再使用自我注意力机制的神经网络抽取句子特征,生成一个句子特征向量,用这个句子特征向量来判断汉越句对是否为伪平行句对,实现从汉-越可比语料中抽取汉-越伪平行句对。实验表明,文章所提方法能够有效地从汉越可比语料中抽取出汉越伪平行句对。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号