首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 468 毫秒
1.
为了有效地获取可比语料,选取汉柬双语新闻文档作为可比语料库的候选语料,提出一种融合发布时间要素、实体要素和主题分布的可比语料获取方法.该方法首先计算文本的主题概率分布的JS距离,并融合各主题和要素特征,计算文本相似度;然后利用改进型的层次聚类算法对双语文本进行聚类,最后从聚簇类结果中获取可比语料.与基于词典的文本相似度计算方法进行聚类相比,该文方法有更高的Purity和F值并且获得的高质量的可比语料更多,说明了本文方法的有效性.  相似文献   

2.
讨论和分析了自动分词的现状,并针对分词问题,提出了一种基于规则的中文文本分词自动校对方法。该方法通过对机器分词语料和人工校对语料的对比,自动获取中文文本的分词校对规则,并应用规则对机器分词结果进行自动校对,提高分词语料的质量。  相似文献   

3.
可比语料库由于其自身优势和广泛用途逐渐成为语料库研究的热点方向之一,而目前国内俄汉可比语料库相关研究未见学者涉及。通过梳理国内外相关研究成果,设计了一种基于维基百科构建俄汉可比语料库的思路和方法,研制了语料自动获取系统,以篇章对齐为基础建立了俄汉可比语料库,语料字(词)总数达到了百万级,最后利用跨语言相似度计算的方法对俄汉语料的可比度进行计算。计算结果表明该方法能够有效获取可比度较高的俄汉语料,所构建的语料库可被用于俄汉翻译、话语分析及计算语言学研究中。  相似文献   

4.
横县平话是桂南平话独具特色的代表点之一 ,以实地调查获取的第一手语料为依据 ,采用历时与共时相结合的分析方法 ,系统地阐述横县平话语音特点。  相似文献   

5.
为在不依赖特征工程的情况下提高中文领域命名实体识别性能,构建了BLSTM-CRF神经网络模型。首先利用CBOW模型对1998年1月至6月人民日报语料进行负采样递归训练,生成低维度稠密字向量表,以供查询需要;然后基于Boson命名实体语料,查询字向量表形成字向量,并利用Jieba分词获取语料中字的信息特征向量;最后组合字向量和字信息特征向量,输入到BLSTM-CRF深层神经网络中。实验结果证明,该模型面向中文领域命名实体能够较好的进行识别,F1值达到91.86%。  相似文献   

6.
提出了一种面向网络答疑系统的无词典分词方法.该方法用统计的手段从大规模未进行任何切分的领域语料中获取算法所需的参数,并结合一定的规则进行分词.该算法具有自学习的能力,适应性强,只要改变训练所用的语料,就能切分出不同领域的词.实验结果表明,该分词方法有较高的召回率和精度.  相似文献   

7.
一价事件是以一价动词为核心构成的事件。为了提高查询的智能性和准确性,尝试用一价事件设计描述了从《实习词表》中挑选一价动词,根据《一价动词表》设计Google查询项,根据Google查询项从Web网页上获取大规模的语料。用特征提取方法从Web语料中抽取事件上下文中的相关词,根据相关词评价Google查询项的优劣,并进行调整。得到与一价动词相关的因果逻辑,丰富查询项,从而提高查询精度。  相似文献   

8.
汉译《圣经》作为语料具有"社会文化生活覆盖面广"、"语体成分口语性强"、"内容、年代可靠,并数量充足"等特点。汉译《圣经》重要语料近三十种,方言和单行本有六百多种。早期的汉译《圣经》语料被混收在《大藏经》中,这部分语料的剥离工作意义重大,有可能发现更早的"上古汉语"《圣经》语料。以汉译《圣经》为语料的汉语研究可对基于其他语料的汉语研究进行补充或修正。  相似文献   

9.
盲文语料库建设在国内外还没有先例.为了建设多功能、综合性的汉语盲文语料库,通过对现行盲文颁布60多年来的盲文出版物语料、非出版物语料以及盲人语料的采集,力图涵盖盲文使用的全貌.从语料调查、语料筛选、语料采集流程几个方面阐述了盲文语料库语料采集的主要内容,并指出语料采集的重点难点问题及应对策略.  相似文献   

10.
依据认知功能教学法的"有效语料"原则准备英语课堂教学语料,并在教学中加以实施,预计能取得较好的课堂教学效果,还能提高学生的认知能力和思维水平。按"有效语料"原则准备英语教学语料并在课堂中实施可分为3个步骤:语料输入、规则认知和语言输出。  相似文献   

11.
语义选择限制是一种重要的词汇语义知识,有助于自然语言的句法语义分析,也有助于解决自然语言处理中的数据稀疏问题.提出了基于语义分类体系和最小描述长度原则的汉语语义选择限制知识自动获取方法,对现有的名词语义分类体系进行改造,实现了一个知识获取的高效算法.基于大规模语料进行知识获取,对获取的优选语义类进行了分析,并进行了伪消歧实验,与基于KL距离的方法进行了对比,体现了所用方法的有效性.  相似文献   

12.
为了解大学英语大班精读课堂教学过程中学习者的语料理解、处理和语言输出的具体情况,促进大班英语课堂教学,设计了课堂输入语料、语料加工和语言输出的调查问卷.经分析,发现大班精读课堂上学习者的语料理解水平存在较大差异,语料加工和语言输出方面也存在许多问题,建议教师采取措施提高学习者输入语料的理解水平,并对吸纳的话料进行深加工,积极从事语言输出.  相似文献   

13.
通过对目前自然语言处理领域中基于深度学习的词向量表示方法对不同文本语料文本表达的有效性进行分析,将主流词向量训练方法用于不同的文本语料集,包括英文维基百科语料、新闻语料、论坛语料和Web语料进行训练,并采用三种评价指标:余弦相似度平均差、斯皮尔曼等级相关和米克罗夫类比方法对训练出的文本词向量表达方法进行比较.实验结果表明,针对上述四种语料,词向量能够实现对文本的有效表示,但各个语料训练出的词向量的通用性不同,其中维基百科语料训练的词向量的通用效果最好.  相似文献   

14.
在把所获取的国家社科基金项目标题按照词表示成训练和测试语料的基础上,基于条件随机场模型和双向长短时记忆模型对所构建的国家社科基金项目学科类别判定模型,进行了多个角度和层面的验证,并与支持向量机模型的实验结果进行对比.基于相应的模型性能评价指标,验证了传统机器学习模型在小规模语料上的整体性能,证明增加了人工特征模型后的条件随机场模型的整体性能并未突出,同时对条件随机场的性能进行个案分析.  相似文献   

15.
目的:主题爬虫是用户获取领域知识的一种有效途径。为实现此方法用户首要解决的问题是主题向量的训练数据的选择和初始URLs的选择。但传统的主题爬虫对于初始URLs的选取并没有过多论述,为此,本文探讨了初始URLs对于主题爬虫的影响,并提出了一种基于元搜索和本体结合的算法来选择并确定初始URLs。方法:采用元搜索方法获取与主题相关的初始URLs,然后根据返回结果采用本体领域知识进行重排序,选择前排的URLs。自动而不是人工地进行初始URLs的确定,同时将页面信息作为训练主题向量的语料。结果:通过对比实验,本文选取的初始URLs比随机选择的要有更高的收获比。从获取总量上看,本文的方法能获得更多的相关网页。结论:通过实验证明主题团的存在,通过本文方法能够选择质量更好的初始URLs,获取主题向量训练语料,发现更多主题团,并且方便用户对于主题爬虫的定制。  相似文献   

16.
实际场景语料和FSN语料的平衡方法   总被引:1,自引:0,他引:1  
为了训练连续语言识别器的语言模型,必须针对识别器应用领域制作训练语料.语料的来源主要有2种:一种是通过整理实际应用场景下录音得到的语料,称为实际场景语料;另一种是用有限状态网络(finite statenetwork,FSN)句法规则方法生成的语料,称为FSN语料.该文重点研究了这2种语料的平衡方法,提出了以实际场景语料和FSN语料中共有的关键词的概率比较为基础,用一定倍数的部分实际场景语料扩展FSN语料,得到最终语言模型训练语料的方法.用该方法得到的语料训练的语言模型使连续语音识别器关键词检出率从55%提高到77%,音节错误率从39%降到30%.  相似文献   

17.
学习者语料库是指通过收集语言学习者的自然语料而建立的一种语言数据库。学习者语料库具有传统研究和教学方法所不具有的明显优势,学习者语料库分析话轮转换词but的用法实例分析阐明了基于学习者语料库的研究可以帮助教师获取学习者语言使用的信息,掌握其语言特点并提高教学效果。  相似文献   

18.
建立了一种德语语料词性标注方法以及基于词性标注的统计方法.初步实验证明了上述方法对德语语料标注和标注后的语料进行单词、词类、短语结构和句子的统计是正确和有效的.  相似文献   

19.
讨论了词类搭配的特点和形式描述问题·提出了一种机器翻译系统中词类搭配规则的自动获取方法,称为CRAM·该方法利用词类的相关性并引入机器学习技术,构造二叉树形式的分类决策树,能够从带有词类和语义标注的语料中获取用于词类有序消岐的搭配规则,与汉英机译系统(CETRAN)的结合应用表明了此方法的有效性·  相似文献   

20.
语言的学习研究,离不开对语料的分析.恰当选择教学的语料,能够使现代汉语教学深入浅出、活泼生动,从而调动学生的学习积极性.教学语料的选取要注重典型性、趣味性和鲜活性.作为教师,需要养成关注和收集语料的习惯,建立属于自己的教学语料库,以便在教学中灵活自如地运用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号