首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
在跨语言文本分析任务中,多词短语比单个词汇歧义小,语义表达更加准确,有助于提高文本理解的准确性。现有方法主要关注单个词的跨语言对齐。将多词短语抽取和跨语言对齐相融合,提出了一种基于多策略过滤的汉日多词短语抽取和对齐的方法。首先从一个语种出发,通过重复串、左右邻接熵、内部关联度、多词嵌套、停用词等方法提取并过滤得到具备完整语义的多词短语,然后利用平行语料库计算汉日多词短语的相似度,实现跨语言对齐。在整个过程中可结合日语语言规则与特点,根据语料规模、相关领域对过滤阈值进行动态调整,提高了多词短语的领域适用性。实验结果表明,该方法可有效抽取汉日多词短语并进行准确对齐,以多词短语为对齐单元,语义表达更完整,实用价值更大。  相似文献   

2.
基于相邻词的中文关键词自动抽取   总被引:2,自引:0,他引:2  
文档关键词概括了文档的主题和内容,在信息检索、文本分类、文本聚类等领域有着重要应用.在总结前人研究成果的基础上,提出了一种基于相邻词的中文关键词自动抽取算法.在对50篇学术论文自动抽取关键词的实验中,采用精确匹配的评价获得了38.9%的精度和34.9%的召回率,采用近似匹配的评价获得了70.7%的精度和68.8%的召回率,能够为进一步的研究提供帮助.  相似文献   

3.
针对研究生考试涉及课程门类众多,内容要求灵活多变,并且存在数门课程合并出卷的特点,提出一种将多层过滤模型和动态概率模型相结合的试卷抽取方法,首先通过多层过滤模型层层过滤出符合出题要求的试题,然后使用动态概率模型对所有试题按照一定概率进行动态调整。结果表明试题分布合理,完全能够满足研究生考试试题抽取的需求。  相似文献   

4.
目前市场上有很多股票交易软件,这些软件会根据股票交易的实际情况定期产生股票交易信息数据,并将这些信息数据写入二进制格式的文件中,如DAY文件等.由于这些文件不是文本文件,无法直接使用常规的文件读写进行数据的抽取,而必须设计一种数据抽取算法完成相应操作.对DAY文件进行了分析和研究,在此基础上设计了一种数据抽取算法,并利用JAVA语言实现了数据抽取算法程序,利用该程序完成了从DAY文件中抽取数据并写入数据库的实验.实验结果表明,该程序能够正确地从DAY文件中抽取数据,为后期的股票信息处理和数据挖掘提供了重要的基础.  相似文献   

5.
通过研究抽取算法的本质和抽取算法之间的关系,对抽取算法的互补性进行分析,提出了一种多算法组合验证机制,该机制能检测出抽取算法的错误,并通过结合动态阈值调整的方法,提高抽取算法的抽取准确率.  相似文献   

6.
随着互联网的快速发展,信息也呈爆炸式增长,如何从海量的文本信息中获取所需的信息成为当今一门重要的课题.检索、分类、抽取等文本信息处理技术取得了长足发展,但面向人物属性的自动信息提取却没有引起人们的重视.基于规则的人物信息抽取算法,首先对需要抽取的信息进行规则描述,重点是时间、地点、籍贯等信息.在规则的基础上,研究开发人物信息抽取系统,最终实现了半结构化人物属性信息的自动提取.  相似文献   

7.
[摘要]利用语料库对比方法,从词汇、语法、语义和语用角度调查商务语境中主题性多词单位的典型模式和语用特征。研究表明,受语言规约和使用概率的限制,多词单位在组合内的词汇选择呈现封闭性,但通过词汇和语法的结合又显示出较强的主题表达和语篇生成能力。这些多词单位与通用英语表达相比有明显区别,对于我国商务英语教学具有启示意义。  相似文献   

8.
冯帆 《科技信息》2010,(10):I0144-I0144
本文基于对辽宁省英语专业学生口语语料库(OCEMLP)中学生词块使用情况及其特点的研究,研究词块在英语专业口语教学中的优势,从而为其出及时、科学的反馈,促进英语口语教学。  相似文献   

9.
唐诗的研究历来是汉学研究的热点之一.运用现代汉语信息处理研究中建立起来的计算机语言学理论、方法与技术,对古代汉语的语言现象进行深层次研究.此项研究的基础是唐诗语料中未登录词的提取.文中尝试运用统计等手段对唐诗语料进行了未登录词的发现.  相似文献   

10.
11.
徐春 《科技信息》2011,(17):I0104-I0105
平行语料库研究是近年来语料库语言学横向发展的新趋势。人们清楚的认识到大规模的高质量汉英平行语料库在自然语言处理、比较语言学研究和第二语言教学等众多领域中的巨大价值。文章介绍了一个大规模汉英双语平行语料库的构建系统,利用互联网上存在的海量多语言文本资源,通过网页的内容分析和链接分析,实现了一个双语语料挖掘的自动获取系统,包括其总体规划、实施模型和流程细节。目的是通过学习国内外资料。最终建设一个基于互联网的平行语料库自动构建系统。  相似文献   

12.
分析潜在语义分析的理论基础,结合英汉口译语料库的相关特点,提出了基于潜在语义分析的口译语料相似度的度量方法.基于PACCEL英汉口译语料库的实验表明,该方法的检索精度为0.79,召回率为0.59,F1为0.68,检索时间为1.124 s,在检索精度、召回率、F1值以及时间效率上均显著优于实验的参照方法.该方法能为用户提供更有效的检索推荐以及在扩展语料库时自动探析语料库存在的数据冗余,为语料库的构建和扩展提供了有效指导.  相似文献   

13.
以汉语为研究对象,提出构建大规模高质量汉语复述平行语料的方法.基于翻译引擎进行复述数据增强,将英语复述平行语料迁移到汉语中,同时人工构建汉语复述评测数据集.基于构建的汉语复述数据,在复述识别和自然语言推理任务中验证复述数据构建及其应用方法的有效性.首先基于复述语料生成复述识别数据集,预训练基于注意力机制的神经网络句子匹...  相似文献   

14.
通过本项研究,我们对100万词级现代蒙古语语料库做了短语标注,建立了现代蒙古语基本短语库。这一成果。对今后建立一个面向信息处理的、具有较强通用性的蒙古语语义分类和描述体系,提供了必要的前提条件。局部测试结果表明,标注软件对简单句子标注基本短语的召回率和准确率分别达到了92.93%和86.79%。今后有必要深入研究语义信息的获取、语法信息的细化以及蒙古语短语的歧义结构种类、产生歧义结构的原因等问题。  相似文献   

15.
Translation lexicons are fundamental to natural language processing tasks like machine translation and cross-language information retrieval. This paper presents a lexicon builder that can auto-extract (or assist lexicographer in compiling) the word translations from Chinese-English parallel corpus. Key mechanisms in this builder system are further described, including co-occurrence measure, indirection association resolution and multi-word unit translation. Experiment results indicate the effectiveness of the authors‘ method and the potentiality of the lexicon builder system.  相似文献   

16.
随着语料库语言学的发展和语料库知识的普及以及计算机技术的空前发展,语料库语言学对语言研究等众多领域产生了巨大的影响。我国英语语料库语言学的研究已超越了对西方理论的引介和评价阶段,在各个领域的研究和应用都不断增多,范围不断扩大,但有些方面的研究还未涉足,已有的研究还需继续深入。  相似文献   

17.
蒙古语语料库的研究与建设   总被引:3,自引:0,他引:3  
论述了蒙古语语料库的建设所涉及的重要问题.详细讨论了语料库的结构,包括总体框架结构和实现的表结构,语料的加工及统计分析.简单介绍了蒙古语语料库在语音合成、形码到音码的转换、文字识别后处理方面的应用.  相似文献   

18.
语料库在英语教学中的应用   总被引:1,自引:0,他引:1  
杨小平 《太原科技》2006,(2):71-72,75
就语料库在教学方面的发展进行了探讨。重点阐述了语料库在语言研究方面和高校英语教学实践中的应用。  相似文献   

19.
从稻壳中提取木糖的工艺研究   总被引:1,自引:0,他引:1  
本文对以稻壳为原料提取木糖的工艺进行了研究,提出了生产木糖的小试工艺,该工艺可靠易行,具有转化为工业规模生产的前景。  相似文献   

20.
从数据中挖掘知识   总被引:4,自引:0,他引:4  
解释了数据挖掘的含义,从数据挖掘的知识类型及作为进行阐述,对每种知识的主要挖掘技术作了介绍,最后介绍一种用模糊关系的聚类挖掘方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号