首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
基于关联规则挖掘的汉语语义搭配规则获取方法   总被引:1,自引:0,他引:1  
针对自然语言处理系统在短语分析时的词汇排歧和结构排歧需要,本文提出了一种基于语料库的汉语短语语义搭配规则自动获取方法.该方法以《知网》为语义知识资源,在标注了句法语义信息的汉语短语熟语料库基础上,先采用数据挖掘中元规则制导的交叉层关联规则挖掘方法,自动发现汉语短语的语义搭配规律,再根据统计结果自动优选后生成语义搭配规则库.实验结果表明该方法是切实可行的.运用该方法自动获取的语义搭配规则具有较好的排歧效果.  相似文献   

2.
语义选择限制是一种重要的词汇语义知识,有助于自然语言的句法语义分析,也有助于解决自然语言处理中的数据稀疏问题.提出了基于语义分类体系和最小描述长度原则的汉语语义选择限制知识自动获取方法,对现有的名词语义分类体系进行改造,实现了一个知识获取的高效算法.基于大规模语料进行知识获取,对获取的优选语义类进行了分析,并进行了伪消歧实验,与基于KL距离的方法进行了对比,体现了所用方法的有效性.  相似文献   

3.
以<现代汉语规范字典><现代汉语词典>为资源,分析了其组成方式并以此为依据抽取出有效信息,以文本形式建立自定义格式的数据库,根据语素在辞典中的释义的示例来对其构词能力进行自动分析,建立汉字字义网,并在此基础上,通过词义组合生成合成词结点,进而建立汉语词汇语义网,它能完成词汇间语义关系的自动标注.  相似文献   

4.
传统的中文词义消歧方法是通过观察文本的上下文信息、词性等显性特征建立消歧模型,本文通过对歧义产生原因进行深入的分析,发现词语之间隐含的语法结构、语义信息等也会导致歧义的产生,可以考虑将这些信息加入消歧模型进行消歧。由于《知网》知识库中对词语之间的搭配信息进行了总结,本文借助《知网》提取训练语料库所获取的词语搭配信息的隐性语义特征,结合显性的上下文特征,采用条件随机场的方法进行词义消歧。最后,通过实验进行词义消歧和效果验证,结果表明:本文采用的方法与传统的条件随机场消歧相比,词义消歧的准确率得到了提高。  相似文献   

5.
为了从大规模标注语料库和词汇知识库支持下自动获取分层次、多粒度的规则描述知识,从汉语多词语基本块入手,提出一套完整处理方案.该方案从标注语料库中自动获取所有基于词类的基本块规则,通过设置规则置信度自动排除大量低可靠和无效规则.针对其中的高频低可靠规则,不断引入更多的内部词汇约束和外部语境限制知识,使之逐步进化为描述能力更强的结构化规则.同时提出一种预期精度指标对自动习得规则的描述能力进行了客观评价.实验结果表明: 现有算法以16%的有效扩展规则覆盖了93%的标注正例,并使预期精度从51%提高到81%, 显示了这套规则学习和评价方法的有效性.  相似文献   

6.
语义歧义大量存在于自然语言中,其排歧成功率是衡量机器翻译、信息检索、文本分类等自然语言处理软件性能的重要指标.对语义消歧这一自然语言理解领域的难点技术问题进行了探讨,分析了统计学习方法在语义消歧中的应用,阐述了统计语义消歧的有关技术,并给出一个基于贝叶斯与机读词典的语义消歧实例,取得了较高的语义消歧成功率.  相似文献   

7.
基于转换的无指导词义标注方法   总被引:5,自引:0,他引:5  
词义标注是自然语言处理的难题之一。该文提出用于文本词义标注的转换规则自动获取算法及相应的词义排歧算法。该算法用可能的句法关系对语境进行限制,减少了训练数据中的噪音; 为提高学习算法的速度,提出利用预排序方法减少规则搜索次数,以及只调整变化部分数据的计算方法; 并给了改善召回率的词义排歧算法。在近5 万词的语料库上对本算法进行了实验,开放测试的词义排歧正确率为743% 。  相似文献   

8.
基于语义的汉语文献主题词提取算法研究   总被引:10,自引:0,他引:10  
为了适应信息时代的迅速发展,提高从汉语文献中自动提取主题词的准确率,给出一种基于语义理解的汉语文献主题词自动提取算法模型.该模型以中文文本为处理对象,结合领域背景,构建概念语义网络作为分词词典和知识库,用概念之间的联系和匹配取代传统的字面匹配,克服了仅局限于表面形式的缺陷;把自然语言处理从目前基于关键词层面提高到基于知识的层面,从而在概念层次上理解文献主题,突破了传统的关键词匹配的局限,在一定程度上解决了词汇差异问题.该方法能对自然语言进行某种程度的语义理解,利用领域知识来实现主题词的规范标引.实验表明,采用本方法对测试文档进行主题词提取的准确率可达到71.03%,与传统方法相比提高了近1.87倍.  相似文献   

9.
词义消歧研究在自然语言处理的许多应用领域中具有重要的理论和实践意义,在机器翻译中更是如此,它直接关系到译文质量的提高,但目前已有的词义消歧系统基本上都面临着消歧知识获取的瓶颈问题,要真正有效地提高词义知识库的质量,需要在词类划分基础上,增加词义的误法功能分析和语义搭配限制,综合利用现有的语法,语义资源,提取多义词的每个意义在不同层次上的各种分布特征,以此为基础,给出了一个汉英机器翻译系统中基于语法,语义知识库的汉语词义消歧分析模型,初步的实验结果表明,该方法可以高质量地进行汉语名词,动词,形容词的词义消歧。  相似文献   

10.
文章提出了一种基于义项相似度的自动合并算法,用于整合以现代汉语语法信息词典、现代汉语虚词用法知识库和现代汉语词典(第5版)为核心,以现代汉语语义词典和同义词词林等其他19个词典为补充的多源词典和知识库,初步的构建了大规模汉语词汇语义知识库CLSKB。自动合并算法准确率达到32.9%,大幅度地提高了合并工作的效率。CLSKB共包括核心知识库CLSKB_Core和扩展知识库CLSKB_Extended。CLSKB_Core由可信度高的资源合并得到,规模约16万条。CLSKB_Extended是扩展知识库,主要资源来自网络,用于补充核心知识库,规模约33万条。该知识库可为自然语言处理中诸多领域提供丰富的词汇语义及关系信息。  相似文献   

11.
基于连接文法的双语E-Chunk获取方法   总被引:2,自引:0,他引:2  
提出了一种面向机器翻译领域的扩展Chunk概念·EChunk是在Chunk概念基础上基于语义惟一性的一种扩展形式,其具体形态表现为具有无歧义性、复现性、可嵌套性、内部结构句法自足性的无歧义机器可翻译单元·讨论了使用连接文法的连接因子进行英语EChunk的识别技术和双语EChunk获取方法·双语EChunk库的建立必将为基于Chunk的机器翻译技术提供极大的支持·  相似文献   

12.
针对一词多义现象, 提出一种基于上下文规则的词义消歧算法(CR-WSD), 该算法以定义消歧规则的方式确定多义词在文本中的具体含义, 利用WordNet中知识结构和上下文关系进行语义选择, 完成词义消歧. 用Senseval 3中的全文作为测试集, 实验结果表明该算法能有效地实现词义消歧.  相似文献   

13.
To identify Song Ci style automatically, we put forward a novel stylistic text categorization approach based on words and their semantic in this paler. And a modified special word segmentation method, a new semantic relativity computing method based on HowNet along with the corresponding word sense disambiguation method are proposed to extract words and semantic features from Song Ci. Experiments are carried out and the results show that these methods are effective.  相似文献   

14.
针对纳西语、汉语因句法结构差异较大而导致双语词语自动对齐较为困难的问题,提出一种融合特征约束模型的纳西-汉语双语词语对齐算法.首先在语料中统计纳西-汉语词语区间扭曲和位置转换特性,并由此建立2个双语词语对齐的特征约束模型;然后将提出的特征约束模型融入词语对齐的对数线性模型框架,并结合最小错误率算法训练模型参数;最终搜索出最佳的词语对齐结果.实验以IBM Model3为词语对齐比较模型,结果表明,该双语词语对齐算法可以使纳西-汉语词语的对齐准确率提升21.9%.  相似文献   

15.
词义自动消歧概率模型   总被引:3,自引:2,他引:1  
提出了一种词义自动消歧概率模型·在词义自动消歧实验中,分析了高频率词义、指示词、特定领域、固定搭配和固定用法信息对名词和动词词义消歧的影响·目前该词义自动消歧系统已经应用于基于词层的英汉机器翻译系统(汽车配件专业领域)中,有效地提高了翻译性能  相似文献   

16.
文章提出了一种基于规则的汉语句法分析方法 ,通过对已进行分词与词性标注的句子进行短语的人工标注形成精确度较高的语料 ,然后提取一些规则分析出短语的结构和功能类型 ,为自然语言的计算机处理提供基础研究服务。  相似文献   

17.
Word-order information is very useful in information processing, and it is worthy to annotate in corpus. In this paper, we analyze the syntactic functions afforded by word-order switch in Mandarin Chinese, and present a feasible annotation approach based on the word order information. The experiment results show that there is a very significant difference for the frequency information of word distribution after annotation. Therefore, it is helpful for obtaining the accurate frequency information. Meanwhile, word-order switch information can also offer meaningful pragmatic information to improve the quality of machine translation.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号