首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
基于深层特征抽取的日文词义消歧系统   总被引:1,自引:0,他引:1  
词义消歧的特征来源于上下文.日文兼有中英文的语言特性,特征抽取更为复杂.针对日文特点,在词义消歧逻辑模型基础上,利用最大熵模型优良的信息融合性能,采用深层特征抽取方法,引入语义、句法类特征用于消解歧义.同时,为避免偏斜指派,采用BeamSearch算法进行词义序列标注.实验结果表明,与仅使用表层词法类特征方法相比,本文构造的日文词义消歧系统的消歧精度提高2%~3%,动词消歧精度获得5%的改善.  相似文献   

2.
常识推理在机器翻译词义排歧中的应用   总被引:1,自引:0,他引:1  
本文针对词义排歧提出了一种利用语言常识进行逻辑推理以筛选出合理词义的形式化标准和方法,将人们在翻译过程中排歧时所进行的逻辑推理归结为一种机械的集合运算,使之易于机器操作.并在此基础上,提出一种利用义项多元组引入词义的语境相关限制信息、以改进现有电子词典使其更加有利于排歧的方案,从方向上指明了这种词典知识获取的途径.  相似文献   

3.
维吾尔语是典型的资源稀缺型语言,由于词义消歧标注语料资源和语义分析工具的不足,导致传统的有监督方法难以实现.针对该问题,将篇章文本的词义消歧问题类比为文本主题分类问题,在LDA(latent Dirichlet allocation)主题模型的基础上提出了一种维吾尔语无监督词义消歧模型.为强化主题模型对歧义词语义项的分类性能,加入了3个数据预处理过程:去除停用词,过滤有效词和强化同义词词频权重.实验结果表明,在随机抽取的63组测试样本集中,该模型的词义消歧准确率达到65.08%,在篇章文本采样词任务中词义消歧准确率达到61.2%.  相似文献   

4.
针对一词多义现象, 提出一种基于上下文规则的词义消歧算法(CR-WSD), 该算法以定义消歧规则的方式确定多义词在文本中的具体含义, 利用WordNet中知识结构和上下文关系进行语义选择, 完成词义消歧. 用Senseval 3中的全文作为测试集, 实验结果表明该算法能有效地实现词义消歧.  相似文献   

5.
基于领域知识和词向量的词义消歧方法   总被引:3,自引:0,他引:3  
利用无标注文本构建词向量模型,结合特定领域的关键词信息,提出一种词义消歧方法。以环境领域的待消歧文本作为评测语料,通过与Lesk等其他消歧方法进行比较,证明了所提方法的有效性。通过引入不同的领域知识,证明该方法亦可在其他领域的文本消歧任务中加以应用。  相似文献   

6.
机器翻译中词义的常识排歧   总被引:3,自引:1,他引:2  
提出了一种机器翻译中多义词词义排歧的新方法.首先对翻译过程中多义词的词义选择是否符合常识给出了一条形式化的标准,然后将人们在翻译过程中排歧时所进行的逻辑推理归结为一种机械的集合运算,使之易于机器操作.在此基础上建立了义项多元组的概念,利用此多元组引入词义的语境相关限制信息,以改进现有电子词典,使之更加利于排歧.并从方向上指明了这种词典知识获取的途径.  相似文献   

7.
一种抗攻击的中文同义词替换文本水印算法   总被引:1,自引:0,他引:1  
目的提出了一种抗攻击的基于中文同义词替换的文本水印算法。方法根据主流消歧算法的特点,给出词汇相似度和义项相似度两个指标。在为嵌入水印而进行同义词替换时,选择词汇相似度低,且义项相似度高的同义词进行替换。结果以此造成机器消歧的正确率降低,从而使得利用机器消歧的自动攻击难以奏效。实验证明,该算法将词义消歧的正确率从90.4%降低到74.5%。结论提出的方法应用于文本水印算法,提高了算法的鲁棒性。  相似文献   

8.
本文提出了一种利用知网的实例库与知网关系进行词义消歧算法.该方法首先利用知网提供的实例库进行初步的匹配;若在实例库中没有完全匹配,则利用上下文搭配关键词与知网中的实例搭配词进行相似度计算,若相似度大于给定阈值,则消歧结束.否则,我们再判断歧义词的义原与关键词的义原是否具有某种关系,根据义原权值调节算法调整义原权值.调整后的义原权值大小不一,按照事先的约定,我们选取综合权值最大的义项.我们发现,该方法能够弥补仅依靠实例库的覆盖率低的问题,又能减少仅依靠统计方法产生的噪音,从而提高词义消歧的正确率.  相似文献   

9.
基于扩展特征向量空间模型的多源数据融合   总被引:2,自引:0,他引:2  
本体资源的扩充是自然语言处理的关键问题之一。传统的从单一数据源获取的信息其覆盖率较低,亟需建立一个整体的数据管理平台,对数据资源分类存储与整理。为此提出了AVP数据平台,构建AVP平台所面临的重要问题是多源数据的融合,即将不同来源的网站数据进行语义角色标注,对歧义词条进行识别判断,并最终归并到以义项为基本单位的数据仓库中;为解决多源数据融合的语义角色标注问题,给出了一种自动语义判歧方法。其基本思想是利用词条中的属性值对作为特征模板,并借助于属性值的共现概率,应用扩展向量空间模型对词条进行歧义识别。通过大量的实验对比可知,该系统在各方面均取得优异的成绩,所提出的算法能够很好地解决多源数据融合中的语义判歧问题。  相似文献   

10.
基于关联规则挖掘的汉语语义搭配规则获取方法   总被引:1,自引:0,他引:1  
针对自然语言处理系统在短语分析时的词汇排歧和结构排歧需要,本文提出了一种基于语料库的汉语短语语义搭配规则自动获取方法.该方法以《知网》为语义知识资源,在标注了句法语义信息的汉语短语熟语料库基础上,先采用数据挖掘中元规则制导的交叉层关联规则挖掘方法,自动发现汉语短语的语义搭配规律,再根据统计结果自动优选后生成语义搭配规则库.实验结果表明该方法是切实可行的.运用该方法自动获取的语义搭配规则具有较好的排歧效果.  相似文献   

11.
提出一种利用规则与统计相结合的方法用于英汉机译系统中以消解语义级歧义 ,建立了一种根据单词之间的词语搭配关系以消除歧义的模型。该模型利用英汉双语语料选择合理的词组语义 ,对有歧义的单词作出标注。在此基础上给出了语义消歧的学习算法 ,并建立了一套有效的提高召回率的消歧算法。算法在英汉机译系统中的实际应用使正确率提高了约 10 % ,效果显著。  相似文献   

12.
在藏文文本理解中虚词发挥着重要的句法、语义桥接作用,其规则的有效性在藏文分词处理中扮演着特殊的角色。由于虚词本身及其角色的丰富性,在一定意义上可以说藏文分词处理是虚词识别的过程。因此,虚词识别的正确与否直接影响着藏文文本分词处理的效果。文章依据藏语自身的语法规律和虚词功能的特殊性,首先构建了虚词知识库、虚词兼类库,以及其作为藏文连续文本中识别虚词的依据;其次,研制了标有词汇属性的分词词表和一定规模的训练语料库资源,以基于条件随机域(CRF)的方法进行词性标注,并结合虚词和词性赋码的资源制作了藏文自动分词赋码一体化处理的模型。  相似文献   

13.
近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列数据标注模型,基于字的词位标注汉语分词方法逐渐成为汉语分词的主要技术路线.针对一些领域文本中含有较多的英文词汇、缩写、数字等非汉字子串,提出了一种基于字和子串联合标注的汉语分词方法,该方法将子串看作和汉字等同的一个整体,采用四词位标注集,使用条件随机场模型深入研究了基于字和子串联合标注的汉语分词技术.在CIPS-SIGHAN2010汉语分词评测所提供的文学、计算机、医药、金融四个领域语料上进行了封闭测试,实验结果表明此方法比传统的字标注分词方法性能更好.  相似文献   

14.
为了扩大人工标注数据的规模, 从而提高模型性能, 尝试充分利用已有的异构人工标注数据训练模型参数。将Li等2015年提出的耦合序列标注方法扩展到基于BiLSTM的深度学习框架, 直接在两个异构训练数据上训练参数, 测试阶段则同时预测两个标签序列。在词性标注、分词词性联合标注两个任务上进行大量实验, 结果表明, 与多任务学习方法和传统耦合模型相比, 神经耦合模型在利用词法异构数据方面更优越,在异构数据转化和融合两个场景上都取得更高的性能。  相似文献   

15.
近几年来,中文分词技术取得了可喜的进步,各种机器学习方法被应用到这一领域,而采用标注的方法进行分词也是应用得比较多的方法。本文尝试了一种不同以往的方法,不对字本身进行标注,而对字与字之间的切分点进行标注,并结合条件随机场模型,实现了一个分词系统并参加了第三届国际中文处理评测的分词比赛,取得了较好的结果。  相似文献   

16.
在数据匮乏的领域,命名实体识别效果受限于欠拟合的字词特征表达,引入常规的多任务学习方法可以有所改善,但需要额外的标注成本.针对这一问题,提出了一种基于多粒度认知的命名实体识别方法,在不产生额外标注成本的前提下,增强字特征信息,提高命名实体识别效果.该方法从多粒度认知理论出发,以BiLSTM和CRF为基础模型,将字粒度下的命名实体识别任务与句子全局粒度下的实体数量预测任务相联合,共同优化字嵌入表达.三个不同类型的数据集上的多组实验表明,引入多粒度认知的方法有效地提升了命名实体识别效果.  相似文献   

17.
在大力提倡素质教育,推广创新精神和实践能力的今天,学习应具备新的含义。学习不应该只是接受、服从、凿壁偷光、刺股悬梁的代名词,它更应该是开放的、发展的、主动的、自主的、合作的、体验性的、个性化的、探究性的、创造性的。总之,学习应该顺应时代,符合学习者个体生命发展的需要。学习的终极目的就是使学习者成为真正意义上的人。  相似文献   

18.
数据聚类是常用的无监督学习方法,通过词嵌入聚类能够挖掘文本主题,但现有研究大多数采用常规聚类算法挖掘词嵌入的簇类,缺少基于词嵌入特性设计实现词嵌入聚类的主题挖掘算法.该文从语言模型通过建模词间相关信息来使相关及语义相似词的嵌入表示聚集在一起的特点出发,设计词嵌入聚类算法.该算法首先计算中心词的簇类号,然后使该簇中心嵌入和相邻词嵌入的相似性增强,同时使其与负样本词嵌入远离,学习文本集词嵌入的簇类结构,并将其应用于文本主题挖掘.在3种公开数据集上的实验表明:该算法在一些模型的词嵌入结果上能够挖掘出一致性和多样性更好的主题结果.  相似文献   

19.
近年来基于字的词位标注汉语分词方法极大地提高了分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,词位标注汉语分词逐渐成为汉语分词的主要技术路线.该方法中特征模板集设定和词位标注集的选择至关重要,采用不同的词位标注集,使用最大熵模型进一步研究了词位标注汉语分词技术.在国际汉语分词评测Bakeoff2005的语料上进行了封闭测试,并对比了不同词位标注集对分词性能的影响.实验表明所采用的六词位标注集配合相应的特征模板集TMPT-6较其他词位标注集分词性能要好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号