首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
Web网页知识获取技术   总被引:2,自引:0,他引:2  
描述一种基于类自然语言理解的Web文本知识自动获取技术. 用领域文法描述Web网页文本,将该领域文法转换成描述句子信息的、符合正则表达式规范的规则,使用该规则把Web网页文本转换为表示网页知识的语义三元组,最后形成领域知识库. 试验数据表明,通过本技术生成的领域知识库中不同类型网页数据的召回率平均值是71.5%,准确率平均值是79.1%.  相似文献   

2.
中文文本实体识别,是自然语言处理的关键问题.传统的语言处理模型无法有效表示文本中的上下文语义信息,无法处理一词多义的不同语境,影响实体识别效果.提出了一种BERT-BiLSTM-CRF的实体识别模型,BERT预处理语言模型生成表征上下文语义信息的词向量,通过双向长短期记忆网络对生成的向量进行特征提取,自注意力机制能够有效获取文本语句中的长距离依赖,最后通过CRF进行解码生成实体标签序列.实验结果表明,该模型在微软亚洲研究院MSRA语料库和人民日报语料库上都取得了优异成绩,F1分别达到96.12%和95.88%.  相似文献   

3.
利用知识图谱技术整合历史文化资源,对历史文化的传承和保护具有现实意义.针对现存历史文化领域问答系统构建中存在用户问句识别精准度不高、深层语义匹配不准确的问题,提出了一种知识嵌入的语言表示模型(K-ERNIE-LSTM).该模型先通过构建历史文化领域知识图谱,将其中三元组作为领域知识注入到句子中;而后利用ERNIE预训练模型获取文本的语义信息,再用LSTM提取文本特征;最后使用softmax函数获得最终的标签分类结果.实验结果表明,该模型在文化领域数据集上具有80.20%的准确率、82.68%的召回率和81.42%的F1得分,性能较其他方法得到明显提升.  相似文献   

4.
现有的联合知识表示学习模型使用实体描述作为辅助信息来提升表示效果,忽略了互联网中大量有价值的信息。为此,提出一种融合属性信息的知识表示学习方法(AIKR)。首先抓取实体的不同属性,并通过莱文斯坦距离从语料库中匹配属性对应的说明文本;然后利用卷积神经网络对说明文本进行编码;最后将得到的实体属性表示与翻译模型生成的结构表示相结合进行联合学习。实验结果表明,相比仅利用实体描述的方法,融合属性信息的知识表示方法可以学习到更多的语义信息,取得了更好的表示效果。  相似文献   

5.
语义网络语言是一种具有较强表示能力的知识表示方式.语义网络语言的使用有助于运用语言结构进行推理,回答查询.从依存关系树库中提取出依存三元组到语义网络语言的转换规则,并使用XML标记语言实现了对大规则集的管理,包括规则的添加、删除、修改.从而实现了汉语到语义网络语言的转换,为构建以语义网络语言为知识表示形式的知识库提供了支持.  相似文献   

6.
在自然语言生成任务中,主题文本生成是一项富有挑战性的工作,其主要难点在于:源信息量远小于目标生成的信息量.为了解决该问题,本文提出一个基于外部知识筛选的主题文本生成模型Trans K,通过引入与主题词相关的外部知识来丰富源信息,进而提高生成文本的质量.本文为了解决引入外部知识的“一词多义”问题,提出一种基于线性变换的主题向量计算方法,用于筛选和主题词语义一致的外部知识;提出一种基于注意力机制的外部权重计算方法,为每个外部词设定一个主题权重,使其更贴合文本语义;为了解决主题词(含候选词)在生成文本中反复出现的问题,提出一种基于多头注意力机制的内部权重计算方法.在EASSY数据集上的实验表明,与基线相比,Trans K生成文本质量的各项指标更优.此外,人类评估表明,该模型可生成与主题更相关、语言更连贯、且符合语义逻辑的文本.  相似文献   

7.
为解决跨语言信息检索中多语言知识组织问题,根据本体术语学中概念具有独立于语言多样性的稳定性,不同语言或文化背景下的术语可表示同一个概念的核心观点,结合教育领域的需求,依据《教育主题词表》构建出支持多语言检索的标准化本体模型。将对术语的检索提升到概念层面,从而消除由不同语言相互转换所带来的歧义,很好地解决了教育领域跨语言语义信息检索问题。最后,利用Jena API 实现对该本体的查询并构建出跨语种语义检索原型系统,结果证明了所提出的方案的可行性。  相似文献   

8.
句子规划器的设计与实现   总被引:5,自引:1,他引:4  
介绍生成多语种天气预报文本系统中句子规划器的设计与实现.句子规划主要由两部分组成:句子优化和语言资源映射.前者按照一定的优化规则在句子之间消除冗余成分;后者根据具体语言特点对句子进行结构化处理,确定文本结构树并为树中各节点添加语言资源信息,以供表层生成处理时使用.  相似文献   

9.
10.
为进一步提高文本情感倾向性分类效果,提出基于文本特征和语言知识融合的卷积神经网络模型MI-CNN.使用Word2Vec表示词语信息,将词性和情感词语等语言知识嵌入词向量中,将文本特征和语言知识融合到情感倾向性分类模型,经过参数优化提升文本情感倾向性分类模型的准确率.在数据集上进行实验,结果表明所提出的模型准确率达到93...  相似文献   

11.
判断句是古代汉语的一种句式,确定一个句子是否是判断句,要根据古代汉语判断句的结构特征和本质特征,古代汉语的名词谓语句并不都是判断句。  相似文献   

12.
平行句对抽取是解决低资源神经机器翻译平行语料不足的有效途径.基于孪生神经网络的平行句对抽取方法的核心是通过跨语言语义相似度判断2个句子是否平行,在相似的语言对上取得了非常显著的效果.然而针对英语东南亚语言双语句对抽取任务,面临语言空间和句子长度存在较大差异,仅考虑跨语言语义相似度而忽略句子长度特征会导致模型对仅有语义包含关系但不平行句对的误判.笔者提出一种结构特征一致性约束的双语平行句对抽取方法,该方法是对基于孪生神经网络的双语平行句对抽取模型的扩展,首先通过多语言BERT预训练语言模型在嵌入层将两种语言编码到同一语义空间,以此缩小语义空间中语言的差异.其次分别对两种语言句子的长度特征进行编码,与孪生网络编码后的句子语义向量进行融合,增强平行句对在语义及结构特征上的表示,降低模型对语义相似但不平行句对的误判.在英缅双语数据集上进行实验,结果表明提出的方法相比基线模型准确率提高了4.64%,召回率提高了2.52%,F1值提高了3.51%.  相似文献   

13.
汉语与佛教文化   总被引:1,自引:0,他引:1  
语言是经常在变的,语音、语义、语汇、语法都在不断的变化之中。短时间内看不出,时间长就明显了。为深入研究中国传统文化,必须研究佛都文化与汉民族语言的密切关系。从以下几个方面探讨了这一问题:1)佛都文化的传入;2)语言是研究文化的一把钥匙;3)佛教的传播促进了汉语的发展;4)汉语词汇的变化;5)成语佛源;6)汉语句式的变化。  相似文献   

14.
"双语或多语的语言环境引发儿童早期语言发展障碍甚至引起失语症"的报道引起了广泛的关注。根据儿童语言习得机制、儿童语言习得沉默期及儿童双语发展阶段的特点,儿童早期双语或多语的环境不会导致儿童语言发展障碍和失语症。儿童语言习得是人类本身的奇迹,儿童双语甚至是多语的习得可谓是奇迹中的奇迹。有此天赋的语言习得潜力,儿童完全能够应付双语和多语的语言环境。  相似文献   

15.
郑洁  黄辉  秦永彬 《广西科学》2023,30(1):71-78
刑期预测模型利用自然语言处理技术自动预测当前案件的建议刑期,对提高司法工作效率,维护司法审判的公平与公正,以及实现同案同判具有重要意义。现有的研究通常采用基于预训练语言模型的方法进行刑期预测建模,但由于存在裁判文书文本较长、专业性强及部分案由标注数据不足等问题,刑期预测任务依然具有较强的挑战性。针对上述问题,本文提出了基于带噪预训练的刑期预测方法。首先,根据刑期预测任务的特点,设计了融合罪名信息的刑期预测模型;其次,结合遮蔽语言模型(Masked Language Model,MLM)任务和自蒸馏策略减少刑期预测任务预训练数据中噪声的影响;最后,改进RoBERTa-wwm模型中的位置嵌入,增强模型的长文本建模能力。实验结果表明,本文提出的预训练方法能够极大地提升刑期预测任务的准确率,在小样本条件下也具有很好的表现。  相似文献   

16.
C语言语句使用频度的自动统计方法设计与实现   总被引:2,自引:0,他引:2  
讨论了C语言语句静态使用频度的统计方法,给出了完整的自动统计的C语言源程序及C语言语句静态使用频度.统计结果成为缩短高级语言和机器语言间语义差距,缩短编译程序的长度和编译所需时间的重要依据.  相似文献   

17.
Introduction Although the word trigram dominates the statistical language modeling community, it still has some short- comings. For example, the word trigram cannot make use of the rich linguistic structure of the language, nor can it capture long-distanc…  相似文献   

18.
在Bigram语言模型建模过程中,语言被看作符号集序列,没有考虑语言本身具有的语法和语义结构特征,虽然在线的文本训练数据迅速增长,但语言模型的性能却再获得大幅度的提高,基于统计方法语言建模的基本原理,提出了一种结合Bigram和主题依存特征的中文语言建模方法,初步实验结果表明,该方法可有效地补充Bigram模型提取特征的不足,通过提取远距离主题依存特征降低了语言模型的分支度。  相似文献   

19.
在藏文文本理解中虚词发挥着重要的句法、语义桥接作用,其规则的有效性在藏文分词处理中扮演着特殊的角色。由于虚词本身及其角色的丰富性,在一定意义上可以说藏文分词处理是虚词识别的过程。因此,虚词识别的正确与否直接影响着藏文文本分词处理的效果。文章依据藏语自身的语法规律和虚词功能的特殊性,首先构建了虚词知识库、虚词兼类库,以及其作为藏文连续文本中识别虚词的依据;其次,研制了标有词汇属性的分词词表和一定规模的训练语料库资源,以基于条件随机域(CRF)的方法进行词性标注,并结合虚词和词性赋码的资源制作了藏文自动分词赋码一体化处理的模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号