首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
面向以自然语言描述的生物领域实例,基于自然语言的向量表示模型,研究与设计相关的生物领域实例获取问题,提出了基于文本挖掘的生物领域实例获取方法.通过对语料库文本向量空间的构建和知识挖掘,研究生物领域文本的特征选择、相似性度量和实例检索方法,为设计需求驱动的生物领域实例获取提供技术支持.实例分析表明:一方面,基于向量空间模型的生物领域文本挖掘方法在精度和召回率两方面均较基线法具有较大的优势;另一方面,基于向量空间的文本检索机制具有很好的适应性和扩展性,可以满足不同环境下语义检索的需要.  相似文献   

2.
针对传统文本分类方法忽略词语间的语义特征的问题,并为了改善输入文本的表示质量,提出一种基于短语结构和词语词性相结合的情感分类方法.该方法首先通过短语结构优化分词,可以更好地提取文本特征;其次利用Word2vec工具训练词语和词性相结合的文本语料库得到词向量模型,解决了Word2vec无法识别一词多义的问题;最后通过SVM算法对文本进行情感分类.实验结果表明,该算法能够提高文本情感分类的正确性.该方法对舆情监控、股票市场行情预测和了解消费者对产品的偏好等具有较高的实用性.  相似文献   

3.
为了学习非结构化文本与对应的结构化语义知识之间的嵌入语义对应关系,本文提出了一种用于自然语言理解(Natural Language Understanding,NLU)的分布式语义向量学习框架.该语义框架使用长短期记忆对输入序列进行编码以生成文本向量,然后将意图标签、时隙标记和时隙值向量合并生成分布式语义向量,通过最小...  相似文献   

4.
相似词分析是自然语言处理领域的研究热点之一,在文本分类、机器翻译和信息推荐等领域中具有重要的研究价值和应用意义。针对新浪微博短文本的特点,给出一种带词性的连续词袋模型(POS-CBOW)。该模型在连续词袋模型的基础上加入过滤层和词性标注层,对空间词向量进行优化和词性标注,通过空间词向量的余弦相似度和词性相似度来判别词向量的相似性,并利用统计分析模型筛选出最优相似词集合。实验表明,基于POS-CBOW语言模型的相似词分析算法优于传统CBOW语言模型。  相似文献   

5.
基于人工智能的主观题自动评分算法实现   总被引:3,自引:0,他引:3  
针对网络考试系统中主观题自动评分面临的困难和问题,将人工智能中中文自然语言理解的研究成果(空间向量模型、分词算法等)应用于网络考试中对主观题答案(包括标准答案和考生答案)的"理解"过程中,并在此基础上提出了将基于矢量空间模型的文本矢量特征匹配算法应用于计算机对考生答卷进行自动评判的过程中.实验测试数据表明,所提出的算法具有一定应用前景.  相似文献   

6.
现有的藏文文本聚类算法均采用向量空间模型来进行文本建模.该模型存在向量维度过高和无法表示语义信息的问题.该文根据藏文的语法特性并借鉴主题模型的思想,提出了一种基于词向量的藏文文本建模方法.该方法首先采用最大熵模型进行藏文文本词性标注,选择名词和动词作为文本的特征,然后利用word2vec工具训练得到词语类别并计算其在各文本的概率分布,最终以词类别概率矩阵表示文本,从而实现文本建模.与基于VSM和基于LDA的文本建模方法相比,该方法文本聚类结果的F值分别提高了10.5%和2.4%,聚类效果提升明显.  相似文献   

7.
针对目前各种基于长短期记忆网络LSTM的句子情感分类方法没有考虑词的词性信息这一问题,将词性与自注意力机制相结合,提出一种面向句子情感分类的神经网络模型PALSTM(Pos and Attention-based LSTM).首先,结合预训练词向量和词性标注工具分别给出句子中词的语义词向量和词性词向量表示,并作为LSTM的输入用于学习词在内容和词性方面的长期依赖关系,有效地弥补了一般LSTM单纯依赖预训练词向量中词的共现信息的不足;接着,利用自注意力机制学习句子中词的位置信息和权重向量,并构造句子的最终语义表示;最后由多层感知器进行分类和输出.实验结果表明,PALSTM在公开语料库Movie Reviews、Internet Movie Database和Stanford Sentiment Treebank二元分类及五元情感上的准确率均比一般的LSTM和注意力LSTM模型有一定的提升.  相似文献   

8.
运用语料库语言学统计方法对中文文本自动查错的有关问题进行探讨 ,使用词性间关系进行查错 ,主要依据词性二元同现概率、互信息、词性 2阶Markov模型  相似文献   

9.
采集142份主题句作业自然语言语料数据,利用中文自然语言处理平台构造自然语言的词性序列;经过语言结构粗粒化处理,建构由名词、动词、形容词和代词等4种实词构成的词性序列分类模型.研究结果显示,基于词性含量的自然语言词性序列分类模型的准确率达到90%;基于词序位置的自然语言词性序列的分类模型的准确率达到了95%.研究结论表明,自然语言的词性序列分类模型在语言认知领域具有较好的应用价值,不仅可以揭示和证实语言与心理信息之间存在的相关关系,而且可以通过客观的语言符号对内隐的心理信息做出科学的评估.  相似文献   

10.
中文文本实体识别,是自然语言处理的关键问题.传统的语言处理模型无法有效表示文本中的上下文语义信息,无法处理一词多义的不同语境,影响实体识别效果.提出了一种BERT-BiLSTM-CRF的实体识别模型,BERT预处理语言模型生成表征上下文语义信息的词向量,通过双向长短期记忆网络对生成的向量进行特征提取,自注意力机制能够有效获取文本语句中的长距离依赖,最后通过CRF进行解码生成实体标签序列.实验结果表明,该模型在微软亚洲研究院MSRA语料库和人民日报语料库上都取得了优异成绩,F1分别达到96.12%和95.88%.  相似文献   

11.
语义相似性度量能够提高信息检索的准确性和效率,已成为文本处理中的一个核心任务.为解决一词多义等词汇歧义问题,提出一种基于低维向量组合的语义向量模型.该模型引入了知识库与语料库的多语义特征的融合,主要的语义融合对象包括连续的分布式词向量和从WordNet结构中的语义特征信息.首先利用深度学习技术中的神经网络语言模型,预先从文本语料中学习得到连续的低维词向量;然后从知识库WordNet中抽取多种语义信息和关系信息;再将多语义信息融入词向量进行知识扩展和强化,生成语义向量,从而实现基于向量空间的语义相似性度量方法.在基准测试集上的实验结果表明,该方法优于基于单一信息源(知识库WordNet或文本语料)的语义相似性度量方法,其皮尔森相关系数比基于原始词嵌套向量的方法提高了7.5%,说明在向量特征层面上的多语义信息的融合有助于度量词汇间的语义相似性.  相似文献   

12.
针对现有的中文文本情感分析方法不能从句法结构、上下文信息和局部语义特征等方面综合考量文本语义信息的问题,提出一种基于特征融合的中文文本情感分析方法.首先,采用Jieba分词工具对评论文本进行分词和词性标注,并采用词向量训练工具GloVe获取融入词性的预训练词向量;然后,将词向量分别作为引入Self-Attention的BiGRU和TextCNN的输入,使用引入Self-Attention的BiGRU从文本的句法结构和文本的上下文信息两个方面综合提取全局特征,使用TextCNN提取文本的局部语义特征;最后,将全局特征和局部语义特征进行融合,并使用Softmax进行文本情感分类.实验结果表明,本文方法可以有效提高文本情感分析的准确率.  相似文献   

13.
针对使用域名生成算法(DGA)僵尸网络隐蔽性强,传统检测算法特征提取复杂的问题,提出一种无需提取具体特征的深度学习模型DGA域名检测方法.首先基于word-hashing将所有域名转用二元语法字符串表示,利用词袋模型把域名映射到高维向量空间.然后利用5层深度神经网络对转换为高维向量的域名进行训练分类检测.通过深度模型,能够从训练数据中发现不同层次抽象的隐藏模式和特征,而这些模式和特征使用传统的统计方法大多是无法发现的.实验中使用了10万条DGA域名和10万条合法域名作为样本,与基于自然语言特征分类算法进行对比实验.实验结果表明该深度模型对DGA域名检测准确率达到97.23%,比基于自然语言特征分类算法得到的检测准确率高3.7%.  相似文献   

14.
目的分析Ontology特点,探讨Ontology在自然语言理解中的应用。方法通过概念之间的关系来描述概念的语义。结果Ontology解决了自然语言理解中的消歧、推理问题和在语义Web中的应用。结论利用Ontology作为知识体进行自然语言理解,能够有效的把语言学知识和世界知识结合起来,运用世界知识对文本进行消歧和推理;Ontology与知识系统的知识库相融合,使得自然语言理解不仅仅是作为一种人机交互方式,而且能够与其它的基于知识的智能系统如专家系统整合。  相似文献   

15.
深度学习作为机器学习领域新的研究方向,现已在图像处理、语音识别和机器翻译等领域取得了突破性的进展.在处理自然语言任务中,深度学习建立在低层特征基础上,组合形成更加抽象的高层特征,用以完成复杂的语言模型构建、语义理解和文本分类等任务,深受研究人员的关注.文本分类是自然语言处理中的一个重要应用,在文本信息处理过程中有着关键...  相似文献   

16.
刘红芝 《科技信息》2009,(32):36-37
本文首先介绍了信息过滤技术的提出背景、概念、传统向量空间模型存在的问题。针对中文文本层次结构的特点,提出了基于N层向量空间模型中文文本过滤的方法;在引入了用户主题不相关配置文件和不相关阀值的基础上提出了一种两重过滤方法。随后给出了基于N层向量空间模型中文文本过滤系统的原理。  相似文献   

17.
基于概率潜在语义分析的中文文本分类研究   总被引:1,自引:0,他引:1  
概率潜在语义模型使用统计的方法描述"文档—潜在语义—词"之间的概率分布关系,其实质是模拟了潜在的概率语义空间,并将文档和词映射到同一个语义空间.该文将概率潜在语义分析模型用于中文文本分类,一方面较好地处理了自然语言中的同义、多义问题;另一方面通过计算概率潜在语义空间中向量的距离来获得文档间的类别信息从而达到文本分类的目的.实验结果表明,该分类器具有良好的分类性能.  相似文献   

18.
隐喻是自然语言中比较常见的语言现象,在情感计算过程中有些句子的情感是由隐喻引起的,因此隐喻问题的解决将影响情感计算的结果.为此结合相关的隐喻理论,从机器学习的角度,对汉语文本中的显性隐喻的识别进行研究.以本体和喻体所属的范畴不同作为切入点,首先利用词性标注和依存句法分析提取句子中的本体词汇和喻体词汇,然后进行范畴划分和词汇语义相似度计算,最后使用支持向量机进行学习,从而对特定的隐喻句子进行识别.这一研究对后续的隐喻自动识别和隐喻理解起到了一定的作用.  相似文献   

19.
基于命名实体的Web新闻文本分类方法   总被引:1,自引:0,他引:1  
文章对Web新闻领域的文本自动分类问题进行了研究,提出一种基于新闻实体要素的分类方法;在应用空间向量模型的基础上,充分考虑命名实体对Web新闻文本分类的特殊作用,并进行了实验.实验结果表明,以新闻实体要素为特征的文本分类系统可得到较高的分类精度,该方法具有一定的实用价值.  相似文献   

20.
近些年来语料库语言学的发展较为迅速,语料库的建设成为一项重要的工作.在对语料加工的过程中,保证词性标注的一致性也成为建设高质量语料库的重要问题.目前国内外对汉语语料库词性标注结果的校对,还停留在人工校对上,对词性标注结果不一致现象尚未进行系统的研究.对于词性标注方法不是很成熟的维吾尔语语料库来说,词性校对方面的研究工作更少.首先概要介绍了一种维吾尔语的标注方法,并受一些文献的启发,根据维吾尔语的特点对其进行词性标注自动校对的研究,并分析其适用于维吾尔语词性校对的可行性,进而提高维吾尔语词性标注的正确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号