首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 656 毫秒
1.
针对中文问句分类缺乏丰富的句法语义特征,提出一种基于词袋绑定的问句新特征自动生成方法.在词袋(BOW)、词性(POS)和词义(WS)等基本特征的基础上,通过将词性、词义等与词袋分别进行绑定,自动获取一类新的问句特征即词袋绑定特征.采用SVM分类器在哈工大中文问句集上实验,结果表明与原来单个的POS、WS等基本特征相比,对应的W/POS、W/WS等词袋绑定特征在分类精度上均获得了显著的提升;而且对这些词袋绑定特征进行启发式组合以后,在77个小类问题类别的总体分类精度达到82.333%,取得了较好的分类效果.说明在基本特征基础上借助词袋绑定操作进一步构造问句新特征的方法简单而有效.  相似文献   

2.
作为一种特殊形式的疑问句,汉语附加问句还没有引起学界较多的关注和重视,其多样的句法特征还没有得到比较充分而全面的挖掘。为此,本文在定性与定量分析的基础上,对汉语附加问句的基本句法特点和"表疑部分"的形式类型、各下位类型的形式特征、疑问程度、答语系统及其变体形式等句法特征进行了较为详细的描述和分析。  相似文献   

3.
基于关联规则挖掘的汉语语义搭配规则获取方法   总被引:1,自引:0,他引:1  
针对自然语言处理系统在短语分析时的词汇排歧和结构排歧需要,本文提出了一种基于语料库的汉语短语语义搭配规则自动获取方法.该方法以《知网》为语义知识资源,在标注了句法语义信息的汉语短语熟语料库基础上,先采用数据挖掘中元规则制导的交叉层关联规则挖掘方法,自动发现汉语短语的语义搭配规律,再根据统计结果自动优选后生成语义搭配规则库.实验结果表明该方法是切实可行的.运用该方法自动获取的语义搭配规则具有较好的排歧效果.  相似文献   

4.
文章以藏语动词短语的结构类型、语法规则、语义分析等内容为主,建立了一个以结构和句法特征为主,兼顾语法和语义信息的藏语动词短语信息库,运用语料分析软件对提取的9962个藏语动词短语进行了计量分析,通过分类、比较、分析,得到了一个较为完整的短语结构功能分类体系.  相似文献   

5.
基于支持向量机语义分类的两种图像检索方法   总被引:2,自引:0,他引:2  
为了更好的解决基于内容的图像检索问题,提出了2种基于语义的图像检索方法.第1种是基于支持向量机(SVM)语义分类的图像检索方法.该方法首先提取训练图像库的底层特征信息,然后利用SVM对所提取的特征进行训练,构造多分类器.在此基础上,利用分类器对测试图像自动分类,得到图像属于各个类别的概率,实现图像检索.第2种是利用图像自动标注方法进行检索.在基于语义的图像自动标注中,先对训练集进行人工标注,对测试图像利用SVM分类器进行分类,并找到与该图像最相似的N张构成图像集,对该图像集的标注进行统计,找到关键词,从而提供概念化的图像标注以用于检索.通过在标准图像检索库和自建图像库上的实验结果表明,以上2种基于语义的图像检索方法是高效的.  相似文献   

6.
一种融合多种语义特征的中文问题分类方法   总被引:1,自引:0,他引:1  
针对中文问题分类方法中提取语义信息不准确和特征向量维数过高导致处理速度过慢的问题,提出了一种融合多种语义特征的问题分类方法。借助HowNet,兼顾问句的句法和语义信息,选取问题疑问词、核心词的主要义原、命名实体、名词单/复数等四种分类特征,并在义原的提取过程中加入词义消岐技术,对事实疑问句进行分类。在某高校信息检索研究室的中文问题集上进行实验,实验结果证明了该方法的有效性,大类准确率92.82%,小类准确率84.45%,取得了较好的效果。  相似文献   

7.
阐述了面向开放领域和受限领域中文问句处理方法的异同,讨论了在受限领域(图书信息领域)中文问句处理的思路.在当前汉语言句法分析技术尚无法达到应用级别水平的前提下,提出了基于语义块识别的中文问句浅层语义分析技术.给出了语义块的定义、规约规则以及问句向量的生成方法,最终实现对中文问句的浅层语义挖掘,以满足实际应用的需要.实验证明,该方法在语料较为稀疏时,具有良好的效果.  相似文献   

8.
多特征中文命名实体识别   总被引:1,自引:0,他引:1  
命名实体识别任务是对文本中的实体进行定位,并将其分类至预定义的类别中.目前主流的中文命名实体识别的模型是基于字符的命名实体识别模型.该模型在使用句法特征之前,需先进行分词,不能很好的引入句子的句法信息.另外,基于字符的模型没有利用词典中的先验词典信息,以及中文偏旁部首蕴含的象形信息.针对上述问题,论文提出了融合句法和多粒度语义信息的多特征中文命名实体识别模型.实验证明论文模型相对目前主流模型有了较大的提高,同时论文还通过实验分析了各种特征对模型识别效果的影响.  相似文献   

9.
由于Contourlet变换具有多分辨率分析、多方向性、各向异性等特点,能很好地捕捉图像的轮廓特征,利用Contourlet变换系数有利于特征的检测.提出了一种基于Contourlet变换与支持向量机(SVM)的图像分类方法.该方法首先对彩色图像灰度化后进行Contourlet变换,将得到的三层低频分量系数作为图像分类的语义特征,然后利用SVM分类器对图像进行分类.实验结果表明该方法具有较好的分类效果.  相似文献   

10.
为弥补特征提取中的语义缺陷,提出了一种利用领域知识规则填补特征与高级语义之间鸿沟的思想,从体育视频中对语义对象进行有效的特征提取,并采用支持向量机元分类器和组合策略对体育视频进行分类的方法.实验表明,该分类方法对大部分体育视频都具有很好的分类效果,平均准确率可达92.23%,优于其他提取特征无语义关联的分类方法.  相似文献   

11.
提出一种基于语义核函数的问题分类算法,该算法基于问题的语法结构构建支持向量机(SVM)核函数.首先,将给定的问题解析为语法树结构,用语法树的子树表示该问题;然后,从词法、语法、语义三个层面提取问题的特征,构成更加丰富的特征空间;接着,基于问题的语法树构建核函数;最后,使用潜在语义索引方法并结合问题的词法、语法以及语义特征,通过语义核函数将特征空间映射到更有效的空间中进行问题分类.TREC数据集上的实验结果表明,通过词法、语法以及语义增强的问题特征空间可以提高分类准确率.  相似文献   

12.
针对现有的中文文本情感分析方法不能从句法结构、上下文信息和局部语义特征等方面综合考量文本语义信息的问题,提出一种基于特征融合的中文文本情感分析方法.首先,采用Jieba分词工具对评论文本进行分词和词性标注,并采用词向量训练工具GloVe获取融入词性的预训练词向量;然后,将词向量分别作为引入Self-Attention的BiGRU和TextCNN的输入,使用引入Self-Attention的BiGRU从文本的句法结构和文本的上下文信息两个方面综合提取全局特征,使用TextCNN提取文本的局部语义特征;最后,将全局特征和局部语义特征进行融合,并使用Softmax进行文本情感分类.实验结果表明,本文方法可以有效提高文本情感分析的准确率.  相似文献   

13.
基于特征缺省的最小类内方差支持向量机   总被引:1,自引:0,他引:1  
最近提出的基于特征缺失的支持向量机(support vector machine with absent features,AF-SVM)在处理具有特征缺失的数据分类时,得到的分类超平面不能很好地适应数据的总体分布,并存在两类误分的比例相差比较大的问题。为此,本文通过引入最小类内方差支持向量机(minimum class variance SVM, MCVSVM)分类机制,提出了基于特征缺失的最小类内方差支持向量机(minimum within-class variance SVM with absent features,AF-V-SVM)。AF-V-SVM一方面可以依据数据集的分布特性,改善分类超平面的方向性;另一方面,通过自由设置分类间隔的定义空间,调整误分的比例。实验表明,与其他基于特征缺省的分类方法相比,该方法不仅提高了分类正确率而且使分类效果更加合理。  相似文献   

14.
多语种自然语言生成系统中的语言模型   总被引:1,自引:0,他引:1  
介绍了在多语种自然语言生成系统中如何用统一的模型来表示各种语种的语言知识。本文将语言知识分为语义资源和语法资源两个部分。前者通过Schema和优化规则确定文本的内容;后者根据子结构类,句法规则和词典确定文本的具体形式。该模型以复杂特征集为语言知识的载体,将表示抽象语义的数据扩展为生成不同语种文本所需的语言资源。  相似文献   

15.
由于数据具有海量、高相关性和非线性的特点,所以如何选择原始数据的本质特征,是关系到能否有效提高问题分类器推广能力的关键问题。本文讨论了目前基于所有特征以及词袋和词序列袋的特征选择方法,提出了采用随机森林和支持向量机(SVM)相结合的方法来进行特征选择。实验证明,此方法能够有效地选择分类特征,从而提升问题分类的效率和精度。  相似文献   

16.
The English Middle Construction (EMC), as a piculiar syntactic structure, shares its semantic features, but diversifies in its syntactic configuration compared with other langtages. This paper tries to have a contrast study of the Middle Construcitons between English and Chinese and find the two languages share the same semantic features that the incompatibility between the semantic quantitatives (SQs) of the Adverb (Adjunct in the syntactic term) and the SQs of the Verb denoted by the predicate of MC leads to the deactivization of the predicate by means of the Adjunct, functioning as a quantitative device, assign delimitation to the predicate, hence ensures the grammaticality of the construction. But syntatically, we agree that the NP Movement Approach accounts for the formation of EMC, while we argue in Chinese it is the verb raising that results in the MC. This paper f‘n-st represents the structural representation of the English Middle Construction; then the structural analysis is elaborated in comparison with that in Chinese, based on the previous studies; and finally the motivations of the Ecs in the perspective of syntactic and semantic functions are explored and hence a new hypothesis is raised to probe the similar construction in Chinese.  相似文献   

17.
在以认知为基础的面向计算机和人工智能领域的语言学框架下,对古汉语的自动句法语义分析进行研究,希望能对古汉语教学与研究,以及现代汉语的分析和处理起到一定的推动和促进作用.运用以左结合语法为基础的数据库语义学方法对古汉语的两个基本结构(函词-论元结构和并列结构)进行自动句法和语义分析,以可接续性为前提,遵循自然语言的时间线性顺序,采用规则和模式匹配的方法,过程简便,计算效率高,且符合古汉语本身的特点.分析结束时自动生成的语义关系图清晰、准确,更彰显了数据库语义学方法的独特性、适应性以及分析能力.  相似文献   

18.
一种基于SVM和规则消除组合型歧义的算法   总被引:2,自引:0,他引:2  
歧义的处理是影响分词系统切分精度的重要因素,也是中文自动分词系统中较为困难的问题.提出一种基于支持向量机(SVM)和规则(Rules)相结合的算法(SR算法),对中文分词过程中的组合型歧义字段进行排歧.SR算法主要思想是利用支持向量机分类的原理,结合词性搭配的一些规则排除组合型歧义.实验表明,用此算法对几种不同的语料进行排歧测试,排除组合型歧义字段的切分正确率可达83%左右,为解决中文自动分词难题提供了一条新路径.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号