首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
基于特定领域的语料库,利用统计和语言学规则相结合的方法提取多字词表达(Multiword expressions)。首先利用领域高频词作为种子词提取候选串,进一步利用各种统计量、多字词表达边界过滤规则对候选串进行噪声剔除,得到多字词表达。实验结果表明,该方法对于处理大规模真实文本效率很高,可以有效提高多字词表达的获取,可以更有针对性地在特定领域提取多字词表达。  相似文献   

2.
利用高频词和互信息面向特定领域提取多字词表达   总被引:1,自引:0,他引:1  
在阐述了多字词表达定义的基础上,对面向特定领域的多字词表达提取的技术路线进行了详细说明.以大规模的真实文本为研究对象,利用领域高频词和互信息统计量提取多字词表达,确定了多字词表达的最大提取长度,并通过停用词表法对候选多字词表达进行噪声处理.实验结果表明:笔者提出的方法在处理对象规模、效率等方面均有所提高.  相似文献   

3.
针对高校校园这一应用领域,设计并实现了一种基于多层策略的校园问答系统.提出了校园知识的3种类型,即服务型知识、常见问题型知识及文本检索型知识.针对不同类型的知识,建立了特定服务查询、常见问题查询和自由文本检索多级策略的问答系统模型,逐级匹配查询问句的答案:特定服务查询通过模式匹配将问句转换为服务接口;常见问题查询通过特征关键词提取、问题分类和问句相似度计算算法将问句与常见问题库中的问题-答案对匹配;自由文本检索对全文检索引擎solr返回的候选文档进行答案抽取,获取答案段落.性能测试表明:对80%以上的查询问句,若问题相关知识存在于系统中,则系统都能给出满意的答案.  相似文献   

4.
基于本体的受限领域问答系统研究   总被引:1,自引:1,他引:0  
鉴于使用本体表示知识利于知识的重用及推理,提出基于本体知识库的受限领域问答系统(QA)框架,该框架可以方便地根据本体知识库和问句语义表征抽取答案.定义了本体的结构,以某医疗领域的本体为例分析本体元素之间的抽象关系;描述问句语义分析的方法,给出答案抽取的相关技术;分析问句类型,给出对应的问句语义表征和答案抽取策略.以某医疗领域的问答系统为实验平台,封闭测试F值为83.86%,开放测试F值为76.04%,效果良好.  相似文献   

5.
提出了一种中文问句语义相似度计算的新方法.该方法分为两步:第一步采用基于问句句型模板规则匹配的方法提取问句语义表征;第二步根据问句语义表征计算问句语义相似度.采用该方法开发了一个面向常问问题集(FAQ)的问答系统.实验结果表明,采用该方法获得的相似度计算的准确率约为85%.  相似文献   

6.
情感词典作为情感分析任务中的一项基础资源,是观点发现及情感极性判断的重要依据。随着网络新词的大量出现,情感新词的抽取成为一个亟待解决的问题。针对这一问题提出基于边界特征的情感新词的提取方法。该方法利用skip-gram模型挖掘情感词的边界特征、构建边界特征集,利用边界特征集提取情感新词候选集,通过bigram搭配、序列模式等方法对情感新词候选集进行过滤,根据候选串的频次、与其搭配的边界特征在语料中的分布情况对候选串进行评分。在微博语料上的实验结果显示,该方法对情感新词识别的准确率与候选串得分正相关,当候选串得分为11时准确率为83.33%。实验证明,基于边界特征的情感新词的提取方法能够有效地识别大规模语料中的情感新词。  相似文献   

7.
随着互联网和社会的飞速发展,新词不断涌现。识别和整理这些新词语,是中文信息处理中的一个重要研究课题。提出一种新词识别方法,该方法利用基于PAT-Array的重复字符串抽取候选串,提高了新词的召回率。并在此基础上分析新词内部模式,添加了垃圾串过滤机制。单字串过滤主要是运用垃圾词典的方法,多字词模式新词的确定是利用改进的互信息与独立成词概率结合的方法。由此,大幅度提高了新词识别的准确率。  相似文献   

8.
关键词提取是问答系统中问句分析的重要步骤,它有助于问答系统快速、准确地返回答案。针对现有文献中基于T FIDF等方法在关键词提取准确率及效率方面的不足,提出一种基于平均信息熵的中文问句关键词提取方法。通过加入专业领域词汇,并在停用词过滤的基础上计算问句中每个词的平均信息熵,以词的信息熵值直接体现该词在问句中的重要性;同时在关键词提取过程中,通过设定不同提取比例,并在不同提取比例下观察评价标准值,以最佳提取比例获取更为合适的关键词。实验结果表明,与传统的T FIDF等其他方法相比,该方法的查准率、查全率以及 F1测度值都得到显著提高。  相似文献   

9.
在当前交互式问答的研究中,面向真实应用环境的交互式问答语料比较缺乏。首先收集大量网购客服对话日志作为交互式问答研究的语料数据, 对网购对话日志进行统计分析,然后从对话日志中抽取174组会话,对会话中的非规范语言现象、问句相关现象、问句答案匹配现象等交互式语言现象进行了标注和统计。基于标注统计结果发现:高频语句在网购对话中占较大比例,15%的语句的使用量占客服应答语句总量的45%以上;非规范语言现象出现比例占到会话语句的50%;问句相关现象中指代相关、省略相关、公共词序列相关是最重要的3个相关特征;问句答案匹配现象中交叉匹配的情形占到会话的60%以上;匹配的问答对中问句与答案具有显性匹配特征的占50%以上。  相似文献   

10.
银行领域汉语自动问答系统BAQS的研究与实现   总被引:13,自引:2,他引:13  
介绍BAQS的研究背景和系统框架.探讨基于问点块和语义块识别以及句模匹配分析问句的新方法,并用向量表示整个问句语义.借鉴本体和知网思想,构建银行领域本体库和银行知网.采用预先对金融领域实用文本进行标注,依据问句向量从标注树中提取答案.并针对某银行实现汉语自动问答系统.实验表明该方法可行,对自动问答系统的设计具有借鉴意义和深入研究的价值.  相似文献   

11.
多词表达(multiword expressions, MWEs)是自然语言中一类固定或半固定搭配的语言单元,特别在网络文本中,多词表达频繁出现,给分词和后续文本理解带来了巨大挑战,因此,面向网络文本提出了一种双层抽取策略来实现多词表达的识别。第一层次,利用基于左右熵联合增强互信息的算法来实现多词表达的初步抽取;第二层次,在第一层次获得的多词表达候选列表的基础上,利用SVM分类器,构建上下文和词向量特征,进行多词表达与非多词表达的分类,实现多词表达候选列表的进一步过滤。经过实验测试,在5 000条微博语料上,第一层次获得的多词表达的F值为84.92%,第二层次多词表达识别的F值为89.58%,相比于基线系统,性能有很大的提升。实验结果表明,双层抽取策略能够实现网络多词表达的有效抽取,并能有效改善分词结果。  相似文献   

12.
依照所回答的问题类型区分,图像和文本的视觉问答大体分为2类,第1类是可以从图像中直接获取答案的问题,第2类是需借助外部知识获取答案的问题。目前的视觉问答方法只能在一类问题上具有较高的准确率,回答另一类问题的技术尚不成熟。为了扩大可回答的问题类型,设计了一种知识图谱辅助下的视觉问答方法——K-VQA。在基于深度学习VQA的基础上,通过查询知识图谱区分问题类型,对不同类型的问题采用最合适的方法进行回答,对于需借助外部知识进行回答的问题,利用图像和问题中的信息判断回答问题所需的实体和属性,抽取知识图谱中的三元组,获取问题答案。结果表明,不同的视觉问答技术适用于不同类型的问题,K-VQA方法既能回答简单问题也能回答推理性问题,准确率高达56.67%。因此,作为知识图谱辅助下的视觉问答方法,K-VQA可以回答更多类型的问题并获得较高的准确率,对于深入研究VQA和VQA方法具有重要的参考价值。  相似文献   

13.
结构化自动问答系统采用传统方法缺少对词汇、词序和结构的划分,导致语句相似度较低,为了解决该问题,提出了基于Web语义的混合问句相似度计算方法。根据结构化自动问答系统结构,设计系统语句分析模型,通过正向匹配方法,对模型专业词库中的用户输入自然语句进行分词处理,并对字符串之间的关系展开分析。采用非恒定相似度系数来描述2个字符串的相似情况,并由此分析词形、词序和结构相似度,完成不同语句相似度的计算。通过实验对比可知,文章提出的基于Web语义的混合问句相似度计算方法最高计算精准度可达到96%,可提升自动问答系统的整体性能。  相似文献   

14.
基于数据挖掘的智能答疑系统   总被引:6,自引:2,他引:6  
根据当今答疑系统的缺点,提出了一套基于数据挖掘算法的答疑设计方案,将改进的关联规则算法应用于文本聚类中,可以将数据库中问题更加准确地分类,因此可以将用户提出的问题快速定位,提高答疑速率.将聚类后的问题库应用关联规则,可以得到更加准确的关联表,用于提取论坛数据库中的最优答案,进而形成一个快速且准确的自动答疑系统.实验结果表明该方案具有智能性、自我更新性能、节约存储空间和提高答疑效率等优点.  相似文献   

15.
在特定领域问答系统中,领域知识直接影响问答效果.本文提出了一种领域问答答案提取方法,以问题分析得到问题查询、问题类型及答案类型为基础,借助领域知识检索获得答案提取候选段落.对于定义性问题,结合关键词加权权重计算方法及句子与问题语义相似度方法,对候选段落或句子与问题相关度排序,提取相关度高的句子或段落作为答案,对于数词或列表性实体问题,借助命名实体识别,提取与问题中心相关的领域实体作为答案.在云南旅游领域进行了答案提取实验,结果表明该方法具有较好的效果.  相似文献   

16.
A passage retrieval strategy for web-based question answering (QA) systems is proposed in our QA system. It firstly analyzes the question based on semantic patterns to obtain its syntactic and semantic information and then form initial queries. The queries are used to retrieve documents from the World Wide Web (WWW) using the Google search engine. The queries are then rewritten to form queries for passage retrieval in order to improve the precision. The relations between keywords in the question are employed in our query rewrite method. The experimental result on the question set of the TREC-2003 passage task shows that our system performs well for factoid questions.  相似文献   

17.
In Chinese question answering system, because there is more semantic relation in questions than that in query words, the precision can be improved by expanding query while using natural language questions to retrieve documents. This paper proposes a new approach to query expansion based on semantics and statistics Firstly automatic relevance feedback method is used to generate a candidate expansion word set. Then the expanded query words are selected from the set based on the semantic similarity and seman- tic relevancy between the candidate words and the original words. Experiments show the new approach is effective for Web retrieval and out-performs the conventional expansion approaches.  相似文献   

18.
19.
鉴于问题分类是问题分析的主要任务,提出一种结合本体和焦点的问题分类方法.首先依存分析和语义角色标注对问题进行浅层语义分析,再根据预定义的问题焦点结构和焦点抽取规则,获取问题焦点语义表征;然后标示问题的类别为问题焦点中疑问对象在领域本体中的标识;最后,根据焦点不同则问题不同这一事实,将焦点相同的问题归为一类,从而实现问题分类.使用该方法对计算机故障诊断领域1 905个特指问题分类,取得了93.91%的准确率,验证了领域本体和焦点对问题分类方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号