首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 656 毫秒
1.
基于互动问答社区问句中多字词表达和问句理解的关系,提出针对互动问答社区问句进行多字词表达抽取,并基于互动问答社区问句中多字词表达的特点,提出适用于互动问答社区的多字词表达提取方法.该方法在利用互信息和停用词表的方法从问句中抽取候选多字词表达的基础上,将候选多字词表达分为正确串、残缺串、冗余串和错误串4类,借助搜索引擎对查询串的优化和候选多字词表达在互联网上的检索结果,设计候选多字词表达校正方法,实现对多字词表达的提取.以新浪爱问知识人问题库中的问句进行实验,结果表明,多字词表达抽取的准确率、召回率和F值分别达到84%,52%和0.64,验证了该方法的有效性.  相似文献   

2.
利用高频词和互信息面向特定领域提取多字词表达   总被引:1,自引:0,他引:1  
在阐述了多字词表达定义的基础上,对面向特定领域的多字词表达提取的技术路线进行了详细说明.以大规模的真实文本为研究对象,利用领域高频词和互信息统计量提取多字词表达,确定了多字词表达的最大提取长度,并通过停用词表法对候选多字词表达进行噪声处理.实验结果表明:笔者提出的方法在处理对象规模、效率等方面均有所提高.  相似文献   

3.
随着互联网和社会的飞速发展,新词不断涌现。识别和整理这些新词语,是中文信息处理中的一个重要研究课题。提出一种新词识别方法,该方法利用基于PAT-Array的重复字符串抽取候选串,提高了新词的召回率。并在此基础上分析新词内部模式,添加了垃圾串过滤机制。单字串过滤主要是运用垃圾词典的方法,多字词模式新词的确定是利用改进的互信息与独立成词概率结合的方法。由此,大幅度提高了新词识别的准确率。  相似文献   

4.
为解决基于非结构化文本的中文领域本体概念提取效率和准确率不理想的问题, 提出了一种基于关联规则和语义规则的领域本体概念提取方法。利用领域一致性和相关性检查以及关联规则分别获取候选概念和关系集合, 计算候选概念在领域术语关系中的深度和广度, 利用深度和广度信息反馈概念隶属度的思想, 定量分析术语与领域的隶属程度, 进行本体概念的领域隶属度检查, 完成领域本体概念的提取。实验结果表明, 该方法提高了领域本体概念的提取效率和准确率, 具有可行性和合理性, 领域本体概念的提取准确率提高了12%左右。  相似文献   

5.
情感词典作为情感分析任务中的一项基础资源,是观点发现及情感极性判断的重要依据。随着网络新词的大量出现,情感新词的抽取成为一个亟待解决的问题。针对这一问题提出基于边界特征的情感新词的提取方法。该方法利用skip-gram模型挖掘情感词的边界特征、构建边界特征集,利用边界特征集提取情感新词候选集,通过bigram搭配、序列模式等方法对情感新词候选集进行过滤,根据候选串的频次、与其搭配的边界特征在语料中的分布情况对候选串进行评分。在微博语料上的实验结果显示,该方法对情感新词识别的准确率与候选串得分正相关,当候选串得分为11时准确率为83.33%。实验证明,基于边界特征的情感新词的提取方法能够有效地识别大规模语料中的情感新词。  相似文献   

6.
为提高领域本体概念及概念之间关系提取效率和准确率, 提出基于中文文本的领域本体学习模型。在提取候选概念的过程中, 采用修改后的关联规则频繁项计算方法对合
成词进行处理, 并结合位图存储分词处理后术语间的物理相邻关系, 再通过计算领域相关度和领域一致度对候选概念进行筛选, 最后利用关联规则可信度和层次聚类的方法分别提取概念间的非分类关系和分类关系。实验结果表明, 该模型对领域本体学习具有合理性, 提出的算法与基于互信息的本体学习相比较, 在概念和关系的提取
上具有较高的准确性。  相似文献   

7.
首次提出利用URL-Key进行领域术语识别的方法。以URL作为媒介, 借助已知URL-Key的领域性来判断未知领域候选术语的领域性。首先, 借助互联网中已有的人工分类领域URL, 根据URL-Key在各领域汇总使用的频度, 采用基于方差的领域URL-Key识别方法, 构建领域URL-Key词表; 然后, 利用伪反馈技术, 收集候选领域词检索得到的URL结果集, 根据URL结果集构建候选领域术语的URL-Key特征向量; 最后, 利用SVM对候选领域术语进行提取。在4个领域进行实验, 都取得不错的效果。新提出的方法可以有效地解决低频术语识别问题, 为低频术语的识别提供新的思路。  相似文献   

8.
在特定领域问答系统中,领域知识直接影响问答效果.本文提出了一种领域问答答案提取方法,以问题分析得到问题查询、问题类型及答案类型为基础,借助领域知识检索获得答案提取候选段落.对于定义性问题,结合关键词加权权重计算方法及句子与问题语义相似度方法,对候选段落或句子与问题相关度排序,提取相关度高的句子或段落作为答案,对于数词或列表性实体问题,借助命名实体识别,提取与问题中心相关的领域实体作为答案.在云南旅游领域进行了答案提取实验,结果表明该方法具有较好的效果.  相似文献   

9.
样本分类规则提取是基因表达谱数据挖掘工作中的重要内容,提取肿瘤病理组织与正常组织的样本分类规则具有重要的生物学意义与临床诊断价值.针对该问题,基于机器学习与数据挖掘技术,研究了用于区分肿瘤与正常组织样本的分类规则提取问题.首先,利用改进的Relief算法生成候选特征子集,并以支持向量机作为样本分类模型,利用交叉验证方法在训练集上评估候选特征子集的样本分类能力,确定分类特征基因集合;然后,利用CART(classification and regression trees)学习算法构建决策树获得样本分类规则;最后,对所得规则进行了分析和解释.  相似文献   

10.
大量的新词伴随着微博的快速发展而产生,这些新词具有传播速度快及与其他词组合方式灵活的特点,而且在进行分词处理时容易被切分为不同的字符串。提出了一种融合词频特性及邻接变化数的微博新词识别方法。该方法首先对大规模的微博语料进行分词,然后将在两停用词间的相邻字串两两组合,根据组合后的字串频率统计取得新词候选串,再通过组合成词规则进行筛选获得候选新词,最后通过词的邻接域变化特性去除垃圾串获得新词。利用该方法在COAE 2014评测任务上进行了新词的发现实验,准确率达到36.5%,取得了较好的成绩。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号