首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
随着气候变化成为全球议题,对能源政策文件进行量化分析与研究,具有非常重要的意义。现有的中文分词技术应用在能源政策这一特定领域时,由于无法正确识别领域新词,往往很难取得令人满意的效果。针对新词发现这一问题,该文提出一种基于条件随机场(Conditional random field,CRF)和词向量的能源政策新词发现方法。利用无监督方法,在无需人工标注的情况下,提升CRF模型在特定领域的适应性。提出了种子词典的概念,通过关键词提取并辅以少量人工筛选和补充的方式,构建能源政策领域的种子词典。将种子词典和CRF模型标注结果相结合,并利用词向量筛选,完成领域新词的发现。在真实能源政策文本数据上的试验结果表明,该方法能够在较低人工成本的前提下,有效地实现能源政策领域的新词发现,进而提高中文分词在能源政策文本的表现。  相似文献   

2.
针对领域本体无法语义描述领域中模糊知识的不足,本文利用模糊理论处理模糊信息的优势,提出了一个4层模糊本体扩展框架对已有领域本体进行模糊化扩展,通过模糊本体中的模糊概念、模糊属性以及模糊隶属函数实现了对本体中模糊知识的语义描述. 利用该模型构建了科技评价领域的专家模糊本体,设计了基于模糊本体的语义级专家遴选算法,实现了能够处理遴选条件中模糊语义信息的专家遴选服务. 实际专家遴选系统中的应用表明,本文提出的专家遴选服务能够高效、准确地遴选出合适的评审专家.   相似文献   

3.
专家实体主页识别是专家检索的一个重要的组成部分,本文提出了一种基于J48的机器学习算法来对中文专家实体主页进行分类识别.首先,人工收集中文专家实体及对应的专家主页面2 113个,针对中文专家实体特点,定义与链接和网页内容特征相关的专家实体特征,并对这些特征进行提取,形成训练数据集.然后,采用不同学习算法对在不同特征上的...  相似文献   

4.
为提高领域本体概念及概念之间关系提取效率和准确率, 提出基于中文文本的领域本体学习模型。在提取候选概念的过程中, 采用修改后的关联规则频繁项计算方法对合
成词进行处理, 并结合位图存储分词处理后术语间的物理相邻关系, 再通过计算领域相关度和领域一致度对候选概念进行筛选, 最后利用关联规则可信度和层次聚类的方法分别提取概念间的非分类关系和分类关系。实验结果表明, 该模型对领域本体学习具有合理性, 提出的算法与基于互信息的本体学习相比较, 在概念和关系的提取
上具有较高的准确性。  相似文献   

5.
为解决基于非结构化文本的中文领域本体概念提取效率和准确率不理想的问题, 提出了一种基于关联规则和语义规则的领域本体概念提取方法。利用领域一致性和相关性检查以及关联规则分别获取候选概念和关系集合, 计算候选概念在领域术语关系中的深度和广度, 利用深度和广度信息反馈概念隶属度的思想, 定量分析术语与领域的隶属程度, 进行本体概念的领域隶属度检查, 完成领域本体概念的提取。实验结果表明, 该方法提高了领域本体概念的提取效率和准确率, 具有可行性和合理性, 领域本体概念的提取准确率提高了12%左右。  相似文献   

6.
提出一种基于P 集合和形式概念分析的中文领域本体学习方法. 该方法以非结构化中文文本为数据源, 通过引入P-集合理论获取形式背景, 在获取形式背景的基础上, 采用Godin]算法构造概念格, 并采用自定义映射规则实现概念格到中文领域本体的映射. 通过学习生物和水领域文本, 得到一个中文领域本体. 实验结果表明, 该方法能解决手工构建本体费时、 费力的问题, 且学习到的本体是形式化本体, 能被更好地共享和重用.  相似文献   

7.
针对现有的本体语言不能够表达农业领域知识中存在的诸多模糊概念这一事实,本文提出一种基于云变换的不确定性本体概念的构建方法.设计通过不确定性本体概念的特征属性选择、概念维度数字特征提取与概念层次跃升,得到较粗粒度的不确定性概念的综合形式化表示,并通过实例验证方法的有效性.此外还对传统的云变换算法中熵的估计步骤进行了改进,证明其在时间复杂度上有一定优势.实验结果表明,该方法所提取的概念维度数字特征是有效的,能够较好的表示概念的随机性与模糊性,有助于农业领域本体的客观构建.  相似文献   

8.
针对用户获取互联网上事件类信息的需求,提出了一种基于事件本体的查询扩展方法,重点研究了该方法涉及的2个关键技术:查询内容与领域事件本体的匹配和基于事件本体的扩展项的选取.在中文事件语料库上,通过实验验证了方法的有效性.  相似文献   

9.
提出一种基于词频-极性强度值的情感词挖掘方法构建中文抑郁症情感词典。首先,对抑郁症患者评论语料进行有效分词,采用双向最大匹配和互信息方法选出候选情感词,再通过计算词频-极性强度值得到种子词集;然后,通过计算基础中文情感词典与种子词的语义相似度,得到抑郁症领域情感词表,将词表与种子词集合并,得到中文抑郁症情感词典。结果表明:本文提出的方法可准确地挖掘抑郁症专有领域情感词。  相似文献   

10.
问答系统中查询词扩展是影响检索性能的关键因素之一.给出了领域本体的构建过程,提出了一种结合相似度与相关度的关联度计算方法,利用领域本体构建的概念网络描述的概念及概念问的关系,量化领域概念的关联度,以此进行查询扩展.高校招生问答系统的实例证明,这一方法是合理有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号