首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 359 毫秒
1.
文本聚类作为一种自动化程度较高的无监督机器学习方法,能够实现对文本信息的有效组织、摘要和导航,近年来已经广泛应用在信息检索领域。笔者针对使用向量空间模型进行聚类时对于同义词和多义词的处理存在的缺陷,提出了基于本体的文本聚类模型。首先使用WordNet词典对文档中的词进行语义标注,得到文档的概念集合;然后对每个文档的概念集合进行概念聚类,生成文档的概念主题;最后通过计算主题的相似度完成文本聚类。该模型减少了相似度计算量,改善了聚类结果和聚类性能。  相似文献   

2.
为了区分文档间的同源性和异质性,首先,提出一种多特征语义融合模型(Multi-Feature Semantic Fusion Model,MFSFM)来捕获文档关键字,它采用语义增强的多特征表示法来表示实体,并在多卷积混合残差CNN模块中引入局部注意力机制以提高实体边界信息的敏感性;然后,通过对文档构建一个关键字共现图,并应用社区检测算法检测概念进而表示文档,从而匹配文档对;最后,建立两个多特征文档数据集,以验证所提出的基于MFSFM的匹配方法的可行性,每一个数据集都包含约500份真实的科技项目可行性报告。研究结果表明:本文所提出的模型在CNSR和CNSI数据集上的分类精度分别提高了13.67%和15.83%,同时可以实现快速收敛。  相似文献   

3.
混合语义模型的产品知识文档检索   总被引:1,自引:0,他引:1  
为解决产品知识文档检索过程中遇到的问题,提出一种基于混合语义模型的检索方法.该方法将传统的用户查询需求扩展为用户偏好、语境和用户查询混合而成的语义集合,并对知识文档和用户需求进行基于本体的模糊概念表达.对于知识文档,选择领域本体的叶节点来构造文本概念向量,根据概念在本体图中的深度、携带的信息量,及出现在文档与语料库中的频度来计算权重.同样采用本体表达知识语境与查询语义,建立用户偏好模型.针对检索模型的不同组成,阐述了相应的相似度计算方法,采用概念的语义距离计算用户当前语境和文档语境之间的相似度,用余弦法计算查询语义、用户偏好与文档的相似度.最后用实验验证了该方法的检索效果优于传统的向量空间方法.  相似文献   

4.
基于语义的汉语文献主题词提取算法研究   总被引:10,自引:0,他引:10  
为了适应信息时代的迅速发展,提高从汉语文献中自动提取主题词的准确率,给出一种基于语义理解的汉语文献主题词自动提取算法模型.该模型以中文文本为处理对象,结合领域背景,构建概念语义网络作为分词词典和知识库,用概念之间的联系和匹配取代传统的字面匹配,克服了仅局限于表面形式的缺陷;把自然语言处理从目前基于关键词层面提高到基于知识的层面,从而在概念层次上理解文献主题,突破了传统的关键词匹配的局限,在一定程度上解决了词汇差异问题.该方法能对自然语言进行某种程度的语义理解,利用领域知识来实现主题词的规范标引.实验表明,采用本方法对测试文档进行主题词提取的准确率可达到71.03%,与传统方法相比提高了近1.87倍.  相似文献   

5.
信息主题的抽取是快速定位用户需求的基础任务,主题词抽取时主要存在三个问题:一是词语权重的计算,二是词语间关系的度量,三是数据维度灾难.在计算词权重时首先利用互信息确定共现词对,与词频、词性、词位置信息非线性组合,然后,根据词权重构建文档—共现词矩阵并建立潜在语义分析(Latent Semantic Analysis,LSA)模型.该方法借助LSA模型的奇异值分解(Singular Value Decomposition,SVD)将文档—共现词矩阵映射到潜在语义空间,不仅实现数据降维,而且获得低维度的文档相似矩阵.最后,对文档相似矩阵进行k-means聚类,在同类文档中选出词权重最大的前几对共现词,作为该类文章的主题词.对比基于TF-IDF(Term Frequency-Inverse Document Frequency)和共现词抽取主题词的实验,该算法的准确度分别提高了19%和10%.  相似文献   

6.
一种基于词共现图的文档主题词自动抽取方法   总被引:11,自引:0,他引:11  
主题词抽取是文本自动处理的基础性工作.在对现有主题词抽取方法深入研究的基础上,提出了一种基于词共现图的文档主题词自动抽取方法;该方法以基于词频统计方法为基础,利用在词共现图形成的主题信息以及不同主题间的连接特征信息自动地提取文档中的主题词,旨在找出一些非高频词且又对主题贡献大的词.实验表明了该抽取方法抽取出的主题词更能准确地符合了作者的主题.  相似文献   

7.
提出了一种利用传统向量空间模型VSM(Vector Space Model)和词共现概念共同表示文档特征的新方法,并将该方法应用于基于平面划分的中文文本聚类中.通过实验,表明基于传统VSM和词共现概念的文本聚类方法与传统的单纯基于  相似文献   

8.
基于领域本体的文档自动摘要算法   总被引:1,自引:0,他引:1  
介绍了一种以潜语义分析模型为基础,辅之以领域本体的文档自动摘要算法.该方法在传统的基于统计的奇异值分解算法基础上,通过领域本体引入了文档主题识别以及概念相似度计算,更好地用形式化的方式描述了文档的主要内容;在文档主题和概念相似度的指导下,使用统计方法和启发式规则抽取文档中的关键句子作为摘要,并通过实验证明提高了摘要的质量.  相似文献   

9.
基于两级概念格的信息抽取的研究   总被引:1,自引:0,他引:1  
该文提出了结构关键词的概念,给出了结构概念格和内容概念格的形式化描述.结构概念格是对文档语义段的逻辑存储,内容概念格是对文档内容信息的逻辑存储.开发了一个基于文档的结构和内容构造两级概念格的信息抽取的实验系统.实验表明,该方法对减少信息抽取的时间和提高信息抽取的精度有显著的效果.  相似文献   

10.
针对传统文档表示模型中语义关系缺失、特征词权重计算单一及海量数据的实时处理等问题,基于领域本体概念间的语义关系,结合MapReduce框架,提出一种特征权重自适应增强的文档领域本体模型(EAS-VSM)构建算法。该算法通过构造概念语义关系矩阵,将领域本体中概念之间的语义关系增强至每一个概念特征词中,从而实现概念特征词权重的自适应增强。实验结果显示,算法的加速比和可扩展性两项指标与数据规模呈明显的线性关系,证实模型的并行算法性能良好,且相较于传统的VSM和LSA模型,EAS-VSM模型计算的结果与专家经验更为接近,更能反映文档间的相似程度。  相似文献   

11.
一种基于本体的文本聚类方法   总被引:2,自引:0,他引:2  
基于本体的文本聚类方法,在文本表示上引入WordNet,并定义了关键概念集,使用WordNet中的概念节点及概念间的语义关系减少文本特征向量维数,提高聚类效果.聚类过程中,算法使用文本的关键概念集和概念特征向量计算文本相似度,利用文本的关键概念集标注聚簇为聚类结果中的各个簇提供解释.实验结果表明,该方法有效地减少了文本特征向量的维数,提高了文本聚类效果以及聚类结果的可解释性.  相似文献   

12.
基于查询\|概念的用户兴趣模型构建   总被引:1,自引:0,他引:1  
针对查询\|概念二分图因概念抓取和查询词权重设计不足而导致构建的用户兴趣模型不合理的问题, 提出一种基于查询\|概念二分图的用户兴趣建模算法。通过tf×idf公式抓取概念, 并利用用户对查询词的浏览时间计算查询词的权重, 确保改进后的查询\|概念二分图能更准确地表示用户的查询意图。实验结果表明, 该算法构建的用户兴趣更为合理。  相似文献   

13.
卢蕊  束永祥 《镇江高专学报》2009,22(1):113-117,120
数学概念由于其高度抽象化和形式化而具有自身的特殊性,其学习的认知模式包括概念获得、概念在知觉水平上的应用、概念表征、概念在思维水平上的应用。在数学概念学习过程中,要整合现代教育技术的元素,合理利用概念“原型”,寻找方法,建立结构性概念,要巧用概念图,形成概念系。  相似文献   

14.
提出了Fccrm算法.它采用划分的方法降低了形式背景的规模,通过求形式概念中的最大概念以及它们的下覆盖获取到全部的概念节点,避免了概念格中的复杂关系.同时,该算法还采用了概念剪枝的方法,降低了形式概念集的规模.分类规则集则从形式概念集中提取得到.实验结果表明该算法在性能上有了很大的改进,而且通过形式概念集获取的规则集对于样本集是完备的.  相似文献   

15.
随着Web技术的不断更新与发展,知识图谱以其强大的语义处理能力与开放互联能力吸引了各行各业的关注。各行各业都在纷纷构建所属领域的知识图谱,如何从不同数据源抽取构建知识图谱所需概念,成为知识图谱构建的关键技术,概念抽取得越完整,所构建的知识图谱越全面,利用价值越高。本文对不同数据源抽取知识图谱概念进行阐述说明,以期引导学者选择合理的方法进行学术分析,提升知识图谱应用水平。  相似文献   

16.
在互联网技术高度发达的时代,网络上的学习资源呈现出指数型增长态势,面对各种学习对象、概念之间存在的多样化和无序性,如果能识别出之间的依赖关系,将有可能对计算机教育产生重要影响。针对该问题,提出一种面向维基百科的概念依赖关系识别方法,利用概念在维基百科中的特点,设计出一套识别概念依赖关系模型,在公共数据集上采用基于机器学习的分类算法进行测试。实验结果表明,该模型具有较高准确率和召回率,能够有效发现概念之间的依赖关系。  相似文献   

17.
基于概念的信息检索模型研究   总被引:24,自引:2,他引:24  
随着Internet的迅速发展,WWW已经成为世界上最大的信息库,它正日益改变着人类的生活方式。然而,由于WWW信息资源庞大,结构复杂,如何高效地从中找到需要的信息,已经成为困扰网络用户的一大难题。许多著名的站点,如Yahoo,Alta Vista,Infoseek均使用基于关键字的搜索引擎,存在明显的缺陷,当查询用的关键字与目标文档尽管语义相同,但用词不一致时,将检索失败,导致召回率很低。提出一个基于概念的信息检索模型,它不是以关键字为核心,而是以概念为核心来实现信息检索。着重介绍了基于概念的信息检索模型的设施、方法和工具。  相似文献   

18.
中文WordNet的研究及实现   总被引:4,自引:0,他引:4  
提出了一种从英文WordNet转换生成中文WordNet的方法 ,并设计实现了中文WordNet的转换生成系统·论述了在构造中文WordNet的语义网络时 ,概念结点的转换原则 ,中文词形与词义映射关系的重新聚合 ,以及转换生成中文WordNet的可行性及转换中的相关问题 ,并给出了一种依据WordNet进行节点转换自消岐的方法  相似文献   

19.
将粗糙集近似算子引入到三元概念分析中,定义了对象定向三元概念和属性定向三元概念。首先,基于三元背景中的三元关系提出了可能性算子和必然性算子,并研究了这两类诱导算子的性质。其次,基于这两类诱导算子定义了对象定向三元概念和属性定向三元概念。最后,构造了三元图更直观地描述对象定向三元概念和属性定向三元概念。  相似文献   

20.
区间集是解决部分已知概念、近似不可定义或复杂概念的研究工具。概念格是机器学习、数据挖掘、知识发现和信息检索等领域的一种很有效的数据分析工具。区间集概念格是这两种方法的结合,是对于部分已知概念或不可定义概念信息系统进行机器学习、数据挖掘、知识发现和信息检索的一种有效的数据分析工具。区间集属性约简是揭示区间集概念格本质特征的一种方法。本文揭示了区间集属性约简的组成与结构:两个区间集相对必要属性不能在同一个区间集属性约简中出现;区间集约简与任何一个区间集相对必要属性等价类的交都不空;核心属性和每个区间集相对必要属性等价类中取一个属性组成的集合一定是区间集属性约简。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号