首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对传统文本特征选择算法没有考虑特征的语义及特征与类别之间关系的问题,提出了一种结合语义和分类贡献的特征选择算法.利用LDA主题模型获取文本和词的表示,通过计算词与文本之间的语义相似度,获取词对文本的重要性.再利用Word2vec词向量模型获取文本类别特征,通过计算文本中的词与文本类别特征之间的语义相似度,获取词对类别的重要性,最后结合词对文本的重要性和词对类别的重要性选择分类贡献度高的词作为最终的分类特征.实验表明,该算法能够有效地降低文本特征数量,减少分类计算开销,降低噪声对分类的影响,提升分类效果.  相似文献   

2.
概念相似度研究,是知识表示以及信息检索领域中的一个重要内容.通过对传统相似度计算方法进行分析,提出了一种改进的概念相似度计算模型.该计算模型在计算相似度时不仅改进了语义距离、层次差、语义重合度的计算方法,还考虑了节点密度和有向边类型对相似度计算的影响.实验结果表明,该方法充分利用了本体层次树的结构特点来计算概念之间的相似度,全面地量化了本体概念节点间的语义相似度,提高了概念间相似度计算的准确性.  相似文献   

3.
基于《知网》语义知识资源,提出一种基于问句相似度计算的问答社区问题去重方法。通过计算已有问题集合中问题间的语义相似度,将其中重复度较高的问题进行筛选并去除,从而提高用户获取所需信息的效率,改善用户体验。在"爱问知识人"的真实问题集上的实验结果表明:该方法获得了较好的去重效果。  相似文献   

4.
语义相似度计算广泛应用于自然语言处理中,但现有语义相似度计算方法没有充分挖掘本体结构中概念间的关系.笔者针对当前概念相似度计算的片面性和不完善性等不足,提出一种计算概念间语义相似度和相关度的混合方法.从有向边包含的特征属性对语义距离进行扩展,结合概念深度,将语义距离转换成语义相似度,通过引入概念间相关度计算,使最终概念语义相似度计算更加精确.并将该方法与人的主观判断结果进行比较,验证了该方法的可行性和有效性.  相似文献   

5.
领域本体概念相似度已被广泛应用于医学诊断知识库,为克服概念交互过程中所存在的概念度量准确率较低以及领域概念相似度语义融合不充分等问题,提出面向医学领域的概念语义本体相似度度量理论与方法。立足于领域本体结构特征,首先分解了概念层次结构所包含的语义信息,提出基于属性的计算模型,然后在结构层次中求出概念间的最小不可约集合,通过对集合中的语义模型引入调节因子,提高领域概念的融合效率。算法分析以及实例证明该方法能有效提高本体概念融合的准确性。  相似文献   

6.
实体集合扩展是指给定某类别下若干示例作为种子,扩展得到属于该类别下的更多实体。传统的实体集合扩展方法主要考虑实体之间的共现关系,根据它们之间的相似程度进行迭代式的扩展,但这会导致语义偏转问题的出现,准确率较差。对此,提出了先根据LDA(latent dirichlet allocation)主题模型获得种子词集合语义信息,再通过标签传播来进行实体集合扩展的方法。该方法通过考虑实体列表整体蕴含的语义信息,避免了单个词可能带来的歧义问题;利用LDA模型,挖掘实体列表的上下文主题,丰富实体扩展过程中的语义信息,解决语义偏转问题。在实际数据集上取得了良好的检测效果,证明了本文方法的有效性。  相似文献   

7.
以专利文献为基础,结合特征传递共现对映射潜在语义空间的影响,提出了基于专利信息的潜在语义索引优化方法。该方法根据专利文献的分解细节信息,将单独的专利文献分解为多个子文档和伪文档,使同一类别文档内特征共现度升高、不同类文档间特征共现度降低,从而使对应的潜在语义空间更加合理。同时提取专利核心特征构建专利信息伪文档,增强合理共现信息的出现频率。实验结果证明,专利文本分类任务结合本方法时,可以有效地提高分类的准确性。  相似文献   

8.
针对主题图本体映射中主题上下文语义不易确定,缺少分类信息,但有明确的结构语义特征的特点,提出了A-Sim主题图本体映射算法。首先对主题图中的主题进行分类,利用描述逻辑语言ALCIR+的表达能力,根据主题属性及关联关系建立各种能表达上下文语义信息的概念术语集,将主题图本体转换为断言集合;其次在断言集合上进行多项式复杂度实例检测,记录模型构造过程中的个体,获得主题的上下文语义;最后将上下文语义结合元素级概念相似度算法计算实体综合相似度,获得异构主题图实体间的实体映射关系。通过对主题图进行相似度计算实验,结果证明新算法对主题图实体相似度计算综合性能至少提升了14%。  相似文献   

9.
针对产品设计时间难以准确预测、传统预测方法偏差较大等问题,提出了一种基于产品相似度的设计时间估算方法。首先,运用集合的思想计算产品特征数量的相似度,同时考虑到产品特征存在定量和定性两种不同类型,分别利用欧氏距离和模糊数学理论计算产品定量特征和定性特征的相似度;其次,综合产品特征数量相似度和特征相似度,计算得出产品相似度;再次,运用MATLAB软件建立产品相似度与产品设计时间的关系函数;最后,通过算例与已有算法进行比较,证明了该方法是合理的、有效的。  相似文献   

10.
针对基于语料库统计的词语相似度计算方法存在的一些缺陷,如:计算量大、向量的特征维度高、特征稀疏、忽略了词语的语义信息等,提出了一种基于latent Dirichlet allocation(LDA)的词语相似度计算方法,通过将词语的特征向量映射为词语的主题分布来计算词语间的相似度;通过与基于《知网》的词语相似度计算方法的对比,证明了该方法能有效降低特征维度,并具有较好的词语相似度计算效果。  相似文献   

11.
介绍了本体的相关知识和3种不同的领域本体语义相似度算法,针对这3种算法的视角和优缺点提出了改进的基于领域本体的语义相似度计算方法。该方法综合考虑语义距离、概念特征和信息量中多种语义相似度计算影响因素,较真实地反映了概念间的语义关系。  相似文献   

12.
提出了一种中文问句语义相似度计算的新方法.该方法分为两步:第一步采用基于问句句型模板规则匹配的方法提取问句语义表征;第二步根据问句语义表征计算问句语义相似度.采用该方法开发了一个面向常问问题集(FAQ)的问答系统.实验结果表明,采用该方法获得的相似度计算的准确率约为85%.  相似文献   

13.
混合语义模型的产品知识文档检索   总被引:1,自引:0,他引:1  
为解决产品知识文档检索过程中遇到的问题,提出一种基于混合语义模型的检索方法.该方法将传统的用户查询需求扩展为用户偏好、语境和用户查询混合而成的语义集合,并对知识文档和用户需求进行基于本体的模糊概念表达.对于知识文档,选择领域本体的叶节点来构造文本概念向量,根据概念在本体图中的深度、携带的信息量,及出现在文档与语料库中的频度来计算权重.同样采用本体表达知识语境与查询语义,建立用户偏好模型.针对检索模型的不同组成,阐述了相应的相似度计算方法,采用概念的语义距离计算用户当前语境和文档语境之间的相似度,用余弦法计算查询语义、用户偏好与文档的相似度.最后用实验验证了该方法的检索效果优于传统的向量空间方法.  相似文献   

14.
针对结构复杂图像所具有的相似复杂性和属性复杂性,提出了基于特征语义模型的图像分割算法,通过采用矩阵分解将图像分割问题转化为最优化问题.对原始图像进行视窗扫描,选取规模为n的视窗计算所有像素的特征语义.经过PCA降维后,在保证特征信息最小丢失的前提下计算相互之间的特征语义相似度.通过最优化理论近似寻找特征语义相同的像素点集,从而完成结构复杂图像的分割.经过实验证明,本文方法针对结构复杂的图像物体分割完整,细节分割精细.通过对比实验验证了该方法的有效性.  相似文献   

15.
为从知识库中检索相似工程更改案例,提出了一种聚合更改特征相似度计算工程更改相似度的方法.针对工程更改类别属于产品或零件外形更改的情况,提出更改特征概念,建立工程更改特征数据模型;分析工程变更影响与工程更改特征的关系,给出更改特征位于不同存在模式下的工程更改相似度计算公式;通过开发的原型系统,实例验证了该相似度计算方法的可行性.  相似文献   

16.
针对现有中文词汇语义倾向性计算方法存在较少考虑深层语义影响因素的问题,提出了一种利用词汇分布相似度的中文语义倾向性计算方法.该方法分2个步骤完成:①利用依存句法分析和统计工具获取词汇在语料库中的分布相似度,并综合知网(HowNet)和汉语连词特征信息优化语料库统计结果,计算中文词汇间的语义相似度;②采用无向带权图划分的聚类方法来实现中文词汇语义倾向推断.由于获取最优聚类结果是一个NP难问题,所以采用贪心算法求解近似最优值.通过在自建的语料库上进行测试,并与利用语料库统计信息、利用HowNet等2个词汇语义倾向性计算系统进行比较,结果是所提方法的准确率达到了80%,表明在提高中文词汇语义倾向性计算的准确性方面是可行、有效的.  相似文献   

17.
顾及到地理领域语义相似度计算模型考虑因素过于单一、主观性较强等问题,针对本体模型的结构特点,提出一种计算节点密度的新方法,并从模型概念间的关系类型、节点密度、节点深度等方面分析本体概念相似度的计算,将其归并为距离因素.基于本体层次网络结构计算语义信息量,该方法不依赖于专家经验,具有客观性.结合语义距离、信息量、属性等影响相似度的因素,提出一种计算概念问语义相似度的综合算法,该算法考虑到不同的影响因子在语义相似度计算中的重要程度不同,从而赋予地理本体关系不同的权值.通过对土地利用分类中实体的语义相似度进行实例验证,表明提出的算法能有效改善语义相似度计算的准确性和有效性,能够获得更符合认知的信息检索结果.  相似文献   

18.
基于知网语义相似度计算的特征降维方法研究   总被引:9,自引:1,他引:8  
针对文本分类处理中的高维度问题,结合知网语义词典,提出了一种新的特征降维处理方法.通过计算特征词汇之间的语义相似度,将原有特征集分成若干特征词集;同一词集内的特征词语义彼此间相似;而不同词集的特征词彼此间相似度比较小.将同一特征词集内的词汇权重相加,从而突出同义词以及近义词对文本分类的贡献,并可以大大降低文本比较的特征维数.实验结果表明,利用该方法在文本分类中得到了较好的分类准确率和分类性能.  相似文献   

19.
提出基于双语合成语义的翻译相似度模型, 通过在翻译过程中引入双语语义相似度特征提高翻译性能。首先利用分布式方法分别在源端和目标端获取短语的单语合成语义向量, 然后利用神经网络将它们映射到同一语义空间, 获得双语合成语义向量。在该语义空间, 计算源语言短语和对应的目标语言短语之间基于合成语义向量的翻译相似度, 将其作为一个新特征加入解码器。在汉英翻译NIST06和NIST08测试数据集上, 相较于基准系统, 基于双语合成语义的翻译相似度模型获得0.56和0.42 BLEU值的显著性提高。  相似文献   

20.
李仲生  王家琴 《科学技术与工程》2007,7(10):2396-23982411
针对本体对其上层概念进行了具体划分,单纯地计算概念间语义相似度不能满足实际应用需求的问题。提出一种基于本体底层概念间相似度计算上层概念间相似度的方法;该方法通过比较底层概念间相似度获得初始上层概念间相似度,然后结合影响概念间相似度的密度系数,完成上层概念间相似度计算。实验结果表明了该方法有效。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号