首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 179 毫秒
1.
语句相似度计算在自然语言处理领域是一项非常重要的实用技术,基于马尔科夫模型的汉语语句相似度计算方法通过对语句进行分词处理、构建特征词向量以及权重值向量的方式实现了语句相似度计算.该方法以关系向量模型为基础,通过深入研究汉语语句的特征,利用前后相邻词的共现对权重值向量进行加权处理,以调整不同特征词的权重.方法重点考虑了关键词词形的相似度,结合了句长、词序等表面信息的相似度,并考虑了同义词的情况.最后采用两种不同的方案与关系向量模型进行了对比实验,结果表明方法可以更好的处理长度差很大的两个语句的相似度计算问题,尤其在检索相关新闻标题时准确率较高.  相似文献   

2.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

3.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

4.
提出一种基于模型匹配的深网(Deep Web)在线专业数据库查询接口特征抽取方法, 该方法通过分析网页结构中特征词的深度自动抽取查询接口特征向量, 同时考虑频度和集中度两种因素定义特征词向量空间中的权值, 并在传统向量模型的基础上加入特征词个数作为一个新的分量, 构建一个数据库查询接口, 使用模型匹配的分类方法对其进行分类. 实验验证了该方法的有效性.  相似文献   

5.
由于用户查询信息不足而导致传统向量空间模型检索结果不够准确,针对此问题,提出了一种基于文档关系改进的向量空间模型.改进模型将初始检索结果中排名靠前的高相关文档组成基准集,通过计算初始检索结果集中每篇文档与基准集的相似度,来修正原模型中文档与查询的相似度,实现对检索结果的重排序,从而实现对向量空间模型的改进.实验结果表明:与传统向量空间模型相比,改进模型使得相关文档排名更合理,在保证召回率的条件下提高了准确率.  相似文献   

6.
由于现有的经典本体映射方法以及相似度计算方法无法处理模糊信息,因此它们都无法计算模糊概念之间的相似度.为此,提出了一种新的基于向量空间模型的模糊概念相似度计算方法SimFC-VSM(similarityoffuzzyconceptbasedonvectorspacemodel).SimFC-VSM方法首先利用模糊本体中的模糊关系构建向量空间模型;然后将模糊概念表示成此向量空间模型中的向量;最后通过向量运算的方法来计算模糊概念之间的相似度.因此,所提出的方法SimFC-VSM可以有效地利用向量空间模型来计算模糊概念之间的相似度.  相似文献   

7.
为解决传统模型表示出的词向量存在序列、上下文、语法、语义以及深层次的信息表示不明的情况,提出一种基于预训练模型(Roberta)融合深层特征词向量的深度神经网络模型,处理中文文本分类的问题。通过Roberta模型生成含有上下文语义、语法信息的句子向量和含有句子结构特征的词向量,使用DPCNN模型和改进门控模型(RGRU)对词向量进行特征提取和融合,得到含有深层结构和局部信息的特征词向量,将句子向量与特征词向量融合在一起得到新向量。最后,新向量经过softmax激活层后,输出结果。在实验结果中,以F1值、准确率、召回率为评价标准,在THUCNews长文本中,这些指标分别达到了98.41%,98.44%,98.41%。同时,该模型在短文本分类中也取得了很好的成绩。  相似文献   

8.
混合语义模型的产品知识文档检索   总被引:1,自引:0,他引:1  
为解决产品知识文档检索过程中遇到的问题,提出一种基于混合语义模型的检索方法.该方法将传统的用户查询需求扩展为用户偏好、语境和用户查询混合而成的语义集合,并对知识文档和用户需求进行基于本体的模糊概念表达.对于知识文档,选择领域本体的叶节点来构造文本概念向量,根据概念在本体图中的深度、携带的信息量,及出现在文档与语料库中的频度来计算权重.同样采用本体表达知识语境与查询语义,建立用户偏好模型.针对检索模型的不同组成,阐述了相应的相似度计算方法,采用概念的语义距离计算用户当前语境和文档语境之间的相似度,用余弦法计算查询语义、用户偏好与文档的相似度.最后用实验验证了该方法的检索效果优于传统的向量空间方法.  相似文献   

9.
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Movers Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。  相似文献   

10.
目的针对当前常用的汉语句子相似度计算方法存在的问题,结合语言习得特点,提出了一种基于动态特征词的中文句子相似度计算方法。方法首先以特征词作为语块切分边界,提取左右语块信息,采用语义向量空间模型;然后计算2个句子对应的左右组块的相似度;最终将各组块的相似度量值加权求和作为2个句子的相似度。结果实验表明,提出的方法计算结果较为理想,与人工判断的相似度较为一致。结论基于动态特征词的中文句子相似度计算方法在常用句式中具有更好的效果。  相似文献   

11.
在深入分析向量空间模型基础上,对其进行扩展,设计了一种隐含语义索引模型LSI,LSI通过奇异值分解,将词向量和文档向量投影到一个低维空间,消减了词和文档之间的语义模糊度。理论分析证明,隐含语义索引模型具有更准确的文档语义内容的表达能力,能够取得更好的检索效果。  相似文献   

12.
基于本体的信息检索模型研究   总被引:23,自引:2,他引:23  
在传统的信息检索模型中,由于档逻辑视图和用户信息需求逻辑视图不能有效地代表档和用户信息需求,所以尽管根据逻辑视图的特点选取了合适的排序函数,但检索性能总是不能令人满意.提出基于本体的信息检索模型,使用较好的兼顾了知识表达能力和推理效率的描述逻辑来构建本体,利用tableau算法和只含有原子角色情况下个体间的等价关系分别生成概念集和个体集的商集,从而得到具有语义的索引项集合,利用这些具有语义的索引项来生成较好地反映档和用户信息需求语义的档逻辑视图和用户信息需求逻辑视图;由于逻辑视图能够有效地代表档和用户信息需求,再根据逻辑视图的特点选取合适的排序函数,从而可以使检索性能大大提高.  相似文献   

13.
基于空间短文本对象的检索策略   总被引:1,自引:0,他引:1  
针对传统空间文本检索策略中的效率和有效性问题, 对如何从给定的空间文本对象集合中快速有效地检索出top-k个近似结果进行研究。基于一个空间检索的通用框架, 提出一种基于空间文本对象的快速策略, 用于满足用户对效率与有效性的要求。实验结果证明该策略优于现有方法。  相似文献   

14.
图象数据模型研究   总被引:1,自引:0,他引:1  
数据模型研究是设计按内容检索的图象数据库系统的基础.本文根据图象信息系统的特点,将面向对象模型与超语义模型有机结合,提出了一种新的图象数据模型及相应的说明语言.该模型以紧耦合方式融合了语义数据模型和知识模型的特点,并增加了表示图象对象间空间关系的机制,使得该模型可以更好地描述图象信息系统中的图象数据、领域知识以及空间关系语义.  相似文献   

15.
基于视觉语义与RSSVM的图像检索   总被引:1,自引:1,他引:0  
以图像的视觉语义为基础,设计了一种新的空间转换模型,提出了一种新的图像语义描述方法.首先,采用NCut方法对图像进行分割,提取每个区域的颜色、纹理与形状等视觉特征;再用K-Means聚类方法对训练集中所有的视觉特征进行聚类,称聚类中心为视觉语义(Visual Semantic,VS),用来构造投影空间;然后通过所定义的非线性函数,将每幅图像向投影空间作映射,得到图像的投影特征;最后,为了提高分类器的训练效率与性能,先采用RS(粗糙集)方法对投影特征进行属性约简,再用支持向量机(SVM)进行学习和分类.基于Corel图像集的对比实验结果表明,该方法性能受聚类数的影响不大,鲁棒性强,且性能优于其它方法.  相似文献   

16.
基于"维量"思想的人工情感模型   总被引:1,自引:0,他引:1  
借鉴心理学中情感的“维量”分析思想 ,论文提出人工情感模型。该模型的处理对象是人们用来表达情感的形容词 ,如“美丽的” .采用语义量化实验和因子分析的方法建立情感空间 ,并分析情感空间的相似性度量方式 ;抽取图像的感性特征建立特征空间 ,采用支持向量机算法将图像从特征空间映射到情感空间 ,在情感空间内实现图像的情感检索 ,取得了较好地实验结果  相似文献   

17.
空间信息表示是增强图像特征表达性能的重要手段,通过空间关系建模与深度学习方法融合可有效提升深度特征的语义特性,从而提升图像检索性能.首先,针对复杂图像的空间关系表示提出了一种新的精细拓扑结构表示模型,该模型不仅具有完备的拓扑描述性能,还提供了两种拓扑不变量的推理算法,使得拓扑不变量可以由表示模型直接推导而不需要繁复的几何计算;其次,基于精细拓扑结构表示模型,提出了有效的拓扑结构相似性度量方法,为空间关系特征表达奠定了基础;最后,进一步结合卷积神经网络,提出融合复杂空间关系特征与深度特征的多目标图像检索方法.实验结果表明,所提出的拓扑结构表示模型在空间查询中具有良好的性能;所提出的图像检索框架取得优于现有方法的精度,并能够有效地结合手工特征与深度特征各自的优势,为提升深度学习方法的可解释性创造了有利条件.  相似文献   

18.
文本观点检索旨在检索出与查询主题相关并且表达用户对主题观点的文档。由于用户查询时输入通常很短,难以准确表示查询的信息需求。知识图谱是结构化的语义知识库,通过知识图谱中的知识有助于理解用户的信息需求。因此,提出了一种基于知识图谱的文本观点检索方法。首先由知识图谱获取候选查询扩展词,并计算每个候选词扩展词分布、共现频率、邻近关系、文档集频率,然后利用4类特征通过SVM分类得到扩展词,最后利用扩展词对产生式观点检索模型进行扩展,实现对查询的观点检索。实验表明,在微博和推特两个数据集上,与基准工作对比,所提出的方法在MAP、NDCG等评价指标上均有显著的提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号