首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 421 毫秒
1.
词汇相似度是信息检索、机器翻译、自动文摘、自动问答等应用研究的基础,它是自然语言处理领域中的重要研究课题。本论述研究潜在语义分析(Latent Semantic Analysis,LSA)在词汇相似度中的应用。  相似文献   

2.
自动文摘的目的是借由计算机技术自动从原始文献中提取文摘,针对这一问题,提出了一种新的基于潜在语义分析(Latent Semantic Analysis,LSA)的中文自动摘要方法,该方法利用奇异值分解(Singular Value Decomposition,SVD)来获得文章的语义结构,以句子和全文的相似度为依据抽取一组句子作为文章的摘要,提升了自动摘要的效率和精度,并重点介绍了该方法的基本思想、特点以及实现方法。实验结果表明,该方法在实践中取得了预期的效果。  相似文献   

3.
针对文本表示模型中语义信息提取不充分的问题,提出基于点互信息的CLSVSM (Co-occurrence Latent Semantic Vector Space Model)和语义增强的CLSVSM.首先利用点互信息计算关键词间的语义相似性,建立基于点互信息的CLSVSM;其次,通过潜在语义分析对关键词权重的修正,构...  相似文献   

4.
基于非负矩阵分解的隐含语义图像检索   总被引:1,自引:0,他引:1  
提出了一种基于非负矩阵分解(Non-negative Matrix Factorization,NMF)的隐含语义索引(Latent Semantic Indexing,LSI)模型用于图像检索.应用NMF训练算法构造了一个语义空间,将查询图像和原型图像都投影到该空间以获得语义特征,在此空间中进行相似性的度量并将距离最近的图像返回给用户.与已有两种检索模型的实验结果对比表明,所提出模型是有效的.  相似文献   

5.
信息主题的抽取是快速定位用户需求的基础任务,主题词抽取时主要存在三个问题:一是词语权重的计算,二是词语间关系的度量,三是数据维度灾难.在计算词权重时首先利用互信息确定共现词对,与词频、词性、词位置信息非线性组合,然后,根据词权重构建文档—共现词矩阵并建立潜在语义分析(Latent Semantic Analysis,LSA)模型.该方法借助LSA模型的奇异值分解(Singular Value Decomposition,SVD)将文档—共现词矩阵映射到潜在语义空间,不仅实现数据降维,而且获得低维度的文档相似矩阵.最后,对文档相似矩阵进行k-means聚类,在同类文档中选出词权重最大的前几对共现词,作为该类文章的主题词.对比基于TF-IDF(Term Frequency-Inverse Document Frequency)和共现词抽取主题词的实验,该算法的准确度分别提高了19%和10%.  相似文献   

6.
语义关联度计算是数据科学中的一个关键性基础问题,在信息检索及自然语言处理等方面有着广泛的应用.针对ESA (Explicit Semantic Analysis)算法存在的局限性,提出一种显式语义特征选择算法,并构建低维语义空间.在此基础上,根据特征概念在Wikipedia中的映射信息,提出一种低维显式语义空间下的语义关联度计算方法.该方法解决了ESA算法在后续语义关联度计算过程中,因高维稀疏空间导致计算效果不够准确的问题.实验结果表明,与当前其他方法相比,该方法的计算结果在皮尔逊相关系数(P)及斯皮尔曼相关系数(S)上与人们的认知判断之间具有更好的一致性.  相似文献   

7.
多标签算法大多利用特征与标签嵌入等方法挖掘标签空间的语义信息,但这类方法没有利用特征与标签间可能存在的某种联系.类属属性的提出较好地诠释了特征与标签的联系,即标签可能对应一组自身的特征,然而这类方法未能给出特征与标签间可能存在的逻辑关系,也未证实标签与实例间可能存在同样的逻辑关系.因此,提出基于PLSA(Probabilistic Latent Semantic Analysis)学习概率分布语义信息的新型多标签分类算法.首先认为样本矩阵存在一种隐含变量作为标签,利用PLSA模型获取特征-标签与标签-实例条件概率分布矩阵,以条件概率分布的形式解释它们之间可能存在的联系;其次,建立模型学习概率分布矩阵中存在的语义信息,并应用于多标签算法的标签预测与分类;最后在13个公开的多标签文本类型的数据集上进行实验与统计假设检验,并与其他多标签分类算法对比.实验结果表明,提出的学习概率分布语义信息用于提高多标签算法的性能存在一定的合理性.  相似文献   

8.
现今社交媒体是建立社交联系的重要媒介,好友推荐对于扩展人们的关系网络起到至关重要的作用,准确的用户特征提取和分析是社交网络中好友推荐的关键.传统的好友推荐方法一般都是根据部分用户属性信息或行为信息进行推荐,所以对用户特征的描述不完整,推荐的效率和准确率远非预期.提出基于用户语义行为和社交关联的推荐模型应用于社交媒体平台上的好友推荐.为了获得准确的预测,使用LDA(Latent Dirichlet Allocation)对语义信息进行主题建模,得到基于主题的用户语义行为特征表达;使用DeepWalk算法对用户社交关联网络图进行特征提取,得到准确的社交关联特征表达;使用反向传播神经网络来预测用户潜在的社交关联,为用户精准推荐好友.该模型实现了利用用户语义行为和社交关联预测用户潜在的社交关联,可以根据潜在社交关联进行精准的好友推荐.  相似文献   

9.
为了提高文本标记和分类的效率,提出了基于概念语义相关性和LDA的文本自动标记算法(Text Mark Label,TML),用以代替人工标记的文本分类标记. 该算法在概念语义相关性计算的基础上,使用LDA(Latent Dirichlet Allocation)提取文本的主题表示,通过计算文本主题从属于各分类目录的期望从而实现文本自动标记. 为验证TML算法的效果,在标准文本分类数据集上使用文本分类器进行有监督文本分类实验. 为对比数据集和分类器对分类效果的影响,在3个数据集(WebKB、Reuters-21578、20-NewsGroup)上分别使用3种不同的分类器(Rocchio、KNN、SVM)进行实验. 实验结果表明:TML算法有效地提高了文本分类效率及文本标记效率.  相似文献   

10.
研究了具有高频谱效率的双多进制正交扩频调制系统,提出了差分解调输出比特信息的后验概率(APP)算法,该算法能使整个系统获得相当的增益.为了降低运算的复杂度给出了简化算法,并讨论了简化算法的优化策略.在加性高斯白噪声(AWGN)和多径Rayleigh衰落信道下进行的仿真结果表明,所提算法是有效的,采用优化的简化算法性能可以进一步逼近APP算法.  相似文献   

11.
为了使个性化虚拟人更加形象生动,能根据用户输入的文本做出表情动作,运用自然语言处理技术对中文和英文文本进行语义和分类处理,分析出动作和情感信息。采用潜在语义方法从文本中提取出动作语义信息,利用hownet计算词汇相似度,使用K最近邻方法将文本情感信息分为6类:愤怒、厌恶、恐惧、喜悦、悲伤和惊讶。实验结果为:语料文本分类准确率为87.5%,系统能从用户输入的文本中提取出情感、动作信息,使虚拟人做出相应表情变化。  相似文献   

12.
基于概率潜在语义分析的中文文本分类研究   总被引:1,自引:0,他引:1  
概率潜在语义模型使用统计的方法描述"文档—潜在语义—词"之间的概率分布关系,其实质是模拟了潜在的概率语义空间,并将文档和词映射到同一个语义空间.该文将概率潜在语义分析模型用于中文文本分类,一方面较好地处理了自然语言中的同义、多义问题;另一方面通过计算概率潜在语义空间中向量的距离来获得文档间的类别信息从而达到文本分类的目的.实验结果表明,该分类器具有良好的分类性能.  相似文献   

13.
首先针对在文本处理的高维矢量环境中Kohonen自组织映射神经网络的计算瓶颈问题和输入矢量空间中存在的问题进行分析,然后对随机映射(RM)和隐含语义索引(LSI)方法分别进行理论分析,提出用于文本处理的基于随机映射的加速LSI方法.试验结果表明,加速LSI方法可以在凸现原有语义联系的基础上,低代价、有效、可控地解决上述问题,极大地降低文本处理环境中Kohonen自组织神经网络的规模和计算代价.  相似文献   

14.
针对医学文本缺乏可量化数据结构,基于关键词模型的文本处理方法不适用的问题,在研究词之间潜在语义关联和关键词树结构的基础上,构造了一种基于潜在语义树的语义分析模型用于医学文本的数据挖掘。进一步地将隐含主题与潜在语义的研究相关联,设计出一种基于潜在狄利克雷分配和潜在语义树模型的文本处理方法,可针对不同类型的医学文本生成有一定可读性的自动批注。该方法形成的自动批注主观性低,其准确度和可读性均高于关键词模型的处理结果,可辅助医生进行医学文本的批注和分类,从而减轻其工作量。程序结果表明,该方法目前可应用于对医学图像所见形成诊断意见、对病人病历进行摘要形成和对病症描述给出对症处方等方面,批注的语义匹配度可达67.7%,文本的平均可读性为60.02%。  相似文献   

15.
针对重复缺陷报告检测研究中存在语义长距离依赖以及缺陷报告特征的单一性问题,提出一种强化文本关联语义和多特征提取的重复缺陷报告检测模型。引入自注意力机制捕获缺陷报告文本序列内部的语义关联性,从而动态计算上下文语义向量进行语义分析,解决长距离依赖问题;利用隐含狄利克雷分布算法捕获缺陷报告文本的主题特征,同时针对缺陷报告的类别信息,构建一种特征提取网络计算类别差异特征;最后基于3类特征向量进行综合检测。实验结果表明,该模型实现了更优的检测性能。  相似文献   

16.
为解决基于非结构化文本的中文领域本体概念提取效率和准确率不理想的问题, 提出了一种基于关联规则和语义规则的领域本体概念提取方法。利用领域一致性和相关性检查以及关联规则分别获取候选概念和关系集合, 计算候选概念在领域术语关系中的深度和广度, 利用深度和广度信息反馈概念隶属度的思想, 定量分析术语与领域的隶属程度, 进行本体概念的领域隶属度检查, 完成领域本体概念的提取。实验结果表明, 该方法提高了领域本体概念的提取效率和准确率, 具有可行性和合理性, 领域本体概念的提取准确率提高了12%左右。  相似文献   

17.
针对传统的向量空间模型在文本聚类中的局限性,提出了基于潜在语义分析模型的中文文本聚类系统,并引入WinSTAR作为聚类分析工具,用一个中文文本集作为实例进行验证。实验证明,该方法切实有效,可以提高文本聚类的准确度。  相似文献   

18.
笔者在本文中就语篇教学模式在大学英语精读课中的作用进行了探讨,并分析了语篇教学的特点:不仅把课文看作语言知识的载体,更将其视为信息的载体。它把语言知识集合性综合地输送给学生,使其产生连锁反应,从而缩短了学生从学习到实践的距离。从培养他们的阅读能力入手,全面提高他们的交际能力。笔者认为这种教学模式应该是大学英语精读教学的方向。  相似文献   

19.
基于回归分析与时序分析降水预报迭合模型的构建与实现   总被引:1,自引:0,他引:1  
通过对大气降水序列确定性成分和随机性成分特征的分析,给出一种基于回归分析与时序分析降水预报迭合模型的构建方法.在分离和构造逐月降水序列趋势项、周期项和随机性项的基础上,给出基于Fortran和MATLAB的程序实现思路.最后给合实例验证了该方法的实用性和可行性.  相似文献   

20.
提出了一种自适应于不同题材文本自动确定其包含的潜在主题数K的方法.考虑到大多数文本的潜在主题分布符合段落密度特性,提出以段落为中心的研究策略,通过采用基于K均值的聚类算法联同自定义判别函数的聚类分析方法,实现了段落自适应聚类下的文本潜在主题的自动发现.实验结果表明,该方法在一定程度上能有效处理普遍存在的文风自由且主题表达灵活多样的各式文本.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号