首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
由于用户查询信息不足而导致传统向量空间模型检索结果不够准确,针对此问题,提出了一种基于文档关系改进的向量空间模型.改进模型将初始检索结果中排名靠前的高相关文档组成基准集,通过计算初始检索结果集中每篇文档与基准集的相似度,来修正原模型中文档与查询的相似度,实现对检索结果的重排序,从而实现对向量空间模型的改进.实验结果表明:与传统向量空间模型相比,改进模型使得相关文档排名更合理,在保证召回率的条件下提高了准确率.  相似文献   

2.
面向个性化需求的用户建模技术研究   总被引:1,自引:0,他引:1  
从用户需求多样性和随机性出发探讨了用户建模技术。对模型表示和模型更新两项关键技术进行了研究。基于向量空间模型表示用户模型,采用重心向量分类算法建立用户模型。分析用户浏览行为隐性地获取反馈信息,计算文档反馈度,提出了一种基于Rocchio算法的周期性自适应学习机制更新用户模型。以用户满意度为评价指标,通过实验,验证了对用户需求变化的动态追踪能力。  相似文献   

3.
基于查询扩充机制的中文文本检索模型   总被引:3,自引:0,他引:3  
本文简要描述了文本检索的背景和文本检索的向量空间模型,提出了在查询扩充基础上的中文文本检索模型,其基本思想是首先将文本 查询均表示为向量空间中的向量。然后,将查询按照相上近的语义关系,进行概念扩充,形成扩充向量,以此来计算广西 与查询之间的相似程度,可以提高文本检索的效率,全面反映用户的信息需求。  相似文献   

4.
混合语义模型的产品知识文档检索   总被引:1,自引:0,他引:1  
为解决产品知识文档检索过程中遇到的问题,提出一种基于混合语义模型的检索方法.该方法将传统的用户查询需求扩展为用户偏好、语境和用户查询混合而成的语义集合,并对知识文档和用户需求进行基于本体的模糊概念表达.对于知识文档,选择领域本体的叶节点来构造文本概念向量,根据概念在本体图中的深度、携带的信息量,及出现在文档与语料库中的频度来计算权重.同样采用本体表达知识语境与查询语义,建立用户偏好模型.针对检索模型的不同组成,阐述了相应的相似度计算方法,采用概念的语义距离计算用户当前语境和文档语境之间的相似度,用余弦法计算查询语义、用户偏好与文档的相似度.最后用实验验证了该方法的检索效果优于传统的向量空间方法.  相似文献   

5.
介绍了向量空间模型中文档向量及查询向量的表示,以及索引同一文档矩阵的含义,在此基础上讨论了索引词权重的计算公式及选择方法(特征提取)。  相似文献   

6.
对缅甸文字进行文本挖掘,提出一种新的缅甸文字单字分割算法和词干提取算法.在向量空间模型下,使用Okapi相似度评测方法,评测缅甸文字文档与查询关键字之间的相关性,实现一个基于以上算法的缅甸文字文献检索系统.实验结果证明:所提出来的算法能够快速、有效地挖掘Web上的Html文档.  相似文献   

7.
基于离散核支持向量机的文本自动分类   总被引:1,自引:0,他引:1  
传统基于向量空间模型的文本分类方法需要对文档进行预处理,同时也会损失很多有用的信息.该文提出一种基于离散核支持向量机的文本分类方法,直接根据文档的字符序列构造离散核,用于支持向量机分类算法,比较文档之间的相似性,从而改善文本分类的效果.证明了离散核支持向量机方法的时间复杂度与文本的长度成O(n)关系.在Reuters-21578文档集上将离散核方法与多项式核、高斯核方法进行比较,实验结果表明该文所提方法在简化分类方法的同时也可以提高分类的精度.  相似文献   

8.
基于加权超球支持向量机算法的超文本分类研究   总被引:3,自引:0,他引:3  
为提高超文本分类算法的性能,降低算法的复杂度,提出一种适用于超文本分类的加权超球支持向量机算法.该算法综合文档内容信息和超链接信息作为文档特征向量,针对传统超球支持向量机算法在不同类别样本数目不均衡时训练分类错误倾向于样本数目小的类别的问题,利用加权因子补偿了类别差异对算法推广性能造成的不利影响.在基准数据集上的测试结果表明,该算法降低了二次规划的复杂度,提高了分类器的分类性能.  相似文献   

9.
信息检索向量空间模型中特征提取的研究   总被引:8,自引:0,他引:8  
介绍了向量空间模型中文档向量及查询向量的表示,以及索引词-文档矩阵的含义,在此基础上讨论了索引词权重的计算公式及选择方法(特征提取).  相似文献   

10.
基于向量空间模型(Vector Space Model,VSM)实现用户搜索结果的个性化排序,通过用户提供其感兴趣的文本集作为训练样本实现用户模型的初始化,并引入遗忘因子,结合机器学习的方法,通过用户后期的上网行为实现用户模型的动态更新,同时采用TF-IDF算法进行文本特征的提取,并针对文档模型与用户模型的统一提供了解决方案。  相似文献   

11.
在深入分析向量空间模型基础上,对其进行扩展,设计了一种隐含语义索引模型LSI,LSI通过奇异值分解,将词向量和文档向量投影到一个低维空间,消减了词和文档之间的语义模糊度。理论分析证明,隐含语义索引模型具有更准确的文档语义内容的表达能力,能够取得更好的检索效果。  相似文献   

12.
为了提升检索结果与用户个性化需求的符合程度,依托向量空间模型提出一种新的检索方法.将用户查询关键词和语料库内的文本信息都映射为向量,从而把检索过程转化为向量相似性的比对.在比对过程中,通过关键词权重突出用户个性化需求,通过余弦相似度判断符合程度.实验结果表明:文中方法的检索结果与用户需求的符合程度明显提高.  相似文献   

13.
H桥级联多电平逆变器调速系统中,由于电压矢量数目过多而带来参考矢量计算困难及电压矢量优化选择问题,在对多电平系统电压矢量的特点和规律进行深入分析的基础上,提出了一种新型的电压空间矢量控制算法。基于这种算法能够很容易确定参考电压矢量的位置和各矢量的作用时间,并且计算的复杂度不受逆变器电平数的影响,可以用在任何高电平级联型H桥逆变器中。通过五级H桥级联型逆变器驱动系统的仿真及实验验证了这种方法的有效性。  相似文献   

14.
在分析了传统向量空间检索模型的不足的基础上,给出了一种利用分解的向量空间模型进行Web新闻信息检索的方法.该方法没有使用传统向量空间模型中的单个向量,而是按照语义将特征词划分为4个组(人物,时间,地点,内容)并形成4个向量空间,每个空间进行独立的权重计算和相似度计算.而且将报道中的时间信息标准化,利用地理知识将报道中的地点特征词扩充,并利用这些信息进行检索.实验证明这些方法是有效的.  相似文献   

15.
基于词向量空间模型的中文文本分类方法   总被引:4,自引:0,他引:4  
大多文本分类方法是基于向量空间模型的,基于这一模型的文本向量维数较高,导致分类器效率难以提高。针对这一不足,该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表示成空间向量,通过训练得到词-类别支持度矩阵,根据待分文本的词和词-类别支持度矩阵计算文本与类别的相似度。实验证明,这一分类方法取得了较高的分类精度和分类效率。  相似文献   

16.
基于小波变换的矢量量化快速码字搜索算法   总被引:1,自引:1,他引:0  
针对矢量量化过程中编码的复杂性,提出了一种基于小波变换的自适应快速码字搜索算法.该算法使用欧几里德距离的平方作为量化的失真测度,首先为输入矢量选择合理的初始匹配码字,然后利用多控制点的三角不等式和变换域中矢量的性质去排除不可能匹配的码字,最后通过搜索空间的逐次降低找到与输入矢量最匹配的码矢量.仿真结果表明:在需要很少预先计算量和额外存储量的条件下,文中算法的编码质量和全搜索算法相同,但是其计算量却极大地降低.  相似文献   

17.
分类大规模数据的核向量机方法研究   总被引:1,自引:0,他引:1  
标准的支持向量机算法需要求解二次规划问题,因此,在处理大规模样本的时候,求解二次规划问题的时间复杂度和空间复杂度就成为支持向量机应用的一个瓶颈.核向量机将传统支持向量机中的二次规划问题转化为求解最小包围球问题,从而显著降低了二次规划的复杂程度.使用核向量机对大规模数据进行分类,所选用的数据样本数均超过2000,并与标准的支持向量机作了对比实验结果表明:核向量机在处理大规模数据分类时,比标准的支持向量机计算复杂度低,训练速度快,耗费空间少.  相似文献   

18.
信息熵与支持向量的关系   总被引:7,自引:1,他引:6  
标准支持向量机由于具有O(n~3)的时间复杂度和O(n~2)的空间复杂度,影响了其在海量数据集上的应用,而对支持向量机新模型的研究则最有可能取得一些突破,从而彻底解决上述难题。介绍新模型的研究现状的基础上将信息熵引入到支持向量机建模中,重点分析数据的信息熵分布规律和支持向量数据及其熵值的关系,进一步构造了信息熵支持向量机算法,最后给出了相关实验,初步的实验结果显示信息熵支持向量机具有较快的分类速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号