首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于词汇相关度模型的个性化信息检索算法   总被引:1,自引:1,他引:0  
使用词汇之间的"相关度"来存储单个用户的个性化信息,提出了能够在用户进行检索的过程中利用用户偏好自动建立针对该用户的"词汇相关度网"的方法,以及3种不同的利用词汇相关度对底层搜索引擎所返回的结果进行重新评估并进行个性化排序的策略.在此基础上,提出了基于词汇相关度模型的个性化信息检索算法.设计了原型系统,对算法的相关性能进行了测试,结果显示,所提出的词汇相关度模型能正确存储和构造词汇之间的相关度,所提出的检索算法正确.  相似文献   

2.
针对现存的语义主题爬虫没有考虑主题意义的延伸、页面与主题的相似度计算模型存在的缺陷及主题词项细化过于苛刻导致返回结果较少等不足,采用LDA(Latent Dirichlet Allocation)模型,对主题词项描述文档进行降维,改进语义相似度计算模型.引入语义信息的相似度计算模型(SVSM),用SVSM计算文档和主题模型的相似度.从本体中获取该主题词项的上位词,构建主题上位词的主题模型,爬虫依据现有网络中的主题重新获取主题相关信息,提出语义聚焦爬虫(ESVSM),通过不同主题下多个爬虫进行实验对比,发现所提出的基于主题建模和上位词替换的ESVSM算法在收获率、相关网页数量和网页平均相关度中均优于其他算法,平均抓取精度达到85%.  相似文献   

3.
元搜索引擎中基于用户兴趣的个性化调度模型   总被引:7,自引:0,他引:7  
元搜索引擎的调度策略是研究元搜索引擎如何为用户选择数量合适并贴近用户查询需求的成员引擎,以较小的资源耗费,帮助用户获得较高的查询质量.该文提出了基于兴趣分类采样的成员引擎特征表示的方法和基于用户兴趣的成员引擎个性化调度算法.调度算法根据用户的兴趣计算出各成员引擎与用户查询的相关度,为用户选择最具有潜在有用的多个成员引擎来为用户提供查询服务.实验表明,该模型提高了用户的检索效率和质量.  相似文献   

4.
一种面向域的高效倒排索引结构及实时更新   总被引:1,自引:1,他引:0  
倒排索引是搜索引擎的核心组成部分,对搜索的效率与质量有着较大的影响.在一些主题搜索引擎中,关键词被划分为多个域以提高检索质量,针对这种特点,本文提出了一种新的面向域的高效倒排索引结构,以及实时更新倒排索引的算法.实验结果表明,在每个域内索引词项个数接近词典大小的情况下,本文提出的倒排索引结构可以有效地提高搜索引擎的检索效率.  相似文献   

5.
基于本体语义的定题爬虫   总被引:3,自引:0,他引:3  
定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性.  相似文献   

6.
面向行业主题的搜索在特定主题信息覆盖方面与通用搜索引擎有着截然不同的要求,为解决行业信息搜索的问题对基于向量空间算法的化工相关度计算以及对经典的Page-Rank页面排序算法做了研究与改进并且在Nutch搜索引擎架构基础上,搭建了一个面向化工行业信息资源的垂直搜索引擎。相对于通用搜索引擎来说剔除掉了不必要的搜索结果信息量,提升了系统速度,提高了行业信息搜索的准确度。  相似文献   

7.
目前,Fisher Score模型在处理多标记数据时没有考虑样本和整个特征空间之间以及特征和标记之间的关系.提出一种基于互信息的Fisher Score多标记特征选择方法 .首先,在多标记决策系统中考虑整个样本空间对特征选择的影响,根据异类样本与同类样本之间的欧式距离定义权重公式,并在特征空间下对标记赋予权重衡量标记的重要程度.然后,基于互信息理论定义特征与每个标记之间的互信息来计算每个特征和每个标记之间的相关度,将特征与标记之间的相关度与该标记所占的权重相结合来定义特征和标记集之间的总相关度.将Fisher得分与总相关度结合,定义每个特征的新的Fisher得分,进而构建多标记Fisher Score模型.最后,设计了一种基于互信息的Fisher Score多标记特征选择算法.在六个多标记数据集上的实验证明,提出的算法与其他算法相比,其四种评价指标都表现良好,分类性能出色.  相似文献   

8.
本文以开源的Lucene全文检索工具为基础,设计了一个考试信息类的垂直搜索引擎.并对Lucene工具包中的检索模块做了改进,增加了网页重要性因素,主题相关度因素和用户兴趣因素.实验结果表明改进的检索算法能较大的提高系统的搜索效率,提高了用户体验.  相似文献   

9.
针对如何快速有效地搜索用户所需要的Web资源问题,在介绍HITS算法的基础上,分析其产生主题漂移的原因,并结合内容相关度策略,提出一种新的CSHITS搜索算法,该算法通过克隆、变异和交叉操作获取具有相关度高的Web页面.实验结果表明,CSHITS算法挖掘了超链接间的潜在语义关系,能有效地引导主题挖掘.  相似文献   

10.
基于链接文本相关度的超链接算法   总被引:1,自引:0,他引:1  
分析了超链接PageRank算法的不足.采用矢量空间模型计算检索关键词与超链接文本之间的相关度,提出了基于超链接文本相关度的超链接算法.实验结果表明,该算法可以提高PageRank算法的检索精确度.  相似文献   

11.
为了正确理解检索意图和客观表达用户的主观信息,结合CRF模型较高的语义区分率和歧义消解率等特点,对用户文本检索需求信息进行区分,同时选择关键词的上下文信息作为特征获取更丰富的信息,提出一种基于条件随机场(conditional random field,CRF)模型的文本检索需求信息划分算法(CRF_Q),从而清晰地划分两个连续检索词间的边界.在锚文本相似度和检索词相似度两个属性相组合的实验结果中,决策树模型和CRF_Q算法最优,且CRF_Q算法的综合评价指标较决策树模型高4.4%.  相似文献   

12.
13.
基于先验知识的三维模型特征选择算法   总被引:1,自引:0,他引:1  
基于内容的三维模型检索被广泛运用于许多研究领域.为了弥补特征提取算法描述模型特征的不足,提高三维模型的检索效果,该文提出了一种基于先验知识的三维模型特征向量动态选择算法.该算法利用查询模型计算各种特征向量的先验知识,然后动态地选择描述能力较强的特征向量计算模型之间的相似度距离.实验采用标准的模型库Princeton shape benchmark(PSB)和多种公认的评价方法,结果显示该算法提高了三维模型的检索效果,优于现有的2种流行的三维模型特征选择算法.  相似文献   

14.
针对传统文本特征选择算法没有考虑特征的语义及特征与类别之间关系的问题,提出了一种结合语义和分类贡献的特征选择算法.利用LDA主题模型获取文本和词的表示,通过计算词与文本之间的语义相似度,获取词对文本的重要性.再利用Word2vec词向量模型获取文本类别特征,通过计算文本中的词与文本类别特征之间的语义相似度,获取词对类别的重要性,最后结合词对文本的重要性和词对类别的重要性选择分类贡献度高的词作为最终的分类特征.实验表明,该算法能够有效地降低文本特征数量,减少分类计算开销,降低噪声对分类的影响,提升分类效果.  相似文献   

15.
基于逻辑回归的中文在线评论有效性检测模型   总被引:1,自引:0,他引:1  
为了实现电子商务和社交网络中文在线评论有效性的自动化检测,提出了一种单一主题环境下基于逻辑回归的垃圾评论检测模型.中文在线评论有效性的检测可以归结为分类问题,结合中文在线评论的特点提取了9个特征以构建分类模型;为获取核心特征主题的相关度,采用基于关联规则的评论名词模式优化了ICTCLAS中文分词系统的主题识别,进而利用交叉语言模型获取在线评论主题相关度.实验中采取了人为标定的1 000条评论作为样本,把支持向量机分类模型作为对比进行试验,利用数据挖掘工具Weka进行计算.结果表明,采用优化评论名词模式下基于逻辑回归的垃圾评论检测模型结果的准确率达到83.54%,比支持向量机分类模型计算得到的准确率高2.10%.  相似文献   

16.
为能在搜索引擎返回的结果集上构建贴近用户意图的主题层,并在文档词与主题间建立映射,将社会化标注引入经典的LDA模型,构建一种基于主题-标签-文档词之间关系的三层主题模型,并将其用于伪相关反馈查询扩展词的选取.实验结果表明,该模型提取的查询扩展词能描述标签的语义,模型用于伪相关反馈后,提取的扩展词能覆盖查询条件,在多数情况下结果列表的NDCG值高于基本伪相关反馈和结果集聚类方法.  相似文献   

17.
联邦学习是一种可用于解决数据孤岛问题的分布式机器学习框架。在联邦学习过程中,客户端选择方案会对收敛速度和全局模型的精度产生重要影响。然而,现有的多数方案通常忽略客户端之间的资源异构和随时间不断变化的信道条件,使联邦学习算法最终性能较低。针对该问题,提出了一种基于Lyapunov优化的联邦学习客户端选择算法(Federated learning client selection based on Lyapunov optimization, FedLcs)。算法设计了一种基于客户端信道条件、资源状态和对全局模型的贡献度的选择权重方法,并将客户端选择过程建模为一个Lyapunov优化问题,在不延长运行时间的同时,优化联邦学习全局模型精度。仿真实验表明,与其他2种客户端选择算法相比,所提算法能够适应不断变化的网络环境,显著提高模型准确率,加快收敛速度并使收敛过程更稳定。  相似文献   

18.
分析了搜索引擎的检索效率和检索质量,指出目前影响搜索引擎检索效率和检索质量的主要因素是检出信息相关度低、信息重复出现率高等问题,提出了提高检出信息相关度、降低检出信息重复出现的方法。  相似文献   

19.
当前搜索引擎用户个性化的研究是搜索引擎优化的一个研究分支.当前检索模型的主要弊端就是搜索引擎用户提供的信息很少.目前主要借助于用户在和元搜索引擎交互的过程中提供的隐反馈信息对成员搜索引擎的数据源选择算法进行优化,利用语言模型对用户检索行为建模,用户与元搜索引擎交互的过程中动态更新用户行为模型,自适应的满足不同检索动机的用户的信息需求.  相似文献   

20.
徐婕 《科学技术与工程》2011,(28):6879-6882
针对用户在社交网络中面对海量的信息和资源,如何实时地获取自己感兴趣的内容,给出一种基于社交网络的实时搜索模型,并根据社交网络的特点考虑对朋友、时间、相关度等因子对搜索结果进行排序。针对基于超链接网页排名的Pager-ank算法,提出了一种基于用户朋友数的Pagerank排序算法。实测结果表明,该模型提高了搜索结果的实时性和相关度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号