首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
HITS是Web结构挖掘代表算法之一.HITS算法仅考虑页面之间的链接关系,容易出现主题偏移现象.文中分析了用户历史行为与兴趣之间的关系,从四个方面近似计算用户兴趣度.提出了基于用户兴趣度的改进HITS算法(HC-HITS),对比实验结果表明HC-HITS算法减少了主题漂移现象,取得较好的效果.  相似文献   

2.
针对如何快速有效地搜索用户所需要的Web资源问题,在介绍HITS算法的基础上,分析其产生主题漂移的原因,并结合内容相关度策略,提出一种新的CSHITS搜索算法,该算法通过克隆、变异和交叉操作获取具有相关度高的Web页面.实验结果表明,CSHITS算法挖掘了超链接间的潜在语义关系,能有效地引导主题挖掘.  相似文献   

3.
提出了一种用于处理Web页面上的用户交互表格的元数据模型:模板模型.模板模型可以支持用户交互表格的集合语义,而且可以维护其层次结构.这种模型可能重用网页中的部分组件从而更容易的生成和维护网站页面中的大量用户交互表格.模板模型还可以帮助实现对于交互表格的查询.  相似文献   

4.
目前互联网技术的研究热点是智能化的、个性化的服务,而传统的Web搜索排序算法和已有的个性化排序已经不能满足政府、企业等用户的信息查询需要.本文将研究核心定位到充分理解用户查询偏好上,提出了基于用户偏好的PageRank算法.文中利用用户互反馈技术修正查询关键词,利用语义相关性技术分析用户查询意图,理解用户偏好.改进的算法完善了搜索查询的可靠性依据,能够较好地挖掘用户的偏好主题,贴近用户的查询目的,提高搜索查询效率和用户满意度.  相似文献   

5.
现有的查询结果多样化研究很难准确得到用户多样性需求并提供与用户查询各个方面需求相关的文档。针对这个问题,本文基于HITS算法的网页间链接分析特性,根据网页链接图直接计算查询结果列表中的文档可能满足用户多样性需求的程度,并将其应用到结果列表的重排序中以实现搜索结果多样性。在TREC大规模数据集合上的实验结果表明了该方法的有效性。  相似文献   

6.
HITS是一种经典的Web链接分析算法,其主要问题是容易发生主题漂移和互相加强.针对这些问题,提出了一种改进的算法T-HITS.通过一种网络结构图来映射垃圾链接集与其对应的网站,并结合链接文本将垃圾链接排除,最后利用可信度模型来修正结果,实验数据表明改进后的算法提高了查询结果的相关度,减少了主题漂移的发生.  相似文献   

7.
对万维网上同一主题下的大量网页之间进行特定语义关系的分析,并将其应用于搜索引擎中,可以实现智能化的查询和提供其他个性化服务.本研究借助于Ontology中的关系实例,在网页分类的基础上对网页之间的关系进行自动识别,同时提出了网页关系识别规则的自动生成和优化方法.将网页关系识剐过程应用于Dolphin系统中,使用户能够在系统的指导下,快速地定位到与起始页面有一定语义关系的其他类型页面中,大大节省了浏览和寻找的开销.  相似文献   

8.
一个语义Web系统的设计与实现   总被引:6,自引:0,他引:6  
设计一个面向企业门户网站的语义Web体系结构,提出页面代理的概念及其作用与功能结构,并在同构环境下实现了页面代理.设计了语义Web查询语言CDQL,该语言在跨信息源查询、约束表示等方面扩充了DQL查询语言.整个语义Web体系结构可以用于构建能自动解答用户或用户代理提问的企业网站系统.  相似文献   

9.
针对传统通用网络信息采集系统自身固有的缺陷,根据语义分析的相关理论,本文提出了基于语义的网络爬虫的相关模型,该模型构建知识概念集合,并对其进行关键字切割与划分,生成能表达主题的主题关键词集合。结合中国《知网》的相关理论与技术,对传统抓取的网页在语义的角度进行分析,对已抓取的网页页面内容及其中链接的扩展元数据等相关信息进行分词及语法语义等相关处理,获取网页内容关键词集合及超链接的关键词集合,然后分别对获取的网页内容关键词与链接关键词进行与主体关键词集合采用语义分析算法进行语义相关性的判定,保存需要的网页,并预测及提取与主题相关的URL,从而提高网络资源信息采集相关率。  相似文献   

10.
用户查询与文档之间语义匹配但词法不匹配现象是影响信息检索效果的重要原因之一.鉴于语义检索受限于本体自身的质量,为了降低其对检索效果的影响,通过分析目前语义查询扩展的研究现状,在已有概念相似度计算算法研究基础上进行改进和融合,提出了一种基于本体的信息检索查询扩展方法,并主要对基于本体技术的概念相似度计算算法进行修正,得到了组合向量空间模型QCR(Q,Ci)=∑k=1.….K wk*Sim_Rel(qK,Ci),作为引入查询扩展后的查询结果相关度评价方法.这种方法中,通过建立本体模型并计算本体中概念间的语义相似度来确定扩展查询词,它可以根据用户输入的名称,检索出相关文档并由用户自由设置相似度阈值,并将普通主题检索与语义检索合并,在本体乏力时返回普通检索结果,这在一定程度上弥补了垂直检索系统发展的不足.  相似文献   

11.
The procedure of hypertext induced topic search based on a semantic relation model is analyzed, and the reason for the topic drift of HITS algorithm was found to prove that Web pages are projected to a wrong latent semantic basis. A new concept-generalized similarity is introduced and, based on this, a new topic distillation algorithm GSTDA(generalized similarity based topic distillation algorithm) was presented to improve the quality of topic distillation. GSTDA was applied not only to avoid the topic drift, but also to explore relative topics to user query. The experimental results on 10 queries show that GSTDA reduces topic drift rate by 10% to 58% compared to that of HITS(hypertext induced topic search) algorithm, and discovers several relative topics to queries that have multiple meanings.  相似文献   

12.
在P2P网络结构中,提出一种基于主题划分的搜索策略(TONS),该策略基于主题将网络中的节点层次化、形成叠加网络.具体查询算法包括基于DHT的非结构化P2P网络和基于主题划分的叠加网络搜索索引结构.实验结果表明:包含相似主题的节点联系在一起,这样就能够确保将搜索局限在仅与查询主题相关的节点子集中.该策略为基于分布式哈希表的P2P系统提供了一种可满足复杂查询条件、部分匹配搜索数据要求的有效途径.  相似文献   

13.
针对传统网页排序算法PageRank和HITS中存在的主题漂移、检索效率低等不足,本文提出了一种改进算法PHIA(PageRank and HITS Improved Algorithm)。该算法继承了HITS算法获取根集和基本集的方法,并且使用根集中所有网页的PageRank值作为Hub和Authority初始迭代值,最后根据马尔可夫链求随机矩阵的特征向量的方式来获取网页排名的静态分布。基于随机关键词的检索结果可知,相比于传统的PageRank和HITS算法,改进PHIA算法具有更快的收敛速度,并且在一定程度上提高了网页排序的准确度。  相似文献   

14.
基于主题划分的有组织P2P搜索算法   总被引:9,自引:0,他引:9  
提出一种基于主题划分的P2P搜索算法———主题覆盖网络搜索算法(TONS).TONS在有组织P2P网络基础上,将结点按主题组织成覆盖网络,使含有相似主题的结点链接在一起,因此可以根据内容将查询限定在P2P网络的局部范围内.通过在覆盖网络中随机添加一些长距离链接,使覆盖网络具有Small-World特性.TONS为有组织的P2P系统提供了一种能依据部分匹配、多关键词等复杂条件搜索结点数据对象的有效方法,与现有的有组织P2P系统相比,它可以将搜索的查全率提高74.7%,并减少P2P网络信息搜索的平均路径距离和平均消息数目.  相似文献   

15.
为能在搜索引擎返回的结果集上构建贴近用户意图的主题层,并在文档词与主题间建立映射,将社会化标注引入经典的LDA模型,构建一种基于主题-标签-文档词之间关系的三层主题模型,并将其用于伪相关反馈查询扩展词的选取.实验结果表明,该模型提取的查询扩展词能描述标签的语义,模型用于伪相关反馈后,提取的扩展词能覆盖查询条件,在多数情况下结果列表的NDCG值高于基本伪相关反馈和结果集聚类方法.  相似文献   

16.
追踪事件微博报道:一种流的动态话题模型   总被引:1,自引:0,他引:1  
为了解决微博中存在的话题漂移和大量噪声问题,提出了基于动态话题模型和微博信息熵相结合的流的动态话题模型。首先利用动态话题模型在整个追踪过程,从正反两个方面增强对追踪话题的描述,进一步克服了话题漂移问题。但由于微博中存在大量中间类微博,所以定义并使用微博信息熵来衡量一条微博对于话题报道的重要性,并将其扩展到动态话题模型中,用于区分新闻类和中间类微博。在超过17万用户的1 200万条微博上进行了话题追踪,实验结果表明,本文算法较之传统的动态话题模型更有效,追踪结果包含更少噪声。  相似文献   

17.
LDA主题模型是一种有效的文本语义信息提取工具,利用在文档层中实现词项的共现,将词项矩阵转化为主题矩阵,得到主题特征;然而在生成文档过程中会蕴含冗余主题。针对LDA主题模型提取主题特征时存在冗余的不足,提出一种基于邻域粗糙集的LDA主题模型约简算法NRS-LDA。利用邻域粗糙集构造主题决策系统,通过预先设定主题个数,计算出每个主题的重要度;根据重要度进行排序,将排序后重要度低的主题删除。将提出的NRS-LDA算法应用于K-means文本聚类问题上并与传统的文本特征提取算法及改进的算法进行比较,结果表明NRS-LDA方法可以得到更高的聚类精度。  相似文献   

18.
随着智能终端的普及,文本的主题挖掘需求也越来越广泛,主题建模是文本主题挖掘的核心,LDA生成模型是基于贝叶斯框架的概率模型,它以语义关联为基础,很好地解决了文本潜在主题的提取问题。对文本聚类过程的核心技术LDA生成模型、数据采样、模型评价等作了较为深入的阐述和解析,结合网络教育平台的2 794篇学习刊物进行了主题发现和聚类实验,建立了包含3 800个词项的词库,通过kmeans算法和合并向量算法(UVM)分两步解决了主题聚类问题。提出了文本挖掘实验的一般方法,并对层次聚类中文本距离的算法提出了改进。实验结果表明,该平台刊物的主题整体相似度比较好,但主题过于集中使得许多刊物的内容不具有辨识度,影响用户对主题的定位。  相似文献   

19.
通过引入“分块”这一新技术,提出了一个改进的HITS算法,即利用VIPS和分块重要性模型,分割集合中的每一个网页,并为其分配重要值,再结合内容分析法来修改HITS算法中authority网页的权值,从而提高搜索精度,使得搜索结果更接近查询者的意愿.  相似文献   

20.
互联网的迅速发展,数据不断增加,使得个性化数据的获取难度越来越大.主题爬虫作为一种垂直检索方式,已经成为一个热门研究领域.传统的主题爬虫往往是通过网页链接之间的关系下载网页,然后再计算下载的网页与给定主题之间的相关关系.传统的主题爬虫一方面割裂了网页链接结构和网页内容主题之间的关系,使得两个部分分开计算; 另一方面下载过程的网页主题相关性不强,会下载大量的主题无关网页.本文提出一种新的基于PageRank 算法主题爬虫算法将网页主题相似度计算与传统的PageRank 算法相结合,将网页链接结构与网页主题相关性结合在一起.另外本文将语义相似性引入到主题爬虫里,实验结果表明本文提出的基于语义相似聚合的主题爬虫算法大大提高了主题爬虫的查全率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号