首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
传统的主题提取算法存在一些已知的问题.为了更好地满足SEWM-2004中文Web检索测评中的主题提取任务要求,分析经典的基于超链接分析的主题搜索(hyperlink-induced topic search,HITS)等算法,提出了一种以站点作为查询的资源单位,并结合内容分析的主题提取算法CWT100G上的超链接分析(hyperlink analysis withinCWT100(,HAC).HAC算法首先根据网页的URL将网页按站点分组;然后在每个站内结合网页内容和站内链接关系来计算网页的权值,从而找出站内的Hub网页;接着再分析站间的链接关系进一步计算各网页的最终权值,从而找出站间的Hub网页.两组对比的实验结果表明,HAC算法能找到切合主题的更大的Hub站点.  相似文献   

2.
针对已有的BBS论坛中有影响力主题计算方法的不足,提出了一种基于聚类分析的主题发现方法,其思想是借助潜在语义分析技术计算回帖之间的相似度,综合时间、空间因素,对主题进行聚类,发现主题并加以实现.  相似文献   

3.
通过引入“分块”这一新技术,提出了一个改进的HITS算法,即利用VIPS和分块重要性模型,分割集合中的每一个网页,并为其分配重要值,再结合内容分析法来修改HITS算法中authority网页的权值,从而提高搜索精度,使得搜索结果更接近查询者的意愿.  相似文献   

4.
为能在搜索引擎返回的结果集上构建贴近用户意图的主题层,并在文档词与主题间建立映射,将社会化标注引入经典的LDA模型,构建一种基于主题-标签-文档词之间关系的三层主题模型,并将其用于伪相关反馈查询扩展词的选取.实验结果表明,该模型提取的查询扩展词能描述标签的语义,模型用于伪相关反馈后,提取的扩展词能覆盖查询条件,在多数情况下结果列表的NDCG值高于基本伪相关反馈和结果集聚类方法.  相似文献   

5.
在基于链接分析的排序算法PageRank分析基础上,提出了一种基于主题相关性和链接权重的Page-Rank改进算法.该方法首先随机选取任一链出页面,通过主题相关性评价算法获得改进的PageRank值,并重新排序.实验结果显示该算法提高了查询速度、查询准确率,并且算法具有良好的稳定性和可扩展性.  相似文献   

6.
Web挖掘技术的应用之一就是Web搜索引擎。对于搜索引擎中的Web结构挖掘,通过对经典的超链接分析算法的研究,对Web超链结构进行深入分析的基础上,针对HITS算法的缺陷,通过引入权值和调整因子对其进行改进。实验表明,改进后的算法表现更加出色。  相似文献   

7.
王福海 《科技信息》2011,(15):J0077-J0077,J0227
对通用搜索引擎中的PageRank排序算法进行分析,针对原PageRank算法中主题漂移问题,提出一种与主题相关的改进算法,改进的PageRank值由链接重要性和内容重要性共同确定。  相似文献   

8.
一种新的Web链接提取模型   总被引:4,自引:0,他引:4  
以搜索引擎链接提取模块所要求的容错性、正确性、全面性、高效性和可扩展性为目标,提出了一种新的链接提取模型的设计思路。该模型将链接提取过程划分为信息提取、信息加工、信息分析和信息储存。信息的获取是通过HTM L(hypertex t m arkup language)文法分析方法从文档中得到初始统一资源地址(un iform resourceiden tifier,UR I)数据;信息加工阶段通过运用UR I解析算法对初始数据进行精练;然后在信息分析过程中进一步加以筛选和过滤;最后将结果存储在一个灵活的数据结构中。通过对比测试证实这种新的链接提取模式比传统方法在各项指标上均具有明显优势。  相似文献   

9.
基于分块的网页主题信息自动提取算法   总被引:3,自引:0,他引:3  
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.  相似文献   

10.
本文运用图论中启发式搜索法,能够克服人体器官边缘轮廓中某些区域出现灰度模糊,智能地提取精确的边界。本文所述方法能推广到光照不均匀和边缘有重叠物体图象中提取边界  相似文献   

11.
The procedure of hypertext induced topic search based on a semantic relation model is analyzed, and the reason for the topic drift of HITS algorithm was found to prove that Web pages are projected to a wrong latent semantic basis. A new concept-generalized similarity is introduced and, based on this, a new topic distillation algorithm GSTDA(generalized similarity based topic distillation algorithm) was presented to improve the quality of topic distillation. GSTDA was applied not only to avoid the topic drift, but also to explore relative topics to user query. The experimental results on 10 queries show that GSTDA reduces topic drift rate by 10% to 58% compared to that of HITS(hypertext induced topic search) algorithm, and discovers several relative topics to queries that have multiple meanings.  相似文献   

12.
用户间的信任关系、用户对商品的偏好兴趣及商品的时效性都会影响对商品的推荐效果.将这些因素引入到基本的HITS算法中,对HITS算法进行了改进.将用户对商品的偏好兴趣矩阵进行了改进,利用隐馈数据通过逻辑回归算法估计用户对商品的偏好兴趣,对评分为零的情况赋予了不同的偏好兴趣度,这样更符合实际.将改进的HITS算法和协同过滤算法相结合得到一个混合推荐算法,同时将用户分为活跃用户和非活跃用户分别进行推荐.将提出的算法在Movielens数据集上进行了试验,结果表明该算法在一定程度上缓解了数据稀疏和冷启动的问题,推荐效果优于基于用户的协同过滤算法.  相似文献   

13.
针对页面中的大量动态链接,提出了模拟浏览器的解析方式进行页面链接的提取,并设计实现了基于JaveScript等多链接分析的主题爬虫系统.  相似文献   

14.
随着智能终端的普及,文本的主题挖掘需求也越来越广泛,主题建模是文本主题挖掘的核心,LDA生成模型是基于贝叶斯框架的概率模型,它以语义关联为基础,很好地解决了文本潜在主题的提取问题。对文本聚类过程的核心技术LDA生成模型、数据采样、模型评价等作了较为深入的阐述和解析,结合网络教育平台的2 794篇学习刊物进行了主题发现和聚类实验,建立了包含3 800个词项的词库,通过kmeans算法和合并向量算法(UVM)分两步解决了主题聚类问题。提出了文本挖掘实验的一般方法,并对层次聚类中文本距离的算法提出了改进。实验结果表明,该平台刊物的主题整体相似度比较好,但主题过于集中使得许多刊物的内容不具有辨识度,影响用户对主题的定位。  相似文献   

15.
基于主题情感混合模型的无监督文本情感分析   总被引:4,自引:0,他引:4  
针对有监督、半监督的文本情感分析存在标注样本不容易获取的问题, 通过在LDA模型中融入情感模型, 提出一种无监督的主题情感混合模型(UTSU模型)。UTSU模型对每个句子采样情感标签, 对每个词采样主题标签, 无须对样本进行标注, 就可以得到各个主题的主题情感词, 从而对文档集进行情感分类。情感分类实验对比表明, UTSU模型的分类性能比有监督情感分类方法稍差, 但在无监督的情感分类方法中效果最好, 情感分类综合指标比ASUM模型提高了约2%, 比JST模型提高了约16%。  相似文献   

16.
文章讨论了二维线性对流扩散方程,将特征线法和有限差分法相结合,借助于双线性插值,给出了求解二维线性对流扩散方程数值解的一种新的特征差分格式,并分析了该算法的收敛性。此算法表明对于一类对流扩散方程,应用此差分格式,能更有效地消除数值振荡现象,从而极大地提高数值逼近度。  相似文献   

17.
中西方具有不同的思维方式.表达中国的"象思维"只能是"象语言","象语言"的逻辑不是形式逻辑,而是"象数逻辑"."象数逻辑"通过"取象去形",以"无形之象"追摹自然变化之序而创立推演体系,包括比类推理与太极推理两大推理法则,且深涵价值底蕴.中国"象数逻辑"较之西方形式逻辑与辩证法,更具本原性,内涵更丰富,包容性更大,其以"象数算法"为基础,但蕴涵其中,并未分化成为独立学科.而中国古代数学本为体用不二之完整体系,洛书、周易之"象数算法"与中国古代数学之"机械化算法体系"一脉相承.吴文俊对中国古代数学的继承创新,不仅对人类数学史,对当今数学发展意义重大,而且也为今天创建现代的中国语言学、逻辑学,为中国科学的自主创新提供了重要的思想与方法论启示.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号