期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

郭立山董守斌袁华《清华大学学报(自然科学版)》2005,45(9):1738-1742

传统的主题提取算法存在一些已知的问题.为了更好地满足SEWM-2004中文Web检索测评中的主题提取任务要求,分析经典的基于超链接分析的主题搜索(hyperlink-induced topic search,HITS)等算法,提出了一种以站点作为查询的资源单位,并结合内容分析的主题提取算法CWT100G上的超链接分析(hyperlink analysis withinCWT100(,HAC).HAC算法首先根据网页的URL将网页按站点分组;然后在每个站内结合网页内容和站内链接关系来计算网页的权值,从而找出站内的Hub网页;接着再分析站间的链接关系进一步计算各网页的最终权值,从而找出站间的Hub网页.两组对比的实验结果表明,HAC算法能找到切合主题的更大的Hub站点. 相似文献

2.

一种基于聚类分析的BBS主题发现算法研究

吴昊耿焕同吴祥《安徽师范大学学报(自然科学版)》2009,32(1)

针对已有的BBS论坛中有影响力主题计算方法的不足,提出了一种基于聚类分析的主题发现方法,其思想是借助潜在语义分析技术计算回帖之间的相似度,综合时间、空间因素,对主题进行聚类,发现主题并加以实现. 相似文献

3.

基于分块的超链引导的主题搜索改进算法

钟佳王文涛《中南民族大学学报(自然科学版)》2006,25(2):84-87

通过引入“分块”这一新技术,提出了一个改进的HITS算法,即利用VIPS和分块重要性模型,分割集合中的每一个网页,并为其分配重要值,再结合内容分析法来修改HITS算法中authority网页的权值,从而提高搜索精度,使得搜索结果更接近查询者的意愿. 相似文献

4.

一种用于查询扩展词选取的主题模型

张博张斌高克宁《东北大学学报(自然科学版)》2013,34(3):348-350

为能在搜索引擎返回的结果集上构建贴近用户意图的主题层,并在文档词与主题间建立映射,将社会化标注引入经典的LDA模型,构建一种基于主题-标签-文档词之间关系的三层主题模型,并将其用于伪相关反馈查询扩展词的选取.实验结果表明,该模型提取的查询扩展词能描述标签的语义,模型用于伪相关反馈后,提取的扩展词能覆盖查询条件,在多数情况下结果列表的NDCG值高于基本伪相关反馈和结果集聚类方法. 相似文献

5.

基于主题相关性和链接权重的PageRank算法

杨格兰涂立《华中科技大学学报(自然科学版)》2012,(Z1):300-303

在基于链接分析的排序算法PageRank分析基础上,提出了一种基于主题相关性和链接权重的Page-Rank改进算法.该方法首先随机选取任一链出页面,通过主题相关性评价算法获得改进的PageRank值,并重新排序.实验结果显示该算法提高了查询速度、查询准确率,并且算法具有良好的稳定性和可扩展性. 相似文献

6.

一种基于结构分析的改进HITS算法

仲婷金浩冯茜芦潘金贵《广西师范大学学报(自然科学版)》2007,25(2):214-217

Web挖掘技术的应用之一就是Web搜索引擎。对于搜索引擎中的Web结构挖掘,通过对经典的超链接分析算法的研究,对Web超链结构进行深入分析的基础上,针对HITS算法的缺陷,通过引入权值和调整因子对其进行改进。实验表明,改进后的算法表现更加出色。相似文献

7.

基于PageRank的主题过滤算法改进

王福海《科技信息》2011,(15):J0077-J0077,J0227

对通用搜索引擎中的PageRank排序算法进行分析,针对原PageRank算法中主题漂移问题,提出一种与主题相关的改进算法,改进的PageRank值由链接重要性和内容重要性共同确定。相似文献

8.

一种新的Web链接提取模型 总被引：4，自引：0，他引：4

苏杭严建援《清华大学学报(自然科学版)》2006,46(Z1):975-982

以搜索引擎链接提取模块所要求的容错性、正确性、全面性、高效性和可扩展性为目标,提出了一种新的链接提取模型的设计思路。该模型将链接提取过程划分为信息提取、信息加工、信息分析和信息储存。信息的获取是通过HTM L(hypertex t m arkup language)文法分析方法从文档中得到初始统一资源地址(un iform resourceiden tifier,UR I)数据;信息加工阶段通过运用UR I解析算法对初始数据进行精练;然后在信息分析过程中进一步加以筛选和过滤;最后将结果存储在一个灵活的数据结构中。通过对比测试证实这种新的链接提取模式比传统方法在各项指标上均具有明显优势。相似文献

9.

基于分块的网页主题信息自动提取算法 总被引：3，自引：0，他引：3

殷贤亮李猛《华中科技大学学报(自然科学版)》2007,35(10):39-41

对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率. 相似文献

10.

一种用于提取医学图象边缘的新方法

黄昶翁默颖《华东师范大学学报(自然科学版)》1994,(1)

本文运用图论中启发式搜索法，能够克服人体器官边缘轮廓中某些区域出现灰度模糊，智能地提取精确的边界。本文所述方法能推广到光照不均匀和边缘有重叠物体图象中提取边界相似文献

11.

A New Generalized Similarity-Based Topic Distillation Algorithm

ZHOU Hongfang DANG Xiaohui 《武汉大学学报:自然科学英文版》2007,12(5):789-792

The procedure of hypertext induced topic search based on a semantic relation model is analyzed, and the reason for the topic drift of HITS algorithm was found to prove that Web pages are projected to a wrong latent semantic basis. A new concept-generalized similarity is introduced and, based on this, a new topic distillation algorithm GSTDA（generalized similarity based topic distillation algorithm） was presented to improve the quality of topic distillation. GSTDA was applied not only to avoid the topic drift, but also to explore relative topics to user query. The experimental results on 10 queries show that GSTDA reduces topic drift rate by 10% to 58% compared to that of HITS（hypertext induced topic search） algorithm, and discovers several relative topics to queries that have multiple meanings. 相似文献

12.

基于Timed-HITS与协同过滤的混合推荐算法

孙艳蕊陈月《东北大学学报(自然科学版)》2019,40(4):467-473

用户间的信任关系、用户对商品的偏好兴趣及商品的时效性都会影响对商品的推荐效果.将这些因素引入到基本的HITS算法中,对HITS算法进行了改进.将用户对商品的偏好兴趣矩阵进行了改进,利用隐馈数据通过逻辑回归算法估计用户对商品的偏好兴趣,对评分为零的情况赋予了不同的偏好兴趣度,这样更符合实际.将改进的HITS算法和协同过滤算法相结合得到一个混合推荐算法,同时将用户分为活跃用户和非活跃用户分别进行推荐.将提出的算法在Movielens数据集上进行了试验,结果表明该算法在一定程度上缓解了数据稀疏和冷启动的问题,推荐效果优于基于用户的协同过滤算法. 相似文献

13.

基于JavaScript等多链接分析的主题爬虫设计实现

刘兵《许昌师专学报》2010,(2):87-90

针对页面中的大量动态链接,提出了模拟浏览器的解析方式进行页面链接的提取,并设计实现了基于JaveScript等多链接分析的主题爬虫系统. 相似文献

14.

基于LDA模型的网络刊物主题发现与聚类

杨传春张冰雪李仁德郭强《上海理工大学学报》2019,41(3):273-280

随着智能终端的普及,文本的主题挖掘需求也越来越广泛,主题建模是文本主题挖掘的核心,LDA生成模型是基于贝叶斯框架的概率模型,它以语义关联为基础,很好地解决了文本潜在主题的提取问题。对文本聚类过程的核心技术LDA生成模型、数据采样、模型评价等作了较为深入的阐述和解析,结合网络教育平台的2 794篇学习刊物进行了主题发现和聚类实验,建立了包含3 800个词项的词库,通过kmeans算法和合并向量算法(UVM)分两步解决了主题聚类问题。提出了文本挖掘实验的一般方法,并对层次聚类中文本距离的算法提出了改进。实验结果表明,该平台刊物的主题整体相似度比较好,但主题过于集中使得许多刊物的内容不具有辨识度,影响用户对主题的定位。相似文献

15.

基于主题情感混合模型的无监督文本情感分析 总被引：4，自引：0，他引：4

孙艳周学广付伟《北京大学学报(自然科学版)》2013,49(1):102-108

针对有监督、半监督的文本情感分析存在标注样本不容易获取的问题, 通过在LDA模型中融入情感模型, 提出一种无监督的主题情感混合模型(UTSU模型)。UTSU模型对每个句子采样情感标签, 对每个词采样主题标签, 无须对样本进行标注, 就可以得到各个主题的主题情感词, 从而对文档集进行情感分类。情感分类实验对比表明, UTSU模型的分类性能比有监督情感分类方法稍差, 但在无监督的情感分类方法中效果最好, 情感分类综合指标比ASUM模型提高了约2%, 比JST模型提高了约16%。相似文献

16.

二维线性对流扩散方程一种新的特征差分算法及收敛分析

张宏伟胡能兵周宽宽《四川理工学院学报(自然科学版)》2008,21(6)

文章讨论了二维线性对流扩散方程,将特征线法和有限差分法相结合,借助于双线性插值,给出了求解二维线性对流扩散方程数值解的一种新的特征差分格式,并分析了该算法的收敛性。此算法表明对于一类对流扩散方程,应用此差分格式,能更有效地消除数值振荡现象,从而极大地提高数值逼近度。相似文献

17.

周易象数算法与象数逻辑——中国文化之根探源的新视角

李曙华《杭州师范学院学报(社会科学版)》2009,31(2):12-17,57

中西方具有不同的思维方式.表达中国的"象思维"只能是"象语言","象语言"的逻辑不是形式逻辑,而是"象数逻辑"."象数逻辑"通过"取象去形",以"无形之象"追摹自然变化之序而创立推演体系,包括比类推理与太极推理两大推理法则,且深涵价值底蕴.中国"象数逻辑"较之西方形式逻辑与辩证法,更具本原性,内涵更丰富,包容性更大,其以"象数算法"为基础,但蕴涵其中,并未分化成为独立学科.而中国古代数学本为体用不二之完整体系,洛书、周易之"象数算法"与中国古代数学之"机械化算法体系"一脉相承.吴文俊对中国古代数学的继承创新,不仅对人类数学史,对当今数学发展意义重大,而且也为今天创建现代的中国语言学、逻辑学,为中国科学的自主创新提供了重要的思想与方法论启示. 相似文献