共查询到18条相似文献,搜索用时 74 毫秒
1.
采用计算向量之间相似度的方法, 通过实验分析验证了表格信息在主题爬行中的重要性. 研究结果表明, 与整个网页相比, 表格所能提供的与用户相关的信息占整个网页信息总量的80%以上, 因而在主题爬行领域可以充分利用这一结论进行网页解析. 在舍弃除表格和标题之外的其他元素后, 提高了爬行程序的效率. 相似文献
2.
基于相似度的加权复杂网络社区发现方法 总被引:2,自引:0,他引:2
针对加权复杂网络中的社区结构发现问题,本文定义基于权重关系的相似度,并在此基础上定义了节点中心度和归属度,改进GN算法的模块度评价函数,提出一种基于相似度的中心聚类算法(SCC).该算法通过计算节点间的相似度,选取合理的中心度大的节点作为社区中心节点,最后基于节点归属度来聚集从而形成社区;同时,提出了用相似度代替边介数的改进GN算法SGN.通过理论分析,并在数据集上进行实验验证,结果表明SCC算法与WGN算法、SGN算法相比,速度和精度上均有较大改善.同时与I2C算法相比,社区的划分有效性更好. 相似文献
3.
传统的社团发现算法大多存在划分效果和复杂度相矛盾的问题,为了解决该问题,提出一种新的单社团结构评价标准——社团密合度(group density).在此基础上,设计了一种基于凝聚思想的社团发现算法,该算法通过不断融合小社团,使网络的社团结构向平均社团密合度最大的方向发展,并使用模块度检测算法的划分结果.通过与经典的GN,Fast Newman,LPA等算法对多个数据集进行实验对比,验证了本文算法在获得较好的划分效果的同时具有较低的时间复杂度. 相似文献
4.
基于网页分块技术主题爬行器的实现 总被引:1,自引:0,他引:1
针对目前通用搜索引擎搜索到的结果过多、 与主题相关性不强的现状, 提出一种基于网页分块技术的主题爬行器实现方法, 并实现了一个原型系统Crawler1. 实验结果表明, 本系统性能较好, 所爬网页的相关度在55%以上. 相似文献
5.
基于节点的局部社团发现在大数据社会网络分析中非常重要。针对Newman模块度在社团发现中的局限性,基于贝叶斯后验模型提出了BS模块度度量法。该方法结合节点的模块度和推荐概率进行建模,并以邻接并入为框架得到了一种新的局部社团发现算法。该方法克服了Newman模块度在稀疏网络中区分度低的问题以及社团结构差异大的分辨率问题,有效地寻找大规模网络中的局部社团。通过与Newman模块度在真实社团中的比较,验证了该度量方法的有效性。 相似文献
6.
提出一种基于相似性模块度最大约束标记传播的快速网络社团发现算法(MLPA)。该方法采用结构相似度计算, 通过最大约束标记传播模型更新节点标记, 使社团的划分结果更加符合社团内部结构相对紧密、 社团之间结构相对稀疏的特点, 提高社团划分的精确度。结合标记传播5次循环迭代可以完成95%或者更多节点标记过程的实验结果, 判定标记更新过程趋于稳定, 从而在稳定时停止更新, 降低了运行时间。MLPA避免了传统的邻接矩阵计算方法, 适合大规模网络的社团发现。 相似文献
7.
社团结构是复杂网络的一个重要拓扑特征,社团结构发现是研究复杂网络的一个基础性问题,近十年来得到了广泛的关注。本文概要了非重叠社团发现的典型算法,较全面地归纳分析了重叠社团发现算法。并指出了社团发现研究尚存在的一些问题和进一步的研究方向。 相似文献
8.
结合主题爬虫和本体学习的研究现状,设计并实现了基于本体的主动学习主题爬行系统.通过更好地规划爬虫爬行流程,详细地划分功能相对独立的模块,提高了整个系统爬行工作效率和抓取相关网页的准确率. 相似文献
9.
在现行的几种好友推荐机制基础上,考虑社交网络的信任传播因素,设计了一种推荐模型。提出一种先基于信任度发现社区,再通过主题分析计算用户相似度的两阶段推荐方法。旨在向用户推荐其感兴趣的潜在好友,帮助用户扩大其朋友圈,进而提高用户黏性。 相似文献
10.
给出了一种基于网页内容相似度和网页之间链接关系的社区发现方法.该方法不仅考虑了网页之间的超链接关系,而且着重考虑了网页在内容上的相似度并克服了传统社区发现算法忽略网页内容的局限性,使发现的社区在内容上更相关.在原始社区的基础上对其进行动态添加,将网络中新出现的与原始社区中的网页存在链接关系同时与主题相关的网页加入到原始社区.实验表明,此方法可以有效地应用于网络的社区发现,使发现的社区在内容上更相关. 相似文献
11.
基于概念树的主题爬取技术研究 总被引:2,自引:1,他引:2
提出了一种新型主题爬取方法。采用概念树构造主题层次图,赋予待爬取URL对象以层次语义信息,按照语义相关性与重要性选择待爬取URL对象,搜索属于特定语义相关主题的重要Web文档的WWW子集。 相似文献
12.
可在线增量自学习的聚焦爬行方法 总被引:9,自引:0,他引:9
将Web爬行看作执行序列动作的过程,结合改进的快速Q学习和半监督贝叶斯分类器,提出一种新的具有在线增量自学习能力的聚焦爬行方法.该方法从获取的页面中抽取特征文本,根据特征文本评估页面的主题相关性,预测链接的Q值,然后基于Q值过滤无关链接.当得到主题相关页面时产生回报,将回报沿链接链路反馈,更新链路上所有链接的Q值,并选择相应的特征文本作为训练样本,增量地改善主题评估器和Q值预测器.实验结果表明,该方法具有很快的自学习能力,获取的页面数目和精度均优于离线聚焦爬行方法,更符合Web资源发现的要求. 相似文献
13.
刘彤 《贵州大学学报(自然科学版)》2006,23(3):305-313
全面详细地研究了用户个性化W eb信息采集算法,并提出了一个基于指定站点的用户个性化W eb信息采集模型;实验结果表明,在一个用户指定的站点内,该模型可以快速的采集到根据用户需求定制的页面,并存储到本地的文件系统中.这个采集模型具有较强的实用价值,可以为创建某方面的资源库快速的采集信息. 相似文献
14.
针对目前大部分离群点检测算法未考虑数据的局部信息, 导致离群点检测的准确率低问题, 提出一种新的基于聚类和局部信息的两阶段离群点检测算法. 通过定义新的局部离群因子作为判断数据对象是否为离群点的衡量标准, 改进了传统离群点检测算法的过程. 实验结果表明, 该算法在保持线性复杂度的同时, 能更准确、 有效地挖掘出数据集中的离群点. 相似文献
15.
主题爬虫是垂直搜索引擎的核心组成部分,它为面向主题的用户查询准备数据资源;提出了一种基于HMM的主题爬虫方法,方法不仅分析网页内容,而且还考虑网页的上下文链接结构,首先将当前网页的聚类结果作为观察状态、将当前网页到目标网页的链接距离作为隐含状态,然后通过HMM模型学习用户的主题浏览模式并利用它采集更多的主题网页;实验结果表明:方法能采集大量与指定主题相关的高质量网页,主题爬行效率优于Best-First主题爬虫。 相似文献
16.
针对传统社区识别算法中需要根据先验知识设定参数、 社区划分结果具有随机性及复杂度过高的问题, 提出一种基于拓扑势的局部化重叠社区识别算法. 该算法通过引入拓扑势计算节点的影响力, 利用节点间的局部相似性度量指标, 采用标签传播策略进行重叠结构的社区识别. 在真实网络及人工合成网络上与多种经典算法进行对比实验验证了算法的高效性. 相似文献
17.
研究了人类脑功能区域间拓扑结构与解剖结构两种因素对脑功能网络建模的影响,提出了基于局域社团的人类脑功能网络生成模型.模型中的局域社团拓扑结构采用功能区域间的共同邻居及邻居间的局域连接表示,解剖结构用人脑区域间的解剖距离代表.为了衡量模型生成网络与基于fMRI数据构建的真实数据网络之间的相似性,提出了用于校验网络间接近程度的相似性能量指标.实验结果表明,相比传统生成模型,基于局域社团的脑功能网络生成模型在网络效益、聚集系数、模块性、度分布等属性方面都能够更精确地模拟真实数据网络. 相似文献