排序方式: 共有32条查询结果,搜索用时 15 毫秒
1.
多元分类器通常需要在训练时间和分类精度之间折衷.提出了加权阈值策略和一对多分类方法的改进算法 OVA WWT,以增加结果融合的公平性,从而提高分类精度.基于OVA WWT策略和SVMlight二元分类器,实现了基于SVMlight的多元分类器MSVMlight.在CWT100G数据集进行的实验表明,该分类器具有较高的分类精度以及较短的训练和分类时间.相同的数据集上的阈值策略选择实验也说明了加权阈值策略能提高分类精度. 相似文献
2.
针对广告抽取系统的实际需求,该文提出了利用XPath规则从包含多个广告的页面中抽取广告记录数据的方法.该文主要阐述了广告抽取系统核心模块的实现机制和系统架构.实验结果表明,该方法能够准确定位页面广告数据块,并且能较好提取块内广告记录信息,具有一定的实用价值. 相似文献
3.
网页之间的链接结构为评价网页的主题重要性提供了丰富的信息,但传统的基于链接结构评价的主题排序算法,虽然提出了用向量来表示网页在不同主题中的重要程度,但它们在计算过程中没有充分考虑网页本身的主题相关度.为解决这一问题,本文提出根据链接上下文信息得到主题相关度预测,并将其融合到主题重要性的计算中.同时,根据网页的主题重要性排序,来指导专题爬行器的爬行方向.实验结果表明,基于网页主题重要性的排序测度TopicalRank比PageRank、TSPR(Topical-Sensitive PageRank)对专题爬行更有指导意义. 相似文献
4.
提出了颗粒堆积仿真过程的并行计算和并行可视化的实现方法,大大减少了颗粒堆积计算的时间.并通过商业流程执行语言(BPEL)定义的工作流,实现对计算服务的流程控制、事务管理和生命周期控制,使得颗粒堆积仿真计算服务能够平滑地移植到网格计算服务平台上提供服务. 相似文献
5.
研究了从包含多个数据块的页面中抽取数据的方法.通过对比各个数据块的XPath,发现这些数据块具有相似的XPath,提出一种基于XPath比较的数据块抽取规则生成算法XERG.得到各个数据块抽取规则之后,块内的信息可以使用相对XPath或者正则表达式的方法来进行抽取.实验结果表明,该方法能够准确地获得各个数据块,正确抽取块内信息. 相似文献
6.
针对目前构建新闻脉络链只关注新闻脉络链的主题相似性和文档重要性, 而忽略新闻脉络链逻辑连贯性和可解释性的不足, 以及新闻数据集合指数级增长带来的算法复杂度问题, 从词覆盖的角度提出一种新闻脉络链构建方法, 利用新闻的评论信息来定位新闻事件转折点, 用主题相似与稀疏差异的思想以及RPCA 方法对文档进行逻辑建模, 利用随机游走以及图遍历的方法, 量化并生成可解释且具有很好逻辑连贯性的脉络链。双盲实验表明, 与其他算法相比, 该方法取得较好的效果。 相似文献
7.
针对蛋白质多重结构比对需要大量运算的问题,基于渐进式成对结构比对策略,设计了并行化的蛋白质多重结构比对架构及其在网格计算环境下的实现机制.实验结果表明并行算法大大提高了比对效率,减少了比对时间,提高了重用性.该并行蛋白质多重结构比对架构及实现方法可应用于其他的多重结构比对. 相似文献
8.
基于Map/Reduce的网页消重并行算法 总被引:1,自引:0,他引:1
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。 相似文献
9.
在分析生物学数据的特点、生物学家的检索需求和通用搜索引擎的局限性的基础上,引入语义树的思想,提出一种以XML作为数据接口的、基于语义的生物学专业搜索引擎的设计方案,从而为生物学研究工作者提供了一个专业的、个性化的海量信息检索工具. 相似文献
10.
基于URL类型优先级的入口页面查询算法 总被引:1,自引:0,他引:1
入口页面(主页)查询结果只有一个,并且用户的查询词常常是简短的页面名称,由于它要求更高的精准度,一般认为是较为困难的. 依据语言模型分析,挖掘出对中文入口页面(entry page)检索有意义的查询域作为基准检索的内容域,同时考虑到非内容网页优先级(URL type等)特征的重要性,建立综合内容域和非内容网页特征的检索模型. 通过URL类型优先级(URL type prior)的概率统计,发现入口页面和其相关的子页面之间存在比较大的联系. 据此提出基于相关子页面的入口页面提取算法PERS(page extracted from relevant sub page). 对比实验数据表明,PERS算法对检索的性能有较大提高. 相似文献