首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
通过观察网站呈现网页的规律及网页本身的结构特点,提出基于URL类型及网页链接变化规律的入口页面识别算法,优先抓取入口页面.在实际应用中,取得了较好的更新效果.  相似文献   

2.
针对金融服务领域面临的严峻信息安全挑战,以及现有钓鱼网页检测方法的不足,提出一种基于支持向量机(support vector machine,SVM)的金融类钓鱼网页检测方法.采用网页渲染去除常见的页面特征伪装,提取统一资源定位符(uniform resource locator,URL)信息特征、页面文本特征、页面表单特征以及页面logo图像特征,构建特征向量训练SVM分类器模型,实现对金融类钓鱼网页的识别.在特征提取过程中,利用适合中文的多模式匹配算法AC_SC(AC suitable for chinese)提高文本匹配效率,并采用加速鲁棒特征(speeded-up robust feature,SURF)算法实现logo图像的特征提取与匹配.多方法实验结果对比表明,该方法针对性更强,能达到99.1%的检测准确率、低于0.86%的误报率.  相似文献   

3.
针对目前普通搜索引擎无法对动态网页的查询结果进行有效索引与排序的问题,提出了一种对动态网页的排名算法Con ten tR ank,并介绍其在商务网站中的应用.该算法通过对与动态页面相关的内容进行挖掘分析,计算页面排名得分,从而实现对此类动态网页的查询结果的排序,提高排名的准确性.  相似文献   

4.
文章依据所抓取的大量藏文网页URL,对相关的藏文信息网页进行除噪去重处理,得到较为完善的藏文信息库。对用户要查询的藏文信息进行预处理和藏文语义标注,通过基于本体的词汇相关性算法,扩展藏文的查询词汇,建立一对多的藏语词汇联系,从而实现藏文查询中的相关性检索,得到更加符合用户需求的语义关联网页信息。  相似文献   

5.
大规模中文搜索引擎的用户日志分析   总被引:14,自引:1,他引:13  
北大"天网"是一个大规模分布式搜索引擎系统.文中对其用户日志进行了分析和研究.结果显示用户对系统的访问时间并不均等,一天中早晨、下午和晚上各出现一个波峰;通常用户在一天内只进行1~2次内容不同的查询,多于2/3的用户点击了结果页面中的某些网址(URL);多数用户输入的查询串中只含有一个词项并且包含中文字符,其中以2~4个汉字居多;用户查看结果页面的时间大约是2~3 min;只有少数用户查看历史网页(或称网页快照).用户日志中不同查询串、不同用户和点击不同URL的数量满足Heaps定律.  相似文献   

6.
随着恶意网页数量的逐年递增,传统恶意网页检测技术表现出了较大的局限性.因而基于机器学习的检测技术被引入,该技术的关键是有效网页特征的选取.在分析提取传统网页特征URL、HTML和JavaScript代码特征的基础上,融合网页文本内容特征(Text特征),基于机器学习提出一种多特征融合的恶意网页检测方法.通过互信息法、F-检验法、递归特征消除法3种特征选择算法验证得到所提Text特征更具强相关性.其中,RF算法在URL、HTML、JavaScript与Text特征的混合特征集上对恶意网页检测的效果最好,该方法与前人工作相比具有更高的准确性与可靠性.  相似文献   

7.
传统的主题提取算法存在一些已知的问题.为了更好地满足SEWM-2004中文Web检索测评中的主题提取任务要求,分析经典的基于超链接分析的主题搜索(hyperlink-induced topic search,HITS)等算法,提出了一种以站点作为查询的资源单位,并结合内容分析的主题提取算法CWT100G上的超链接分析(hyperlink analysis withinCWT100(,HAC).HAC算法首先根据网页的URL将网页按站点分组;然后在每个站内结合网页内容和站内链接关系来计算网页的权值,从而找出站内的Hub网页;接着再分析站间的链接关系进一步计算各网页的最终权值,从而找出站间的Hub网页.两组对比的实验结果表明,HAC算法能找到切合主题的更大的Hub站点.  相似文献   

8.
细粒度语义网检索   总被引:6,自引:0,他引:6  
语义网的有向标记图数据模型决定其在内容检索方面与纯文本、超文本或半结构化文档检索存在较大差异.现有检索模型和相似度计算方法不能完全满足对语义网的检索和评价.该文以资源这种较细粒度作为检索单元,考虑查询关键字在资源内容中的频率和结构分布,提出一个细粒度语义网检索模型,并扩展了相似度计算公式和倒排索引结构.在语义网挖掘系统(semantic web aiding rich miningsystem,SWARMS)中实现了该模型及相关算法.在SourceForge和DBLP两个测试集上的实验表明,该模型能够结合语义网结构查询与基于关键字的内容查询,在相同查全率下查准率是单独应用结构或内容查询的两倍左右.  相似文献   

9.
针对搜索引擎查找准确率低、检索效果差的问题,提出了基于本体的搜索引擎.该搜索引擎首先构建相关主题本体知识库,再利用网络爬虫下载网页内容和网页结构特征,并对内容进行智能识别,找出与本体相关内容识别为相关本体,通过与本体知识库内容对比,筛选特定的统一资源定位器(URL)地址及与计算机网络安全相关的本体,从而发现计算机网络安全相关信息,同时建立不同服务提供者之间的关联关系及服务提供者之间的层级关系,最后将抽取出的计算机网络安全信息存储到以本体为模型创建的数据库中,并成为用户搜索服务的最终数据来源.实验结果表明,本体可提高搜索引擎的查准率,减少冗余信息,从而提高查询精度.  相似文献   

10.
高性能网页索引器JU_Indexer的实现   总被引:4,自引:1,他引:3  
高性能网页索引器JU_Indexer用倒排索引表存储网页索引数据, 以多线程并行的方式对网页建立索引数据, 采用经过优化的检索算法实现用户的查询. 首先给出了JU_Indexer的系统框架, 然后描述了索引数据在JU_Indexer中的存储结构、 建立网页索引的算法、 以及实现用户查询的检索算法. 实验结果表明, JU_Indexer能在毫秒级的时间内完成用户的查询, 它采用的经过优化的词组检索算法缩短了词组的检索时间.  相似文献   

11.
智能信息检索代理结构   总被引:2,自引:0,他引:2  
信息过载已成为Internet用户信息检索时的最大难题,利用智能信息检索代理技术可解决这些问题.在对智能代理特征(主要包括智能搜索,导航向导,自动通告,个人信息管理,动态个人化网页,以及页面辅助阅读工具等)进行分析的基础上,参照模块化的代理结构,讨论了智能Agent的各组成模块功能和各个模块在实现不同功能时的组织方法.经过初步实践表明,智能Agent用于提高信息检索效率和减小网络信息过载是可行和有效的.  相似文献   

12.
为了解决传统依据关键字、概念和属性值等检索技术没有考虑不同主体中情报信息间的语义关系,无法提供令用户满意的情报检索结果问题,通过语义Web方法研究了多功能情报信息自适应检索技术。设计基于语义Web的多功能情报信息自适应检索模型,检索模型包括人机交互层、知识处理层以及知识存储层。在知识存储层建立本体语义模型。在知识处理层,从检索的多功能情报信息关键词中推断和其语义有关的概念,依据概念有关词汇对原始查询进行扩展,对语义相似度进行计算。在人机交互层,将用户反馈情况看作判断检索结果优劣的衡量因素,依据相似关键词获取相似结果集,按照反馈因子完成对所有相似结果的排序,把排序结果发送给用户,实现多功能情报信息自适应检索。结果表明,所提方法能够同时保证召回率与精度;排序误差率低;检索结果和用户查询结果最相符,检索结果准确,可令用户满意。可见所提方法检索性能强。  相似文献   

13.
刘飞  高红艳 《江西科学》2008,26(2):304-307
使Web信息检索发展到一个新的水平。对Web数据挖掘技术作了概要的介绍,分析了Web信息检索的现状。针对Web信息检索的一些不足,提出了一些观点。将数据挖掘技术的研究成果应用到Web信息检索中,提高了Web信息检索的效率和质量。  相似文献   

14.
针对传统基于关键字的信息检索系统查全率和查准率都不高的缺点,提出了一种基于语义Web的智能信息检索模型,此模型在语义Web的环境下,利用本体技术,将最初的检索词通过查询扩展模块得到更完善的检索词集,然后利用扩展的检索词集进行检索。将基于关键字匹配的信息检索系统提升为基于本体知识库扩展查询的智能检索系统,从而提高了查全率与查准率,满足了人们对信息检索系统的要求。最后给出了模型的一种实施方案。  相似文献   

15.
设计了一种基于统计的多层次分类算法:在一个树状的层次分类体系中,对文档进行自动分类时,首先从根结点开始找到对应的大类,然后递归往下直到找到对应的最底层子类.每一层中使用支持向量机作为分类模型,并使用类别均衡的方法解决数据稀疏的问题,在经过大规模网页语料训练后取得了很好的分类效果.  相似文献   

16.
提出一种基于语义Web的信息检索模型,它能够实现准确高效的网络信息检索,克服传统信息检索的局限。介绍了语义Web、本体以及Lucene全文检索技术,详细阐述该模型的六大模块,其中在本体基础之上充分利用Jena查询和推理技术进行查询扩展,以及Lucene技术来建立索引和检索,改进排序算法使得返回结果更加满足用户需求。  相似文献   

17.
分析了搜索引擎的检索效率和检索质量,指出目前影响搜索引擎检索效率和检索质量的主要因素是检出信息相关度低、信息重复出现率高等问题,提出了提高检出信息相关度、降低检出信息重复出现的方法。  相似文献   

18.
当前是一个信息资源爆炸性增长的时代,因而信息检索也就显得更为重要,然而基于字符串匹配的检索技术仅仅是语法层面的,通常不能满足用户的需要;语义web的提出和发展为实现基于语义的检索开辟了一条新的思路,把本体应用于信息检索中,设计并实现了一个智能药品信息检索系统.  相似文献   

19.
为了提高万维网信息检索的性能,该文提出在基于机器学习的检索排序算法中,利用万维网链接图的拓扑特性来度量网页的重要性。链接图的拓扑特性是从各种不同的角度对链接图结构信息的描述,利用它来度量网页的重要性可以更加全面地利用链接图所包含的结构信息,并且能够更好地发挥学习机的学习能力。通过实验表明,在基于排序提升器的检索排序算法中,利用链接图的拓扑特性可以非常有效地度量网页的重要性,其性能要优于传统的PageR ank算法。  相似文献   

20.
文本观点检索旨在检索出与查询主题相关并且表达用户对主题观点的文档。由于用户查询时输入通常很短,难以准确表示查询的信息需求。知识图谱是结构化的语义知识库,通过知识图谱中的知识有助于理解用户的信息需求。因此,提出了一种基于知识图谱的文本观点检索方法。首先由知识图谱获取候选查询扩展词,并计算每个候选词扩展词分布、共现频率、邻近关系、文档集频率,然后利用4类特征通过SVM分类得到扩展词,最后利用扩展词对产生式观点检索模型进行扩展,实现对查询的观点检索。实验表明,在微博和推特两个数据集上,与基准工作对比,所提出的方法在MAP、NDCG等评价指标上均有显著的提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号