首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
传统的排名方法没有考虑用户的喜好、反馈和用户兴趣,很难满足用户的个性化需求.针对这个问题,提出一种新的网页排名方法,将网页的相似度、链接结构信息、用户偏好及用户反馈相结合进行页面排名.实验结果表明,改进的排序算法在一定程度上帮助用户提高检索网页的质量,最大限度地满足用户的需求.  相似文献   

2.
PageRank算法根据网络链接来计算网页的重要度,虽成功用于网页搜索,但仍存在着许多不足,如网页垃圾、无效链接等,不能很好地描述用户真实行为等问题.通过对成千上万网络用户真实行为数据的分析,提出了以半马尔科夫过程来模拟用户浏览行为,将其平稳概率分布作为页面重要度计算的测量方法.同时考虑网页内容和长度对停留时间的影响,结合传统链接分析法,使新网页被重视,旧网页能得到恰当的排名.实验结果证明,该方法比PageRank算法的查询结果满意度提高约24%,能更好的计算网页页面的重要度.  相似文献   

3.
在传统排序算法的基础上,提出了增加页面时间因素的页面时间排序算法,使用户能更快地得到满意的查询结果.通过与传统相关度算法的分析比较,证实了此方法的可行性,该算法使得检索结果在查准率方面有了较大提高.  相似文献   

4.
自从Google公布了PageRank的计算公式后,许多网站抓住其缺陷进行作弊,严重影响了排序质量.本文认为PageRank算法中将权威值平均分配给每个链出页面进行计算是其算法的一个致命缺陷.给出了具有针对性的改进算法,将顺向链接网页中不同的网页赋予不同的权重,提升了重要网页的PageRank值,降低不重要网页的PageRank值,从而减弱了作弊行为对网页排名带来的影响.通过与原始PageRank算法和其它相关文献结果的比较,验证了改进的新算法在理论上和实际中都能达到更好的效果.  相似文献   

5.
一种编辑距离算法及其在网页搜索中的应用   总被引:1,自引:0,他引:1  
针对传统方法不能很好地处理网页中简短域与用户查询之间的相关性排序问题,提出一种基于改进的编辑距离排序算法.将以词为单位的用户查询和简短网页域通过匹配编码转化为2个字符串,再利用改进的编辑距离计算2个字符串之间的相似性.由于在用户查询与待比较的简短网页域之间引入了查询词分布的位置、顺序和距离等,以及含有查询词修饰关系的重要信息,所以编码字符串之间的相似程度可以衡量对应的查询与简短网页域之间的相关性.经大规模真实搜索引擎实验表明,该算法较之传统的相关性排序算法,可以显著地提高网页搜索中的简短网页域相关性排序性能,尤其适用于简短域与用户查询之间的相关性比较.  相似文献   

6.
基于可视布局信息的网页噪音去除算法   总被引:14,自引:1,他引:13  
主要探讨了网页中的噪音去除问题.针对单一页面中包含的丰富的可视信息,提出了一个更加精确的噪音去除算法首先获得页面中各元素标记的布局信息,然后利用布局信息对页面进行划分,最后在此基础上去除噪音.与采用"布局信息"的算法相比.本文提出的算法对页面布局信息的提取更加准确,并能处理动态HTML页面.实验结果表明,该算法优于同类算法,可有效地去除网页噪音.  相似文献   

7.
针对目前搜索结果个性化排序算法中的用户兴趣模型构建难、相关度计算不精确等问题,提出了一种结合用户兴趣模型和协同推荐算法的个性化排序方法.该方法从用户的搜索历史,包括提交查询、点击相关网页等反馈信息来训练用户的兴趣模型,然后采用协同推荐算法获取具有共同兴趣的邻居用户,根据这些邻居对网页的推荐程度和网页与用户的相关程度来排序搜索结果.实验结果表明:该排序算法的平均最小精确度比一般排序算法提高了约0.1,且随着用户邻居数目的增长,最小精确度随之增长.与其他排序算法相比,采用协同推荐算法有助于提高网页与用户兴趣关联程度计算的精确度,从而提高排序的效率,有助于改善用户的搜索体验.  相似文献   

8.
循证医学信息化若干关键技术的研究   总被引:1,自引:1,他引:0  
由于Web信息检索返回页面的数量巨大,对搜索结果进行排序成为影响搜索质量的一个重要问题.分析了搜索引擎Google采用的PageRank算法,指出其具有偏重旧网页和忽视专业站点的不足,考虑网页日期这一重要因素改进了PageRank算法,试验结果表明,改进的算法可以提高判断网页重要性的准确度.最后介绍了如何通过个性化服务来发现与用户兴趣相似的资源.  相似文献   

9.
一种新的基于社会化标签的网页排名算法   总被引:1,自引:0,他引:1  
针对目前web2.0下网页无法进行有效排序这一问题,对社会化标签网下新的数据源"标签"的时间因素加以分析和利用,提出一种新的社会化标签的网页排名算法TagRank. 该算法通过对网页上用户的标注行为进行挖掘,计算标签的"热度",从而更客观地反映标签的真实质量,以此提高网页排名的准确性. 实验证明该算法是切实有效的.  相似文献   

10.
基于校园网的信息资源搜索引擎系统的设计   总被引:1,自引:0,他引:1  
校园网在网站构建、应用环境以及链接结构等许多方面与互联网有着较大的区别。需要根据校园网站的网站结构、信息资源分布等特点调整网页采集策略,改进页面排序算法,才能提高搜索引擎的采集效率和查询准确度。  相似文献   

11.
WEB网页超链接路径的选择在网站制作和站点维护中具有重要的作用。由于HTML等标记语言对网页超链接的规定与HTTP协议传送网页到浏览器时赋予的路径之间没有很好协调,网页制作与站点维护时链接路径没有正确选择,就会导致网页有时打不开.本文对多层目录下网页链接路径的选择提供了方法,为网页制作、网站维护提供参考。  相似文献   

12.
融入链接相关度策略的PageRank算法   总被引:1,自引:0,他引:1  
为实现对网页更好地评分,提出了融入链接相关度策略的PageRank算法.以体现人工智能的当代经典PageRank算法为基础,分析其基本思想并指出其在对网页评分中存在的不足,通过引入相关度计算使链接标题的质量和其所指向网页的内容产生联系,实现在网页中各个链接之间的竞争.通过实验和分析,新的算法在不影响原算法的优点和效率的同时能更好地进行网页评分,在网页优先级算法上向人工智能和语义网又迈进了一步.  相似文献   

13.
鉴于互联网上各种不良网页的影响,提出了一种使用贝叶斯分类算法和领域本体过滤中文网页的方法。 该方法根据正反例领域网页计算领域特征词的权重,建立领域特征词库并制作领域本体,根据正例领域网页得到本体元素权重库;使用贝叶斯分类算法得到候选网页;根据领域本体对候选网页进行语义相关度计算并进行网页过滤。 该方法可以区分相同领域网页中的正反例网页并可兼顾网页过滤的实时性。 通过游戏领域网页的测试,准确率和召回率均在98%以上, 语义分析游戏相关网页的平均时间为1~2 s, 对用户浏览网页速度的影响较小, 效果令人满意。   相似文献   

14.
为了解决现有的钓鱼网页分析方法,往往基于页面的文本特征,而忽略了页面的结构特征的问题,提出基于文档对象模型(document object model,DOM)结构聚类的钓鱼检测方法,其关键在于如何快速有效地计算网页的相似度。首先对获取的页面进行DOM结构解析,构建DOM树层次标签向量以刻画网页的结构特征;然后重新定义DOM树距离的概念,通过不同DOM树之间的距离来度量网页间的相似度;最后采用划分聚类思想实现网页的聚类。一系列的仿真实验表明,方法具有较高的召回率与精确率,运行时间也较短。  相似文献   

15.
用ASP技术访问数据库   总被引:3,自引:0,他引:3  
通过ASP与ADO(ActiveX Data Objects)的组合,建立提供数据库住处的网页内容,在网页画面上执行SQL语句,允许访问者在浏览器上查询、插入、更新、删除站点服务器的数据库信息。这样,网页设计者可从烦琐的CGI程序中解脱出来。  相似文献   

16.
 为提高政府网站的搜索质量并优化网站内容, 对某政府网站现有搜索系统进行二次开发, 增加了日志挖掘模块、行为分析模块、系统改进模块, 实现了对搜索系统日志挖掘和用户行为的分析处理。日志挖掘模块负责收集、过滤和识别用户的搜索操作记录;在行为分析模块, 根据操作记录从查询过程、聚类分析和查询热词3 个角度, 分析用户行为的特点和规律, 得到了待调整权重的网页和热点查询词等分析结果;在系统改进模块, 通过调整网页的权重使查询结果更加精准, 改善了搜索系统, 根据统计查询热词, 既提供了搜索热点等新功能, 又为用户提供了个性化网页并优化了政府网站的内容, 实现了与舆情系统的数据交互。通过这些优化和改进, 从多方面使搜索系统和政府网站能更好的为用户服务。  相似文献   

17.
中国旅游目的地资讯网站构建要素评测分析   总被引:2,自引:0,他引:2  
本文在比较详实的调研基础上,就网页设计、特色功能和信息内容等方面对目前我国旅游目的地资讯网站的构建要素进行了评测,并由此总结出了构建旅游目的地资讯网站的基本要素.  相似文献   

18.
现有的垃圾网站检测方法主要针对自建的垃圾网站,对于通过入侵正常网站注入垃圾网络链接的检测效率不高.本文提出一种基于网页结构与文本多维特征的检测框架,该框架将网页进行分块处理.通过计算优势率的方法提取内容特征,根据标签数、属性键和属性值利用独热率的方法提取结构特征.使用机器学习算法进行训练并得到检测模型,进而有效地检测垃圾网站链接.同时,将本文的检测方法与基于内容分析的检测算法和黑名单匹配算法进行对比,本文提出的方法检测准确率最高有13%的提高.  相似文献   

19.
从智能小区建设的角度出发,讨论了网站的基本结构、建站的方式、Web页面的实现技术,分析了智能小区网站规划与设计的一般思路和总体框架,提出了网页制作中一些值得注意的问题。  相似文献   

20.
从站点角度谈搜索引擎优化策略   总被引:5,自引:0,他引:5  
从站点角度探讨了关键字,URL,META标签,链接流行度(LinkPopularity)等几种搜索引擎优化的策略,并指出了在进行搜索引擎优化时可能存在的误区。网站开发者可以利用这些优化策略对自己的网站进行优化,同时尽量避免优化过程中可能出现的失误,提高自己的站点在搜索引擎中的排名,从而提高站点的“定向访问量”。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号