首页 | 本学科首页   官方微博 | 高级检索  
检索     
共有20条相似文献,以下是第1-20项 搜索用时 296 毫秒

1.  一种基于查询加权的用户建模方法  
   胡娟  白宇  蔡东风《北京大学学报(自然科学版)》,2015年第51卷第2期
   通过分析用户的查询日志,模拟用户与搜索引擎之间的交互过程,提出一种基于查询加权的用户建模方法.首先,对查询日志进行会话分割;然后,利用会话中用户查询出现的次数、持续时间及所点击的URL排名等行为信息,计算查询权重;最后,采用兴趣投票的方式,完成用户模型的构建.在AOL(美国在线)查询日志数据集上的测试结果表明,基于查询加权的用户建模方法在用户兴趣预测上取得较好的效果.    

2.  基于 Term-Query-URL异构信息网络的查询推荐  
   刘钰峰  李仁发《湖南大学学报(自然科学版)》,2014年第41卷第5期
   查询推荐是一种帮助搜索引擎更好的理解用户检索需求的方法.基于查询的上下文片段训练词汇和查询之间的语义关系,同时结合查询和URL的点击图以及查询中的序列行为构建Term-Query-URL异构信息网络,采用重启动随机游走(Random Walk with Restart,RWR)进行查询推荐.综合利用语义信息和日志信息,提高了稀疏查询的推荐效果.基于概率语言模型构造查询的词汇向量,可以为新的查询进行查询推荐.在大规模商业搜索引擎查询日志上的实验表明本文方法相比传统的查询推荐方法性能提升约为3%~10%.    

3.  海量Web搜索引擎系统中用户行为的分布特征及其启示  被引次数:29
   王建勇  单松巍  雷鸣  谢正茂  李晓明《中国科学(E辑)》,2001年第31卷第4期
   统计分析了大规模搜索引擎系统的用户行为的分布特征.结果表明,用户查询内容和URL点击表现出明显的局部性;用户查询的分布符合幂函数的特征并具有良好的自相似性.基于上述规律,设计了查询cache,比较了FIFO,LRU及带衰减的LFU等3种cache替换策略.然后,基于用户行为考察了海量网页信息的分布特征,并利用URL的入度、镜像度、目录深度等网页参数与用户行为反馈后的相关度的方差分析,阐明了其对优化搜索引擎系统定序算法(ranking algorithm)的启示.    

4.  基于查询日志分析的中文网页关键词抽取方法  
   王晓艳  王珍珍《广西师范大学学报(自然科学版)》,2015年第2期
   以全文索引为基础的网页搜索引擎检索相关度偏低。针对这一问题,本文提出了一种基于查询日志分析的中文网页关键词抽取方法。该方法利用用户对网页与查询词的相关性判断来选择关键词。为了量化用户的相关性判断,提出了单位篇幅停留时间、逆向点击率、排名补偿因子3个指标,并对其进行综合加权。在查询串分词、同义词识别及多义词消歧、关键短语组配方面,也做了特殊处理。实验结果表明:抽取关键词的准确率较高,综合性能也高于TF.IDF和SVM方法。该方法能得到较满意的关键词抽取效果。    

5.  基于日志分析的用户搜索行为研究  
   黄日茂  叶琳莉《莆田高等专科学校学报》,2010年第2期
   用户行为分析是改进搜索引擎的重要依据,为了更好地理解中文搜索用户的检索行为,在引入分词的基础上对搜狗搜索引擎在一个月内的真实查询日志进行了分析,对查询语言、查询长度、rank和网页深度与点击次数四个方面的用户行为进行分析。所得结论对改进中文搜索引擎的设计和更准确地评测检索效果都有较好的指导意义。    

6.  基于URL类型优先级的入口页面查询算法  被引次数:1
   胡俊刚  董守斌  陈晓志  张元丰《山东大学学报(理学版)》,2006年第41卷第3期
   入口页面(主页)查询结果只有一个,并且用户的查询词常常是简短的页面名称,由于它要求更高的精准度,一般认为是较为困难的. 依据语言模型分析,挖掘出对中文入口页面(entry page)检索有意义的查询域作为基准检索的内容域,同时考虑到非内容网页优先级(URL type等)特征的重要性,建立综合内容域和非内容网页特征的检索模型. 通过URL类型优先级(URL type prior)的概率统计,发现入口页面和其相关的子页面之间存在比较大的联系. 据此提出基于相关子页面的入口页面提取算法PERS(page extracted from relevant sub page). 对比实验数据表明,PERS算法对检索的性能有较大提高.    

7.  基于Apriori关联规则在信息无障碍网站的应用  
   王玉  张伟红  刘雨《吉林大学学报(信息科学版)》,2013年第31卷第1期
   为在Web日志数据中挖掘关联规则以指导信息无障碍网站的设计与开发,针对大量用户对网站页面URL(Uniform Resoure Locator)的访问频率等信息,通过Apriori算法实现数据挖掘,以寻找用户访问页面之间的关联规则。根据3次点击原则及网站结构设计的特点,对Apriori算法网页超链接挖掘的过程进行了改进,频繁项集最多只需找出所有3-项集即可。算法实现过程表明,该方法可有效降低算法的时间复杂度,能通过对关联规则的分析确定用户感兴趣的网页类型,找出用户所访问网页之间的链接关系。    

8.  一种基于时间感知的搜索引擎模型  
   张乃洲  曹薇  陈珂锐  李石君《山东大学学报(自然科学版)》,2013年第11期
   目前许多用户查询与网页信息的时效性密切相关,但当前的搜索引擎在处理许多具有时间属性的查询时还不尽如人意。通过引入基于时间感知的用户查询理解、索引结构和页面排序算法,提出一种基于用户查询日志挖掘的时间感知搜索引擎模型,来克服当前主流搜索引擎在处理具有时效性查询时存在的不足在真实的Web环境下广泛进行的实验结果表明了该模型的有效性。    

9.  利用支持向量回归确定相关Web查询  被引次数:1
   王继民  彭波  孟涛《华南理工大学学报(自然科学版)》,2006年第34卷第6期
   对用户输入的查询请求,如果搜索引擎系统能给出一个相关查询列表,将有助于用户进行查询修正,进而检索到用户所需要的信息.文中提出了一种利用支持向量回归确定相关Web查询的新方法.对一个给定的Web查询,首先从用户的使用记录中抽取候选查询的5个量化指标:被查询的次数、被查询的用户量、用户在反馈结果中的点击次数、与给定查询间的共有词项个数和点击相同网址(URL)的个数;然后用手工标记部分训练数据,进而建立支持向量回归模型,根据相关度的大小确定相关Web查询.实验结果表明该方法具有较高的准确度.    

10.  文本飘红策略对搜索引擎用户行为的影响  
   张辉  苏宁  刘奕群  马少平《清华大学学报(自然科学版)》,2018年第8期
   搜索用户根据搜索引擎结果页面的搜索结果来决定他们是否点击特定的网页,其展示形式在用户整个搜索交互过程中起到重要作用。查询词飘红是目前商业搜索引擎结果文本主要采用的展现形式,存在着满篇红和缺乏有用信息的现象,该文旨在提出一种新的飘红策略,从而提高用户的搜索效率。该文基于人工标注的结果提出了3种文本飘红策略,分别是缩减查询词飘红策略、任务级飘红策略和结果级飘红策略,通过实验分析了4种不同的摘要飘红策略对用户搜索行为的影响,结果表明:该文提出的3种文本飘红策略,其性能均优于目前商业引擎采用的查询词飘红策略,通过控制飘红次数、飘红比例和提供有价值的信息,可以对用户搜索行为产生非常积极的影响。    

11.  基于内容相关性挖掘的反馈式搜索引擎框架  
   侯越先  张鹏  于瑞国《天津大学学报(自然科学与工程技术版)》,2008年第41卷第8期
   当前主流的搜索引擎根据查询词在网页中的出现频率,辅以网页权威性等信息,生成查询结果.但用户提供的查询词往往非常简单,因此搜索引擎难以确定用户的查询意图.为此,给出了一种利用海量clickthrough数据进行网页内容相关性挖掘的方法,在此基础上给出了一种反馈式搜索引擎(FSE)框架及相关算法.FSE根据网页相关性动态生成查询结果,以期提供给用户更中肯和个性化的信息.基于真实点击数据,进行了网页相关性矩阵的压缩实验和有效性实验,证明了该框架的可行性.    

12.  垂直搜索中网页抓取技术的研究  被引次数:1
   陈哲《科技信息》,2009年第22期
   网页抓取是由一个称为网络爬虫的程序实现的,该程序是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上提取新的URL放入队列,直到满足系统的一定停止条件。    

13.  WHPM-Apriori:网页超链接挖掘的Apriori改进算法  
   姜玥  井福荣  谢青  李建阳  杨玉涵《西南民族学院学报(自然科学版)》,2007年第33卷第3期
   网页链接关系的设计影响到用户的访问效率,通过日志挖掘发现网页间的关联关系,使网站设计更趋合理,便于用户访问.为了提取页面间的关系,日志数据预处理后,利用Apriori算法发现频繁集,找到页面间的关联规则.网站结构主要由网页和网页间的超链接组成,针对网页超链接结构的特点:一条超链接只能建立在两个网页上.发现频繁集只需找出所有2-项集即可.提出网页超链接挖掘的Apriori改进算法(WPHM-Apriori).实验表明,该算法有效地降低Apriori的时间复杂度.    

14.  一种编辑距离算法及其在网页搜索中的应用  被引次数:1
   薛晔伟  沈钧毅  张云《西安交通大学学报》,2008年第42卷第12期
   针对传统方法不能很好地处理网页中简短域与用户查询之间的相关性排序问题,提出一种基于改进的编辑距离排序算法.将以词为单位的用户查询和简短网页域通过匹配编码转化为2个字符串,再利用改进的编辑距离计算2个字符串之间的相似性.由于在用户查询与待比较的简短网页域之间引入了查询词分布的位置、顺序和距离等,以及含有查询词修饰关系的重要信息,所以编码字符串之间的相似程度可以衡量对应的查询与简短网页域之间的相关性.经大规模真实搜索引擎实验表明,该算法较之传统的相关性排序算法,可以显著地提高网页搜索中的简短网页域相关性排序性能,尤其适用于简短域与用户查询之间的相关性比较.    

15.  基于网页特征的会话识别方法  
   陈子军  王鑫昱《燕山大学学报》,2008年第32卷第1期
   提出一种利用网页特征进行会话识别的方法.通过分析网页本身的特征,计算站点中所有网页的特征向量.根据这些特征向量,可以计算任意网页之间的相关程度.按照用户请求页面在日志中的时间顺序,可以得到日志中所有直接相邻的页面记录的关联程度曲线.通过设定一个阈值,在关联程度曲线中波动较大的位置形成会话边界.将关联程度大的页面分类到一个会话中,从而完成会话识别.    

16.  一种建立在对客户端浏览历史进行LDA建模基础上的个性化查询推荐算法  
   王桂华  陈黎  于中华  丁革建  罗谦《四川大学学报(自然科学版)》,2015年第52卷第4期
   现代搜索引擎普遍采用简单的关键词形式来表达查询,这为用户带来便利的同时也增加了准确获取信息的难度.搜索引擎很难基于少量的几个关键词准确捕捉用户的信息需求.查询推荐作为缓解上述问题的关键技术,已经开始应用于目前主流的搜索引擎.然而,绝大多数现有的查询推荐技术基于群体智慧,以搜索引擎日志为数据源,从中挖掘用户群体在构造查询方面的习性及查询之间的语义关联性,未考虑不同用户个性化的信息喜好,而且在搜索引擎服务器端进行查询推荐计算也会影响搜索引擎的响应效率和查询吞吐率.为此,本文提出一种运行于客户端的个性化查询推荐策略,该策略以用户浏览历史为数据源,采用LDA模型,并从中学习用户的信息喜好,在此基础上利用原始查询被主题模型生成的概率确定用户的查询意图,以词条与查询意图之间的关联来度量词条作为扩展查询被推荐的强度,最后选择Top N强度最强的词条作为查询推荐的结果.以人工标注的测试数据对本文所提出的算法进行了实验验证,结果表明,该算法在推荐扩展查询的准确率方面明显优于单纯基于词条与原始查询语义相关的方法    

17.  一种个性化的主题提取和层次发现算法  被引次数:3
   傅向华  马兆丰  何明  冯博琴《西安交通大学学报》,2005年第39卷第2期
   从语义相关性角度分析超链归纳主题搜索(HITS) 算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,因此提出了一种个性化的主题提取和层次发现算法(PTDHE),通过个人查询日志扩展查询词,构造符合用户需要的个性化根集和基础集合,达到防止主题漂移的目的.PTDHE采用基于最小最大原则的图划分方法,层次地发现与用户查询相关的主题页面集合,利用HITS算法分别计算每个主题页面集合中页面的权威值,返回与查询相关的其他主题权威页面.在14个查询上的实验结果表明,与HITS算法相比,PTDHE算法不仅可以减少2%~66%的主题漂移率,而且可以发现与查询相关的多个主题.    

18.  基于拼音索引的中文模糊匹配算法  被引次数:3
   曹犟  邬晓钧  夏云庆  郑方《清华大学学报(自然科学版)》,2009年第Z1期
   主流商业搜索引擎主要基于关键词精确匹配技术。为提高在用户的输入错误时的检索效率,提出了有索引的汉语模糊匹配算法。该算法采用汉字、拼音和拼音改良的编辑距离这3种汉字相似程度的不同度量方式,对用户查询进行扩展,将模糊匹配转化为多个精确匹配,对精确匹配的结果按与查询串的相似程度进行排序。在实验中,将该方法应用于网页文本语料库中。在使用基于拼音改良的编辑距离度量方式时,在时间和空间复杂度增长不大的情况下,该方法取得了60.42%的准确率与50.41%召回率。    

19.  基于AHP方法的成员搜索引擎调度策略  
   张卓《西安石油大学学报(自然科学版)》,2014年第4期
   为满足用户在信息搜索中快速且准确地获取有价值信息的需求,在元搜索引擎基础上提出了一种基于AHP(Analytic Hierarchy process)方法的成员搜索引擎调度策略。该策略从成员搜索引擎对查询内容的相关度、平均响应时间和负载量3个指标来评价成员搜索引擎的性能,并根据指标权重的不同采用AHP层次分析法选择性能最佳的若干成员引擎进行调度。实验结果表明,该策略在提高查准率、缩短查询时间方面比传统的成员搜索引擎调度策略有较大改进。    

20.  基于用户访问兴趣的Web日志挖掘  
   何跃  马丽霞  腾格尔《系统工程理论与实践》,2012年第32卷第6期
    Web日志挖掘可以发现访问者兴趣和需求, 提出了一种改进的以访问时间、点击次数以及访问路径共同刻画用户的访问兴趣的Web日志挖掘算法. 首先以Web日志为基础构建相关矩阵, 使用平均访问时间相似度和访问路径相似度共同度量用户访问兴趣的相似程度, 最后采用直接聚类去除相交项的聚类算法将相似用户和相关URL聚类. 实证分析结果表明该算法能较好地解释用户的实际访问兴趣, 从而为网站提供相应的运营建议.    

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号