首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 197 毫秒
1.
为提高网页数据查询速度、精度及工作效率,提出一种面向用户偏好的动态网页数据交互式查询算法.首先,构建用户偏好模型,增加偏好组合的演化个体适应性,综合计算适配值;其次,为防止数据冗余和重复,基于兴趣相似性,分离相似度高的查询数据和重复数据,识别出网络数据的性质;最后,利用粒子群优化算法寻找最优的动态网页数据交互式查询方案.实验结果表明:在数据集基数影响下,该算法的查询结果集质量在0.95以上;在查询最大维数影响下,该算法的查询结果集质量在0.96以上,表明其查询使用时间短、结果集精度高、自适应能力强.  相似文献   

2.
面向交易实时数据库内存数据的组织方法   总被引:2,自引:0,他引:2  
研究面向大规模电子交易实时数据库中密集内存数据的高效组织方法.采用线性存储池实现内存数据的物理存储组织,并根据交易事务更新内存数据的update-in-place和append-only特点,采用T树索引实现元组固定数据的逻辑组织,采用缠绕的双向链式索引实现动态数据的逻辑组织.简化了物理空间的分配和调整算法,提高了数据更新和索引重构的效率,降低了内存数据查询访问的时间复杂度.结果表明,基于T-树索引和链式索引的数据查询算法的时间复杂度分别控制在O(lnN)和O(ln(N 1)-1),满足大规模电子交易的需要.  相似文献   

3.
如何准确表达用户意图,判断网页与用户需求的相关性是信息检索技术研究的重要方向。本文提出了一种基于网页内容分割的语义信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用内容相似性和视觉相似性进行节点的整合。根据用户的查询,充分利用区域信息来对相关的检索结果进行排序。实验表明,本文提出的方法可以显著地提高搜索引擎的查询效果。  相似文献   

4.
针对卫星海量测控数据以时间区间检索、结果按时间排序的需求,提出了基于数据库时间分区表与索引组织表(IOT)的存储和查询方法。时间分区表采用将数据存放到多个物理表空间,在数据查询时不需每次扫描整张表,检索时间明显缩短,且查询响应时间不会随着数据量的增长而增加;索引组织表是将数据直接存放在索引中,降低了存储空间的占用,以损失较小的写入效率为代价。通过对某卫星实验和分析,证明了方法的有效性和正确性,提高了数据存储和查询的效率。  相似文献   

5.
检索系统构建了用于记录各数据项在数据表和字段中位置的索引结构,以及基于数据库关系图的用于描述各个数据表之间关联关系的主外键关系表,根据索引结构和主外键关系表检索出与用户输入的多个关键词相关联的记录.为了进一步提高检索效率,又构建了一个查询结果存储结构,把查询过的关键词和对应的结果存入其中.当用户输入关键词进行检索时,检索系统先去查询结果存储结构中检索,如果检索到就直接输出结果,否则再通过访问索引结构和主外键关系表构建SQL语句到原始数据库中进行检索得到结果.实验结果表明,这种基于索引结构和查询结果存储结构的检索机制具有较好的检索性能.  相似文献   

6.
一种编辑距离算法及其在网页搜索中的应用   总被引:1,自引:0,他引:1  
针对传统方法不能很好地处理网页中简短域与用户查询之间的相关性排序问题,提出一种基于改进的编辑距离排序算法.将以词为单位的用户查询和简短网页域通过匹配编码转化为2个字符串,再利用改进的编辑距离计算2个字符串之间的相似性.由于在用户查询与待比较的简短网页域之间引入了查询词分布的位置、顺序和距离等,以及含有查询词修饰关系的重要信息,所以编码字符串之间的相似程度可以衡量对应的查询与简短网页域之间的相关性.经大规模真实搜索引擎实验表明,该算法较之传统的相关性排序算法,可以显著地提高网页搜索中的简短网页域相关性排序性能,尤其适用于简短域与用户查询之间的相关性比较.  相似文献   

7.
搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果优化处理中的页面正文内容去重。  相似文献   

8.
提出了一种基于独立特征的并行索引体系结构以检索符合正态分布的高维数据.通过分析并行搜索的多维数据及其复杂度,结合用户设定的维度权重返回待核实的结果,最后通过加权相似度计算函数合并检索结果以完成kNN查询.针对高维数据的异构性特点,给出了规范情景上下文信息数据的算法.通过联合香港大学的2个社区和深圳先进研究院的CNGrid社区进行的测试,证明基于并行检索机制的100NN查询准确率可达93%,在千万个高维数据中的检索时间小于0.7s,结果表明所提出的并行索引机制能有效提高查询效率,尤其适合海量高维数据的有偏组合特征查询.  相似文献   

9.
高效FTP搜索引擎的设计与实现   总被引:1,自引:0,他引:1  
为了解决传统FTP搜索引擎对检索结果优化程度不够而造成的检索质量低的问题,在对FTP用户查询日志进行统计分析的基础上,采用双字节倒排索引、检索结果自动分类以及查询自动纠错等技术设计了一种高性能的智能化FTP搜索引擎.双字节倒排是对文件名中每两个字节建立倒排索引表,自动分类是对检索结果按主题划分为层次结构,查询自动纠错是以用户查询日志中的高频查询词为数据源构建拼写错误词典.试验结果表明,该方案能够有效地提高FTP搜索引擎的文件检索效率与质量.  相似文献   

10.
当前主流的搜索引擎根据查询词在网页中的出现频率,辅以网页权威性等信息,生成查询结果.但用户提供的查询词往往非常简单,因此搜索引擎难以确定用户的查询意图.为此,给出了一种利用海量clickthrough数据进行网页内容相关性挖掘的方法,在此基础上给出了一种反馈式搜索引擎(FSE)框架及相关算法.FSE根据网页相关性动态生成查询结果,以期提供给用户更中肯和个性化的信息.基于真实点击数据,进行了网页相关性矩阵的压缩实验和有效性实验,证明了该框架的可行性.  相似文献   

11.
一种基于时间感知的搜索引擎模型   总被引:2,自引:0,他引:2  
目前许多用户查询与网页信息的时效性密切相关,但当前的搜索引擎在处理许多具有时间属性的查询时还不尽如人意。通过引入基于时间感知的用户查询理解、索引结构和页面排序算法,提出一种基于用户查询日志挖掘的时间感知搜索引擎模型,来克服当前主流搜索引擎在处理具有时效性查询时存在的不足在真实的Web环境下广泛进行的实验结果表明了该模型的有效性。  相似文献   

12.
基于聚类的智能网页推荐系统研究   总被引:1,自引:0,他引:1  
设计了一种智能网页推荐系统的架构,其中包括数据预处理、聚类分析和网页推荐3个子系统,可以根据网站的访问日志来对用户进行自动分类,进而对网站的新用户在线提供网页推荐。提出了路径间距离的计算方法,进而研究了聚类子系统的结构,并通过对微软网站中用户访问日志的仿真实验,说明了所述方法的有效性。  相似文献   

13.
一种基于后缀树的中文网页层次聚类方法   总被引:1,自引:3,他引:1  
为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比。聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。  相似文献   

14.
刘雅正 《科学技术与工程》2012,12(31):8447-8450,8464
随着信息技术不断的发展,海量数据的处理效率成为不可逃避的问题。传统的网页分类算法在分类效果上已经相对成熟,所以在这样的背景下从传统网页分类算法中特征值权重算法的效率和代价出发,分析并提出了基于简化MD5的特征值权重算法。有效减少了特征值提取时的比对和最后一次排序的效率,从而提高了整个网页分类的效率。  相似文献   

15.
Nutch的网页更新预测方法采用的是邻比法,相关更新参数需要人为设定,不能自适应调整,无法应对海量网页更新的差异性.为解决这个问题,提出动态选择策略对Nutch的网页更新预测方法进行改进.该策略在网页更新历史数据不足时,通过基于MapReduce的DBSCAN聚类算法来减少爬虫系统抓取网页数量,将样本网页的更新周期作为所属类其他网页的更新周期;在网页更新历史数据较多时,通过对网页更新历史数据进行泊松过程建模,较准确地预测每个网页的更新周期.最后在Hadoop分布式平台下对改进该策略测试.实验结果表明,优化后的网页更新预测方法表现更优.  相似文献   

16.
PageRank-Pro: 一种改进的网页排序算法   总被引:9,自引:1,他引:8  
根据网页点击信息改进了原有的PageRank算法, 利用Seidel迭代算法加快了迭代收敛 过程. 实验结果表明, 改进后的迭代算法效率提高23%左右.  相似文献   

17.
搜索引擎通过网页搜索软件查询互联网上的链接,访问网络公开域中的每一个站点,将它们的网址带回搜索引擎,同时给web页上的文本建立索引,从而创建出一个详尽的网络目录。由于网络文档的不断变化,搜索软件也不断地更新以前已经分类的目录。搜索引擎目前广泛应用于网络资源搜索和商业智能系统。  相似文献   

18.
A new common phrase scoring method is proposed according to term frequency-inverse document frequency (TFIDF) and independence of the phrase. Combining the two properties can help identify more reasonable common phrases, which improve the accuracy of clustering. Also, the equation to measure the in-dependence of a phrase is proposed in this paper. The new algorithm which improves suffix tree clustering algorithm (STC) is named as improved suffix tree clustering (ISTC). To validate the proposed algorithm, a prototype system is implemented and used to cluster several groups of web search results obtained from Google search engine. Experimental results show that the improved algorithm offers higher accuracy than traditional suffix tree clustering.  相似文献   

19.
基于SES开发通用爬行器,可以对企业数据库、门户网页、文档文件、办公系统内容等进行抓取和分析,提取企业级用户所关注的信息,并对抓取的数据进行索引,存储到索引库当中,以及提供增量爬行机制,系统界面友好,准确高效.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号