首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
面向行业主题的搜索在特定主题信息覆盖方面与通用搜索引擎有着截然不同的要求,为解决行业信息搜索的问题对基于向量空间算法的化工相关度计算以及对经典的Page-Rank页面排序算法做了研究与改进并且在Nutch搜索引擎架构基础上,搭建了一个面向化工行业信息资源的垂直搜索引擎。相对于通用搜索引擎来说剔除掉了不必要的搜索结果信息量,提升了系统速度,提高了行业信息搜索的准确度。  相似文献   

2.
随着互联网信息多样化和爆炸式的发展,人们面临着"信息迷航"和"信息过载"的困扰;当代社会对信息检索的需求不仅仅局限在通用搜索引擎,更需要针对特定领域设计出个性化搜索引擎。通过分析研究网络搜索引擎的组成结构及利用Lucene构建搜索引擎的方法,在Lucene原有网页排序算法基础上,结合PageRank算法的思想和用户喜好权重,提出更具个性化的网页排序算法,以反馈给用户符合其个性化需求的搜索结果。在.Net开发平台,利用C#语言,结合几种开源API,完成了个性化网络搜索引擎系统的设计与实现。系统界面设计采用了XAML及Ajax技术,搜索结果显示模块采用异步传输技术,使用户界面更加友好。通过测试和分析,系统实现了个性化搜索,用户不翻页也可以查看全部搜索内容,用户的体验度得到了提升。下一步将增加爬虫对于网络错误信息的处理及对于病毒网站的过滤功能。  相似文献   

3.
大数据时代,从海量的数据中发现对用户有用的知识成为研究领域重要的问题.通过集成多个搜索引擎的查询结果,实现食品安全领域中搜索信息的集成和个性化自适应排序.本文设计基于元搜索技术、知识本体和自适应的排序学习技术,实现多个搜索引擎相关查询结果集成,在对用户点击的标注和知识本体的基础上,利用基于监督学习的排序技术,实现对食品安全领域信息的个性化自适应排序.系统实现了集成多个搜索引擎的食品安全相关知识的提取和相关结果的重新排序.本研究不仅实现了多个搜索引擎食品安全信息查询相关的结果集成,而且能够根据用户的偏好实现结果的自适应排序.  相似文献   

4.
为了最大限度地获取Deep Web数据源信息,并对获取到的数据源信息进行分类,方便后续的数据源集成工作以及用户的检索使用,提出了一种基于数据库的实时的Deep Web数据源搜索框架,该模型在本地服务器上设计安装"数据源发现应用程序"模块,通过各搜索网站下载安装的"客户端数据源应用程序"模块实现数据信息的对接和实时传送.为了保证检索效率,利用知网结合同义词词林对各大被检索网站进行分类.  相似文献   

5.
为提高垂直搜索引擎中面向服务行业的页面搜索查准率,提出了一种语义模型的设计与实现方法.该模型以面向服务行业的垂直搜索引擎为研究对象,根据服务行业领域知识将查询词分成三种语义(品牌词、类别词、服务项目),针对三种语义设计差异化搜索方案;并改进了页面搜索排序方法.该语义模型首先通过识别查询词的类型,得到相应的过滤条件;然后由过滤条件限制搜索范围,去掉不相关的搜索结果;最终通过改进页面搜索排序算法,提高搜索准确率.实验结果表明,应用该语义模型得到搜索过滤条件,使用过滤条件限制搜索范围,搜索的正确率提高了2个百分点~7个百分点,有效提高搜索引擎的查准率,提升用户体验和工作效率,对其他领域或行业也有一定的借鉴意义.  相似文献   

6.
为了让用户根据歌词内容快速精准地检索音乐,提出一种基于word2vec的中文歌词关键词提取算法.算法运用word2vec将歌词表征为词向量,根据词向量计算词语之间的相似度,其次通过K-means聚类算法得到歌词关键词.同时与基于TFIDF、LDA模型的歌词关键词提取结果进行比较,发现从该算法得出的10个关键词中抽取与人工标注相同的2-5个时,准确率明显增加.  相似文献   

7.
利用标签的层次化搜索结果聚类方法   总被引:2,自引:0,他引:2  
为了提高搜索引擎返回结果的可浏览性,满足用户对查询质量的要求,提出了一种层次化搜索结果聚类方法.首先,从搜索引擎的返回结果提取出文档集,并对每一个文档进行词干化、去除停用词等操作.然后,根据词共现信息来发现文档集中的频繁2元组,再将2元组扩展为n元组,对所有元组进行去冗余、重要性排序,从而获得候选聚类标签.最后,基于该标签对返回结果中的文档进行分配与聚集,形成层次化聚类结果.实验结果表明,所提方法可以通过获得的准确、可读性较好的聚类标签,帮助用户有效地浏览搜索引擎返回的结果.与Vivisimo、STC、Lingo算法比较,以及在多个评价指标上的综合实验结果也表明,该方法是有效的.  相似文献   

8.
传统搜索引擎无法满足用户对社区网络中实时信息的需求。给出一种实时搜索引擎模型,利用经过算法优化的网络爬虫,实现制导式的数据抓取,同时利用社区网络提供的开放API获得更新数据。通过XML结构化数据,使用改进的向量空间模型对信息进行过滤和分类,并采用考虑时间因素的相关度算法对搜索结果进行排序。实验证明该模型能够实现搜索结果的实时性,并且能够保证搜索项与搜索结果之间比较高的相关度,为用户提供更好的搜索体验。  相似文献   

9.
为解决情感分类中词间的语义关系难以表达和分析的问题,提出了一种基于词向量(word representation)和支持向量机(support vector machine)的情感分类算法,对电子商务在线评论的情感分类问题进行研究.首先使用word2vec聚类相似特征,然后使用word2vec和SVM对情感数据进行训练和分类,并分别使用基于词特征和基于词性标注的方法进行特征选择.在京东评论数据上进行的实验结果表明,与现有方法相比,分类准确率和召回率得到了提高.  相似文献   

10.
赵福庆 《甘肃科技》2000,16(4):58-58
搜索引擎是一些在Web中主动搜索信息并将其自动索引的Web网站,其索引内容存储于可供查询的大型数据库中。搜索引擎建立的索引与目录服务不同,前者集中页面上的单词,后者则集中网站作者简短的特定描述内容。许多搜索引擎索引它收到的每个页面的每个单词,而另一些搜索引擎只可能索引页面的前250—500个单词。使用搜索引擎会得到比目录服务返回更多的结果。使用搜索引擎的人越来越多,搜索的范围也越来越广。但为了得到更准确的内容,必须使用一定的技巧(如多个关键词和布尔搜索技术)来缩小搜索范围。总的说来,重要的技巧是如何选好关…  相似文献   

11.
由于通用搜索引擎具有搜索信息量大、查询不准确、深度不够等缺点,本文在通用搜索引擎技术的基础上,依据专业领域搜索策略,设计并实现了一个面向教育主题的垂直搜索引擎系统,着重研究了专业网络蜘蛛定制、基于VSM的主题相关度算法和倒排索引建立等关键技术及其实现细节.实验结果表明,该系统能够快速地响应用户的查询请求,并且返回结果具有较高的准确性.实现了教育资源的共享,具有较高的应用价值.  相似文献   

12.
针对通用搜索引擎在当前网络搜索应用中出现的搜索结果冗余度过大、信息定位不准确的问题,对垂直搜索引擎进行了研究,剖析了通用搜索引擎和垂直搜索引擎的体系结构,比较了两者的工作流程和搜索结果进行,利用垂直搜索引擎专注于某一领域从而降低了"一词多义"现象的特性,有效提高了查全率和查准率。针对垂直搜索引擎在无法满足不同用户的个性化需求方面的不足,分析了垂直搜索引擎的个性化信息检索和推荐技术,然后从实际应用出发,设计和实现了基于用户和文档特征向量矩阵的个性化检索和推荐算法。  相似文献   

13.
由于通用搜索引擎具有搜索信息量大、查询不准确、深度不够等缺点,本文在通用搜索引擎技术的基础上,依据专业领域搜索策略,设计并实现了一个面向教育主题的垂直搜索引擎系统,着重研究了专业网络蜘蛛定制、基于VSM的主题相关度算法和倒排索引建立等关键技术及其实现细节。实验结果表明,该系统能够快速地响应用户的查询请求,并且返回结果具有较高的准确性。实现了教育资源的共享,具有较高的应用价值。  相似文献   

14.
本文分析了搜索引擎在医学网站中应用,重点阐述了图像文件的搜索方法,在站内搜索引擎的设计过程中,主要以人工方式搜集信息,由编辑人员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类中,并对重要内容建立索引。在进行搜索的同时自动连接数据源之后,首先对用户输入的索引词进行格式处理,删除出现在关键字前后的空格,而且把无效字改成空格,接下来把它与数据库内容进行近似匹配,并使用递归方法把所有相关内容作为结果进行输出。  相似文献   

15.
个性化搜索引擎研究的目的是使搜索结果尽可能满足不同用户的信息需求,而排序算法在搜索引擎技术中占有着核心的地位.提出了一种基于改进的DBSCAN聚类的个性化排序算法,在全文搜索包Lucene与开源搜索引擎Nutch的基础上,实验证明该方法提高了用户搜索的准确率和召回率.  相似文献   

16.
元搜索是一种基于搜索引擎的搜索引擎,它将各个独立搜索引擎的结果经过融合呈现给用户,以此为用户提供更加全面的信息,但是要在数量庞大的搜索结果中快速的找到自己所需要的信息却不是一件容易的事。本文提出了一种基于用户兴趣的个性化元搜索引擎模型,通过提取用户个性化行为特征,建立用户兴趣库,并对搜索结果进行合理排序和整合,将用户最感兴趣的信息尽可能排在最前面,从而实现元搜索的个性化,提高用户搜索的查准率和效率。  相似文献   

17.
对微博文本的多元情感分类问题进行了研究.针对现有的多元情感词典不能很好地覆盖微博文本中情感词的不足,结合特定的情感符号和基于卡方统计量的度量方法,实现对现有的多元情感词典的扩充;针对情感词典无法有效考察文本的上下文语境信息的问题,引入word2vec模型实现情感词和其所在微博语句的向量化表达.在此基础上,利用KNN分类器实现微博句子级的多元情感分类.实验结果表明,扩充情感词典及引入word2vec模型均有助于提升微博文本多元情感分类的效果.  相似文献   

18.
基于word2vec和BERT词向量技术的方法在文本分类分词过程中存在着错误传播问题,提出了融合ERNIE词向量技术的卷积神经网络模型.针对中文文本,运用ERNIE实体掩码的方式捕获词汇和语义信息,使用卷积神经网络进行特征提取.在THUCNews开源数据集上,准确率达到93.95%,比Word2Vec-CNN高出3.4%,BERT-CNN高出3.07%.实验结果证明了本文模型在缓解错误传播问题的有效性.  相似文献   

19.
搜索结果的合成是元搜索引擎系统中一个重要的技术问题。为了提高元搜索引擎的查询精度,提出了一种改进的元搜索结果合成算法。通过分析搜索结果列表中包含的文本信息,综合考虑搜索结果与查询的匹配完全程度和相关程度给出了文本分析的规范化方法,并结合搜索结果的排序信息计算文档的相关分值,据此实现对局部相似度的调整。利用成员搜索引擎的性能评价,提出了改进的影子文档方法估算非相关文档的相关分值。然后,采用基于群决策的合成方法对搜索结果进行一致性排序。在实际Web环境中进行了测试,实验结果表明采用本算法,搜索结果的相关性比Round-robin、CombSum和CombMNZ三种合成算法有较大提高。  相似文献   

20.
针对通用搜索引擎无法及时收录校园网内信息和收录时间滞后的问题,基于Scrapy框架和Elasticsearch全文搜索引擎,提出了一个完善的校园网搜索引擎解决方案。该文主要分析了Scrapy的运行流程,对Elasticsearch的搜索机制进行了研究,在此基础上设计了校园网搜索引擎的系统架构,给出了系统的网页抓取模块、索引检索模块、页面展示模块的关键实现技术。最后通过实验验证,相比于传统的通用搜索引擎,该文设计的校园网搜索引擎的搜索结果相关性更好,数量更多,对于校园网内新信息的收录情况更好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号