期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈翀李峰毛先领何靖闫宏飞《广西师范大学学报(自然科学版)》2010,28(1)

构建了一种新型文献检索系统,能够摘要一篇文献中引起读者研究工作关注的那些内容,并返回读者对这些内容的评论,从而帮助用户快速了解该文献的学术价值及不足之处等重要信息。利用文献间的引用关系从其他文献中找到指向一篇文献的评论上下文,借鉴查询-检索模式,将评论转化为一元语言模型所生成的查询,并将原文献划分为句子所构成的文档集,基于KL-divergence检索模型找到原文献中与评论对应的句子。选取得分最高的若干句子构成体现原文献对外影响的摘要。系统基于北京大学研制的智能搜索引擎平台Platform for Applying,Researching And Developing Intelligent Search Engine(PARADISE),具有快速构建可扩展好的优点。相似文献

2.

基于用户浏览时间的点击模型

何靖袁文清闫宏飞《华南理工大学学报(自然科学版)》2011,39(4):26-31,37

用户的点击行为会受到用户的浏览行为、周围文档的特征等因素的影响,故在分析用户点击日志时不能直接将用户点击解释为文档相关性.为了更加准确地获得文档的相关性特征,文中提出了基于用户浏览时间的点击模型.假设文档原文的相关性会影响用户浏览该文档原文的时间,即文档越相关用户浏览文档的耗时越长,这样便可利用用户浏览文档的时间来推测... 相似文献

3.

一种词汇共现算法及共现词对检索系统排序的影响 总被引：6，自引：0，他引：6

陈翀彭波闫宏飞王继民《清华大学学报(自然科学版)》2005,45(9):1857-1860

为了探讨共现词对检索系统排序相关性的影响,提出一种新的共现词汇算法--FDC.算法中考虑了词汇在文档中的共现频度、相对距离和共文档率.从天网搜索引擎查询日志中选取部分查询词,用本算法和潜在语义索引(LSI)方法分别求其共现词汇,并以相同的评分策略改变原始排序结果.Discounted cumulative gain(DCG)评估结果表明,本算法获得的共现词在99%的置信度下对原始排序的相关性有改进;而LSI方法获得的共现词对排序相关性也表现出同样显著的改进效果.结果显示共现词汇能改进检索系统结果排序的相关性,并且不依赖于特定算法. 相似文献

4.

词汇与中心词的距离信息对问句相似度匹配的影响

闫宏飞陈翀《清华大学学报(自然科学版)》2005,45(9):1873-1877

在问答式信息检索中引入基于frequently askedquestions(FAQ)的辅助模块满足常见问题的回答是一种有效的手段,其中关键问题是用户提出的问句与FAQ中问旬的相似度比较,找出FAQ中最相近的问句,并返回对应的答案,作为对用户问题的解答.该文设计实现了一种FAQ辅助模块,并试图发现词汇与中心词的距离信息对于问句相似度匹配的词汇权重的影响.使用两组不同的测试集进行评测,实验表明,采用词汇与中心词的距离信息计算问句相似度,其影响能力弱于文档频率的作用,但是在相似度阈值0.5的情况下,两种方法均没有错误判断. 相似文献

5.

基于沪深300成分股的量化投资策略研究

吕凯晨闫宏飞陈翀《广西师范大学学报(自然科学版)》2019,37(1)

本文以沪深300指数成分股为股票池,构建出一个能持续战胜市场的量化选股模型。第一步先从基本面入手,通过多因子打分模型筛选出50只长期优势股,对应的上市公司经营状况良好,具有一定投资价值,但短期内可能受市场震荡影响,未必在一周之内有上涨表现。在第二步引入支持向量分类算法对长期优势股展开技术分析,从中选出本周上涨概率最大的10只优势精选股买入。该模型在2015—2017年累计收益率达73.03%,年化收益率为20.05%,夏普比率为0.54,远超同期沪深300指数的业绩表现。相似文献

6.

基于循环神经网络和深度学习的股票预测方法

黄丽明陈维政闫宏飞陈翀《广西师范大学学报(自然科学版)》2019,37(1)

本文提出一种基于多路循环神经网络与深度学习的股票预测方法。针对股票的涨跌预测问题,使用分布式向量表示方法提取出股票相关的新闻文本特征,同时考虑到股票相关信息的时序性以及新闻影响的持续性特质,使用多路循环神经网络模型对所提取的特征与交易信息进行协同训练,从而获得历史信息的低维向量表示。最后将多个循环神经网络的输出进行拼接,利用深度神经网络共同对股票的涨跌进行分类预测。本文使用上证A股的价格与新闻数据进行实验,实验结果表明,本文所提出的方法在股票预测任务上具有明显的优越性。相似文献

7.

一个增量搜集中国Web的系统模型及其实现 总被引：5，自引：0，他引：5

孟涛闫宏飞王继民《清华大学学报(自然科学版)》2005,45(9):1882-1886

针对中国Web的高效增量搜集,设计试验考察了网页的短期变化规律,估算出增量搜集需要的最小搜集能力.提出一个通用的增量式搜集系统模型和它的性能准则,该模型阐明了增量搜集的运行原理.针对该模型,结合北大天网增量搜集系统的开发经验,讨论了它的性能瓶颈并给出解决方案.对增量搜集的两类目标--变化网页和新网页,探讨了相应的搜集策略.介绍了该模型的实现和性能状况.该文的工作为增量搜集系统的设计和实现提供了一个成功的模型. 相似文献

8.

基于元信息的云盘资源检索结果去重

刘驰闫宏飞《山东大学学报(理学版)》2016,51(7):11-17

区别于传统计算网页文本相似度的去重方法,以多媒体数据文件为主的云盘资源仅可利用相当有限的元信息进行检索结果去重。针对这一问题,以搭建的面向云盘资源数据的搜索引擎系统为基础,通过对云盘资源元信息特性的分析,发现除名称之外,资源文件后缀名、占用空间大小、资源的用户归属是判定重复记录的有效特征。在此基础上,给出了处理上述特征的归一化方法,进而使用无监督方法进行去重。实验结果表明,该方法能够有效对云盘资源检索结果去重。相似文献

9.

搜索引擎动态摘要算法

树柏涵闫宏飞《郑州大学学报(理学版)》2009,41(2)

搜索引擎摘要的选取原则、算法规则一直没有明确的框架或算法,以形成用户查询为中心的动态摘要为出发点,给出了动态摘要算法实现的形式化原则,并具体实现了一种动态摘要算法.与百度搜索引擎的动态摘要相比较,实验结果表明,算法一致性比百度搜索引擎的一致性高出6%. 相似文献