首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 467 毫秒
1.
针对目前资本市场上快速挖掘某种主题概念股票的需求,提出了一种新思路,该思路以上市公司的核心题材、主营收入和资本运作3项数据为基础,进行主题概念相关指数的分析和计算,最终以此指数作为标准推荐主题概念相关股票,并开发了一套数据抓取程序和Web应用程序。数据抓取程序利用定时组件Quartz从各大财经网站抓取全体上市公司已公开的各类基本信息,存入分布式文件系统HDFS中; Web应用程序接收用户输入的查询关键字组合,系统利用抓取的数据集从公司收入、投资和核心概念3方面分析和计算出公司与用户需要查询的关键字组合的相关指数,最后汇总为总相关指数,总相关指数越高的公司,其相关度越高,相关度越高的公司越有可能就是用户想要查找的相关主题概念公司。通过这3方面的结合,在公司的过去和未来,在定性和定量等多个方面都进行了相关度的挖掘,从而计算出来的相关性将更加可靠、准确。  相似文献   

2.
讨论了基于XML文档的关键字查询技术,根据XML文档结构的特点,结合关键字查询的需求,提出查询文档中主题的概念;建立XML文档的主题索引,设计出基于主题的高效查询算法.该算法依据主题索引和输入的关键字判断用户的查询主题,再根据主题执行获取最终查询的结果.在查询过程中不仅排除了查询主题不相关的关键字节点,同时也避免生成不相关的查询结果,提高了查询效率和质量.实验结果证明了该算法在绝大多数情况下的高效性.  相似文献   

3.
针对现有的主题爬行方法存在收益率不高和不稳定的问题,融合本体和最小二乘支持向量机理论,提出一种主题爬行方法 Ontology-LSSVM.该方法将本体作为抓取主题的背景知识表示,得到一组主题相关概念的集合,再将其在网页文本中出现的词频作为输入,构造一个主题相关度LS-SVM分类器,用于网页的分类.使用舆论热点的食品安全问题作为爬行主题领域,建立问题食品本体,进行实验.结果表明:在本实验条件下,本文方法相比基于LS-SVM、基于本体和基于关键字的主题爬行,能够维持更高的收益率.  相似文献   

4.
针对XML文档半结构化的特点及传统tf\|idf方法仅考虑关键字在文档中出现的频率, 而未考虑XML文档中节点的语义信息问题, 利用向量空间模型, 设计一种基于XML关键字查询结果的相关度排序策略. 相关度计算充分考虑XML文档中各节点对文档的区分程度、 节点描述文档的明确程度及节点描述文档的直接程度, 以提高节点权重度量的准确性, 从而将最相关的信息提供给用户, 经DBLP数据集实验验证了该方法的有效性.  相似文献   

5.
王鹏 《科学技术与工程》2011,11(6):1241-1245
在信息检索中,关键词之间的距离反映了其对信息描述的集中程度,并对检索结果与用户需求的相关度产生影响。通过对XML数据固有的结构信息进行深入分析,确定了被检索数据的信息对象和信息分支的概念,并考虑以上因素建立语义距离模型。通过该模型的计算,能够更准确地计算出查询结果的相关度。实验结果证明:在真实数据集上,查询质量方面优于现有的主流算法(EASE、SLCA),同时具有较高的查询效率。  相似文献   

6.
基于本体的临床试验数据语义查询   总被引:2,自引:0,他引:2  
临床试验数据的描述中多自然语言、多专业医学术语的特点使得用户难以通过自定义的关键字快速定位所需的资源。该文采用基于本体的方法实现对于临床试验数据的语义查询。该系统的实现步骤如下:使用OWL(Web on-tology language)构建基于ICD-10和ICMJE标准的本体,包含疾病和临床试验类;从Clinical Trials注册库获取临床试验数据,标注为本体中的临床试验类实例;建立临床试验实例与疾病实例的联系;借助SPARQL实现对于临床试验数据结构化的查询。使用上述方法,用户能够通过疾病实例和相关属性的关键字,表达结构化的语义查询条件,精确定位所需的临床试验。与传统的仅基于关键字匹配的查询方法相比,该方法所表达的查询条件能够更加准确地描述用户的查询需求。  相似文献   

7.
用户查询与文档之间语义匹配但词法不匹配现象是影响信息检索效果的重要原因之一.鉴于语义检索受限于本体自身的质量,为了降低其对检索效果的影响,通过分析目前语义查询扩展的研究现状,在已有概念相似度计算算法研究基础上进行改进和融合,提出了一种基于本体的信息检索查询扩展方法,并主要对基于本体技术的概念相似度计算算法进行修正,得到了组合向量空间模型QCR(Q,Ci)=∑k=1.….K wk*Sim_Rel(qK,Ci),作为引入查询扩展后的查询结果相关度评价方法.这种方法中,通过建立本体模型并计算本体中概念间的语义相似度来确定扩展查询词,它可以根据用户输入的名称,检索出相关文档并由用户自由设置相似度阈值,并将普通主题检索与语义检索合并,在本体乏力时返回普通检索结果,这在一定程度上弥补了垂直检索系统发展的不足.  相似文献   

8.
基于本体的信息过滤需求模型构造   总被引:1,自引:0,他引:1  
在信息过滤系统中,由于缺乏语义模型作为支撑,基于关键词的用户需求模型难于准确地反映出用户的真实需求,成为影响过滤性能的主要瓶颈.提出了以本体构造用户需求模型的方法:采用领域相关度和领域一致度组合方法来确定查询关键词在特定领域的重要程度,建立查询关键词到本体概念的映射,然后利用本体的概念及属性构造用户需求模型.这种基于本体的用户需求模型构造方法能提高过滤系统性能.  相似文献   

9.
用户查询与文档之间语义匹配但词法不匹配现象是影响信息检索效果的重要原因之一。鉴于语义检索受限于本体自身的质量,为了降低其对检索效果的影响,通过分析目前语义查询扩展的研究现状,在已有概念相似度计算算法研究基础上进行改进和融合,提出了一种基于本体的信息检索查询扩展方法,并主要对基于本体技术的概念相似度计算算法进行修正,得到了组合向量空间模型QCR(Q,Ci)=∑k=1,…,Kwk-Sim_Rel(qK,Ci),作为引入查询扩展后的查询结果相关度评价方法。这种方法中,通过建立本体模型并计算本体中概念间的语义相似度来确定扩展查询词,它可以根据用户输入的名称,检索出相关文档并由用户自由设置相似度阈值,并将普通主题检索与语义检索合并,在本体乏力时返回普通检索结果,这在一定程度上弥补了垂直检索系统发展的不足。
  相似文献   

10.
用户查询与文档之间语义匹配但词法不匹配现象是影响信息检索效果的重要原因之一。鉴于语义检索受限于本体自身的质量,为了降低其对检索效果的影响,通过分析目前语义查询扩展的研究现状,在已有概念相似度计算算法研究基础上进行改进和融合,提出了一种基于本体的信息检索查询扩展方法,并主要对基于本体技术的概念相似度计算算法进行修正,得到了组合向量空间模型QCR(Q,Ci)=∑k=1,…,Kwk*Sim_Rel(qK,Ci),作为引入查询扩展后的查询结果相关度评价方法。这种方法中,通过建立本体模型并计算本体中概念间的语义相似度来确定扩展查询词,它可以根据用户输入的名称,检索出相关文档并由用户自由设置相似度阈值,并将普通主题检索与语义检索合并,在本体乏力时返回普通检索结果,这在一定程度上弥补了垂直检索系统发展的不足。  相似文献   

11.
利用支持向量回归确定相关Web查询   总被引:1,自引:0,他引:1  
对用户输入的查询请求,如果搜索引擎系统能给出一个相关查询列表,将有助于用户进行查询修正,进而检索到用户所需要的信息.文中提出了一种利用支持向量回归确定相关Web查询的新方法.对一个给定的Web查询,首先从用户的使用记录中抽取候选查询的5个量化指标:被查询的次数、被查询的用户量、用户在反馈结果中的点击次数、与给定查询间的共有词项个数和点击相同网址(URL)的个数;然后用手工标记部分训练数据,进而建立支持向量回归模型,根据相关度的大小确定相关Web查询.实验结果表明该方法具有较高的准确度.  相似文献   

12.
陶忠 《科技资讯》2006,(31):46-47
本系统主要完成对外理公司相关业务的管理,包括系统权限管理子系统、公司基本信息子系统、业务基本信息子系统、数据接收及发送子系统、单证管理子系统、费收业务、数据统计、查询子系统等八个方面。系统可以完成对各类信息的浏览、查询、添加、删除、修改、报表等功能。系统的核心是理货数据生成、核对和出具相关报告、产生费收统计数据及报表;每一个数据表的修改都将联动的影响其它的数据表,当理货数据进行维护时其他相关数据会自动地生成或完成修改。查询功能也是系统的核心之一,在系统中即有单条件查询和多条件查询,也有精确查询和模糊查询,系统不仅有静态的条件查询,也有动态生成的条件查询,其目的都是为了方便用户使用。系统有完整的用户添加、删除和密码修改功能,并具备报表打印功能。系统采用SQLServer7.0来设计数据库,并使用当前优秀的开发工具—PowerBuilder6.5,它有着最为灵活的数据库结构,对数据库应用有着良好的支持。  相似文献   

13.
改进规则的可放缩矢量图形地图的查询模型   总被引:1,自引:1,他引:0  
分析了基于SVG(可放缩矢量图形)格式时态GIS(地理信息系统)领域,尤其是地理元素查询方面的研究现状,针对现有的XML(可扩展标记语言)查询方法进行了分析和对比.在基于SVG语法规则改进研究的基础上,并结合LISAⅡ(layered intersection scan algorithmⅡ,分层交叉扫描算法Ⅱ)查询技术,提出了一种适合改进规则的SVG格式的GIS数据地理元素查询模型及其算法,通过定义关键字查询语法规则表达式,定义关键字查询的""和"or"操作规则,实现了组合查询;通过定义实体元素节点,减少了节点数,提高了查询效率.该模型实现了SVG格式地图的地理元素查询,包括对整幅地图的各种组合查询和分图层的各种组合查询,解决了基于SVG格式地图元素查询的技术瓶颈.大量的数据验证表明,该查询模型是有效的.  相似文献   

14.
基于概念的信息检索模型研究   总被引:24,自引:2,他引:24  
随着Internet的迅速发展,WWW已经成为世界上最大的信息库,它正日益改变着人类的生活方式。然而,由于WWW信息资源庞大,结构复杂,如何高效地从中找到需要的信息,已经成为困扰网络用户的一大难题。许多著名的站点,如Yahoo,Alta Vista,Infoseek均使用基于关键字的搜索引擎,存在明显的缺陷,当查询用的关键字与目标文档尽管语义相同,但用词不一致时,将检索失败,导致召回率很低。提出一个基于概念的信息检索模型,它不是以关键字为核心,而是以概念为核心来实现信息检索。着重介绍了基于概念的信息检索模型的设施、方法和工具。  相似文献   

15.
目前互联网技术的研究热点是智能化的、个性化的服务,而传统的Web搜索排序算法和已有的个性化排序已经不能满足政府、企业等用户的信息查询需要.本文将研究核心定位到充分理解用户查询偏好上,提出了基于用户偏好的PageRank算法.文中利用用户互反馈技术修正查询关键词,利用语义相关性技术分析用户查询意图,理解用户偏好.改进的算法完善了搜索查询的可靠性依据,能够较好地挖掘用户的偏好主题,贴近用户的查询目的,提高搜索查询效率和用户满意度.  相似文献   

16.
用户数据安全与隐私保护是云计算环境中最重要的问题之一,通常采用密码学技术保护数据安全与隐私. 目前,基于密码学技术的数据安全查询、分享以及差分隐私保护是国内外的研究热点. 本文主要针对密文查询、密文分享和差分隐私等当前国内外研究的现状进行综述,指出存在的问题与不足. 在此基础上,重点介绍了文章作者团队在云计算环境下数据安全与隐私保护的最新研究成果. 在密文查询方面,提出了空间关键字密文检索技术,实现了轻量级的访问控制和多关键字搜索;在密文分享方面,提出了跨密码系统的细粒度密文分享方法,使用户可以指定访问控制策略将加密数据分享给不同加密系统中的用户. 最后,指出了当前研究中尚待解决的问题以及未来研究方向.  相似文献   

17.
观点检索是自然语言处理领域中的一个热点研究课题。现有的观点检索模型在检索过程中往往无法根据上下文将词汇进行知识、概念层面的抽象,这种稀疏空间下的检索方式影响了观点检索模型的性能。文章提出一种基于文本概念化的观点检索方法,通过知识图谱计算概念空间下不同文本之间的相似度以改善特征空间的稀疏问题。这一方法首先利用知识图谱分别将用户查询和文本概念化到概念空间,同时在概念空间计算查询与文本的主题相似度,接着基于词典计算文档的观点得分,最后将相关度得分与文本的观点得分二次组合成相关观点得分并用于观点检索。实验表明,在两个数据集上,本文方法相比基准工作在MAP评价指标上分别提升了4.2%和12.6%。  相似文献   

18.
传统的Web服务只提供了按照简单分类和关键字查询的服务发现方法,造成查准率和查全率低,随后出现带有语义的Web服务,它只关注服务功能性的匹配,缺乏用户参与的服务发现方法,难以保证服务发现的查全性。本文分析了现有的相关的一些研究,在Web服务模型的基础上,提出添加标签的思想,对基本描述、语义等方面进行分层聚类挖掘,并对服务表示进行深入研究,引入空服务概念,用相似函数来度量Web服务相似程度,为Web服务发现提供了一种有效的方法。  相似文献   

19.
本文利用2017年9月至2022年9月中国中证新能源指数、中证航空主题指数、中证医药健康100策略指数、中证农业主题指数和中证有色金属指数的交易日收盘价数据,采用3种多元GARCH模型(CCC-GARCH、DCC-GARCH和ADCC-GARCH)探索中国新能源公司与航空公司、医药健康公司、农业公司以及有色金属公司之间的动态股票收益与波动相关性。条件均值方程的估计结果显示,航空公司、医药健康公司与农业公司滞后1期的股票收益显著影响新能源公司的当期股票收益。CCC-GARCH、DCC-GARCH和ADCC-GARCH模型估计的条件相关系数表明,样本期内中国新能源公司的股票回报与有色金属公司的股票回报的条件相关性最大,其次依次为航空公司、农业公司和医药健康公司。通过滚动向前一步的动态条件相关性检验也表明了估计结果的稳定性。因此,投资者可以考虑将有色金属公司的股市表现作为预测新能源公司股票回报的先行指标,以降低投资风险。  相似文献   

20.
WEB文本挖掘中用户兴趣模型的建立和更新   总被引:5,自引:0,他引:5  
面对因特网的海量信息,为实现web文本挖掘,可建立用户兴趣模型,使用户很方便地获取所需的有用信息,排除无用信息。在建立这一模型之初,要通过观察用户行为,分析web页面与用户兴趣的相关度,利用静态和动态相结合方法给出一个“兴趣指数”,在此基础上,运用Web文本挖掘技术,通过计算与文本的匹配程度,将满足约定条件的文本推荐给用户,从而利用相关反馈建立和更新用户兴趣模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号