首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 859 毫秒
1.
随着电能质量监测点不断扩大,产生海量具有时序特性的多维电能质量数据,当前的诸多数据查询方法不能适应电网电能质量监测数据的交互式多维聚合查询需求。研究提出时序数据多维聚合服务的实现方法,为内存中预聚合后的任务结果建立哈希存储结构,对实时数据建立位图索引存储结构,将历史数据的预聚合数据尽量存储于内存中,改进随机读写的低性能问题,提升查询效率,解决交互式查询问题。同时运用最优聚合任务算法选择出尽量多的预聚合任务数,提高交互式查询命中率。实验验证了该算法的可行性,与分组二维背包算法相比,在预聚合任务数量选择方面具有一定优势。  相似文献   

2.
当前主流的搜索引擎根据查询词在网页中的出现频率,辅以网页权威性等信息,生成查询结果.但用户提供的查询词往往非常简单,因此搜索引擎难以确定用户的查询意图.为此,给出了一种利用海量clickthrough数据进行网页内容相关性挖掘的方法,在此基础上给出了一种反馈式搜索引擎(FSE)框架及相关算法.FSE根据网页相关性动态生成查询结果,以期提供给用户更中肯和个性化的信息.基于真实点击数据,进行了网页相关性矩阵的压缩实验和有效性实验,证明了该框架的可行性.  相似文献   

3.
针对从模板生成的网页中自动抽取web数据的问题,提出了一种新的树对齐算法.该算法能够确定输入网页的最大匹配结构.经过一系列的对齐操作之后,多棵树被合并成为一棵记录着合并前多个网页上的统计信息的合并树,树对齐算法可以发现合并树中的重复模式,在最可能内容块上构建包装器,并按照重复模式从网页上抽取数据.实验结果表明,该算法的抽取结果具有较高的准确性和良好的稳定性.  相似文献   

4.
目前基于不确定数据的Top-k查询算法仅考虑了集中式的环境,为了解决分布式系统中节省系统带宽的问题,在此基础上,提出了在分布式环境中基于不确定数据的Top-k查询算法UDTopk.该算法定义了一个候选集(candidate set),仅使用候选集中的数据,而不用访问数据集中所有数据,就可以得到正确的Top-k查询答案.算法通过动态维护候选集、仅传输少量数据,达到减少网络中数据传输的目的.实验结果表明,该算法可以有效地节省网络带宽.  相似文献   

5.
空间偏好查询是当前空间查询研究中的一类热点问题,而现有的空间偏好查询不能有效支持面向组用户的位置服务应用.为此,提出一类新型空间偏好查询——面向组近邻的Top-k空间偏好查询(Topk spatial preference query for group nearest neighbor).该查询通过查找特征对象的λ子集组近邻最终为用户返回评分值最高的前k个λ子集.为了高效执行这一查询,给出了两种查询算法:TSPQ-G及TSPQ-G*.其中TSPQ-G*在TSPQ-G的基础上,通过空间剪枝及高效的特征对象索引树遍历策略大幅减少I/O代价,进而有效提高了该查询的执行效率.实验采用多个数据集验证了所提算法在不同参数设置下的有效性.  相似文献   

6.
针对目前普通搜索引擎无法对动态网页的查询结果进行有效索引与排序的问题,提出了一种对动态网页的排名算法Con ten tR ank,并介绍其在商务网站中的应用.该算法通过对与动态页面相关的内容进行挖掘分析,计算页面排名得分,从而实现对此类动态网页的查询结果的排序,提高排名的准确性.  相似文献   

7.
本文研究基于用户偏好的最优路径搜索,在预算约束下寻找一条满足用户偏好即关键字和权重偏好的最优路径.此研究问题是NP-hard.为了高效地解决这类查询问题,本文提出新的索引建立方法,在查询阶段利用索引结构过滤出候选节点集.另外,提出基于A*的路径搜索算法来做路径查询,并利用几个有效的剪枝策略加快算法的执行速度.在两个真实的签到数据集上的实验结果证明了本文提出方法的有效性.当预算时间设置为4~7h时,与已有最好的PACER算法相比,本文的路径搜索算法消耗的查询时间更短.  相似文献   

8.
传统大数据交互式查询技术忽略了对大数据融合步骤,导致该技术的交互查询效果不理想,且准确度偏低.为此,提出基于改进深度学习算法的大数据交互式查询技术.以教务系统为研究对象,构建教务系统交互大数据的粗糙量化特征分析模型,基于联合自相似性特征解析控制方法实现对教务系统交互大数据信息融合和特征匹配,从而提取教务系统交互大数据的...  相似文献   

9.
交互式数据探索是一组多样的发现式应用程序的关键技术,着重于交互、探索和发现;在许多场景和领域中广泛应用.以海量的学术文献数据探索为背景,对交互式数据探索的特征自适应技术进行研究.首先,提出一种适用于面向学术文献数据探索的特征自适应交互式数据探索框架FA-IDE(feature-adaptive interactive data exploration),在每次迭代过程中动态地调整特征子集,以满足用户兴趣多样性的需求.其次,针对该框架,提出特征子集的均匀度BFS(balance of feature subsets)评价准则,并给出了基于BFS的序列前向特征选择算法.再次,针对相关样本发现问题,提出划分等级建立方法,根据决策树模型对用户兴趣区域划分后,提出基于相似度的结果集排序策略.实验结果表明,所提出方法可有效提高用户探索效率和最终结果的准确性.  相似文献   

10.
为了在一定维护代价约束条件下,使查询过程中花费的总查询成本最优化,提出了最小/最大候选集变换算法.该算法构造最大候选视图集和最小候选视图集,基于最小有效的极大基数配比技术,并通过单位维护代价内的查询收益而设计的代价计算模型来获得最佳物化视图集.理论分析和实验结果表明该算法是高效、动态、近似最优的.与以往算法相比,在数据维度大、维层次复杂的情况下,该算法有着更优的执行效率.  相似文献   

11.
为解决交互式电子技术手册数据量庞大、结构繁杂不易查询的问题,采用将XML文档分解为层次化数据关系表的设计方法.在系统中创建数据结点,提取后构成文档树;根据文中定义将整体数据分解为具有层次化的数据关系表片段,由约束条件忽略与其明显不符片段及其附属,简化数据关系表;在简化数据关系表中搜索查询结点,根据算法进行计算,确定所查结点在文档树中具体位置及路径;依据所得位置及路径在系统中有针对性、目标性的查询.结果表明:该方法能够有效减少XML文档查询数据的路径,实现查询的高效性.  相似文献   

12.
随着移动社交网络的迅速发展,如何从海量带有时间属性和地理位置属性的短文本信息中快速查询到有效信息具有重要意义.社交网络环境下传统短文本查询算法忽略时间维度,并且在海量数据下无法满足用户快速响应的需求.针对以上问题,提出一种社交网络环境下并行短文本查询算法.提出的算法设计了基于MapReduce模型下的查询框架,该框架使用了基于滑动窗口下的多版本时空索引(MVSTR-tree),保证了查询过程中融合了时间和空间属性,实现了对海量数据高效查询的目标.最后,通过真实数据集的实验证明该算法能有效缩短查询时间.  相似文献   

13.
为解决大规模服务选取问题,提出了一种混合蚁群优化(HACO)算法.该算法先采用动态skyline服务查询过程过滤抽象服务类相关的冗余候选服务,以大力缩减空间提高查找效率,然后利用聚类设计动态构造图来引导蚂蚁的搜索方向,从而确定局部服务选取的搜索区域;基于已经确定的局部服务选取的搜索区域,利用启发式策略选取具体的组合服务.采用标准的真实数据集和综合产生的数据集对所提的方法进行试验评估,以及和最近提出的相关组合服务算法进行对比.实验结果在解的质量和处理时间方面效果显著.  相似文献   

14.
协同过滤(collaborative filtering,CF)是推荐系统中最常用和最成功的推荐技术之一.现实中的数据往往比较稀疏,用户之间缺少共同评定项目,使一些传统的相似性度量无法进行计算;此外,传统的协同过滤算法忽视了用户偏好问题,这样会造成推荐精度的下降.针对这些问题,从用户全局项目和地方评级信息分析影响用户兴趣偏好的因素,通过计算用户评级信息在全局的概率分布和使用海明贴近度计算用户的兴趣偏好度,利用Jeffries-Matusita距离得出关于用户偏好的相似度算法,将相似度算法与加权的Jaccard相似度算法有效结合,提出了一种在稀疏数据下基于用户偏好的协同过滤算法模型.实验结果表明,提出的模型性能优于传统协同过滤算法,并且在更为稀疏的数据集上也有很高的准确率.  相似文献   

15.
针对现有大数据空间查询处理方法存在执行时间长和查询结果不够准确的问题,提出一种基于动态分布式聚类算法的大数据查询处理方法,该方法分为数据预处理、数据聚类和查询处理3个部分.首先将输入数据划分为多个子集,以RRD格式存储在一组机器节点中;其次采用划分和层次混合动态聚类算法,在Apache Spark平台上对数据进行分布式聚类;最后通过K近邻查询方式获得高精度和高效率查询结果.实验结果表明,本文提出的方法具有可扩展性,可为空间查询处理提供高质量的结果,比其他查询方法更具优势.  相似文献   

16.
《河南科学》2017,(8):1227-1231
针对不均衡数据集下分类超平面偏移导致直推式支持向量机样本标记准确率低的问题,结合动态代价和TSVM算法,提出一种代价敏感的TSVM算法,该算法依据类样本的空间分布信息计算类错分代价,利用KKT条件选择对当前分类超平面有影响的样本加入下一轮迭代,该算法可以提高初始分类器的分类性能,减少错误的传递和累积,从而提高标注准确率,增强最后分类器的泛化性能.最后在UCI数据集上的实验结果表明该算法在不均衡数据集下的有效性.  相似文献   

17.
王鹏 《科学技术与工程》2011,11(6):1241-1245
在信息检索中,关键词之间的距离反映了其对信息描述的集中程度,并对检索结果与用户需求的相关度产生影响。通过对XML数据固有的结构信息进行深入分析,确定了被检索数据的信息对象和信息分支的概念,并考虑以上因素建立语义距离模型。通过该模型的计算,能够更准确地计算出查询结果的相关度。实验结果证明:在真实数据集上,查询质量方面优于现有的主流算法(EASE、SLCA),同时具有较高的查询效率。  相似文献   

18.
提出了数据仓库设计中的一种新的"基于多delta文件的选择增量维护算法",该算法实现了加载、维护的较小结果集,另外采用多层体系结构,用基库将操作型OLTP环境和DSS和OLAP环境桥接起来,在基库端和仓库端采用多版本控制思想控制抽取动态结果集大小以及在数据仓库端采用增量维护的算法,从而在维护后台进程中用的是较小的数据结果集批量加载,并不影响数据仓库端的查询操作,明显地减少了对OLAP和OLTP环境的影响.该算法和体系结构宜于实现,具有较强的工程参考价值.  相似文献   

19.
针对无线传感网中数据收集、存储和查询的需要,提出了一种基于动态可调簇的能量感知数据存取算法ACEDBA(Adjusted Cluster-based energy-aware Data Brokerage Algorithm).该算法将网络节点分成许多簇结构,簇内节点负责数据采集,簇首节点负责簇内数据的收集、汇聚和转发,数据可以集中存储,也可以分布存储在各簇首节点或本地存储.算法引入能量分级消耗机制,可动态选择和调整簇首节点,保证各簇首节点簇内数据存储和簇间数据转发查询的能量平衡.实验结果表明,与典型数据存取算法相比,该算法的节点能耗均衡、生命周期和查询成功率方面具有优势.  相似文献   

20.
分析了影响FP查询速度的原因,并在此基础上提出了一种新的基于二级串联布隆过滤的冗余数据块发现算法.实验结果表明:该算法在FP查询性能及数据存储速度方面优于已有算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号