首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
郑华 《广西科学院学报》2010,26(4):483-485,492
为了从源头解决数据质量问题,实现数据的可溯源,设计一个基于数据世系的数据质量评估系统框架。该系统框架可以动态添加各种不同的评估方法,通过数据世系技术分析出数据的原始演化过程进而识别出其维度,再选择系统中合适的评估方法实现数据质量评估。  相似文献   

2.
杨宇 《科技咨询导报》2012,(32):186-186
该文通过建立电信BI系统中数据质量评估标准,分析影响数据质量的各个因素,在数据生成的各个阶段提供必要的手段对数据质量进行管控,并根据统计数据价值和数据生产成本的方法,对数据生命周期管理提供依据,建立全面的电信BI系统数据质量管控机制。  相似文献   

3.
随着信息技术快速的发展与信息系统应用的加深,企业积累了大量的历史数据,支撑企业正常运营与决策。为了使决策更加正确、有效,需要对历史数据进行有效的数据质量评估,并基于评估结果进行数据清洗。重点研究了基于数据维度下数据质量约束的数据质量评估方法,确定数据质量评估维度,并定义了各维度下的数据质量约束,并基于约束给出数据质量评估算法。方法在大庆油田生产数据库数据质量评估项目与河北汉光重工有限责任公司财务系统数据库数据质量评估项目中得到了应用。  相似文献   

4.
具有数据清理功能的交互式数据迁移及应用   总被引:7,自引:0,他引:7  
针对众多论文对数据迁移的研究多是泛泛地介绍数据迁移的方法,而没有考虑数据迁移过程中的数据清理问题,提出了一种具有数据清理功能的交互式数据迁移技术.该技术把数据迁移和数据清理紧密地结合在一起,具有开放的规则库和算法库.通过在规则库中定义规则以及从算法库中选择合适的清理算法,不仅能灵活、准确地完成数据的迁移,还能保证数据迁移后新系统的数据质量.该技术被应用于医疗保险信息系统再工程项目,取得很好的效果,从而说明这种数据迁移技术在实践中是可行的.  相似文献   

5.
面向多数据源的数据清洗关键技术的研究   总被引:1,自引:0,他引:1  
对于各个领域的信息资源管理而言,数据质量一直是一个非常关键的问题。现实世界中的数据往往存在着各种各样的问题,从简单的拼写错误到复杂的语义不一致错误。数据清洗的目标就是检测并去除数据中存在的各种错误和不一致,提高数据的质量。该文归纳、总结了数据清洗相关研究的现状,提出一个面向多数据源的数据清洗框架的定义。框架实现了术语模型、处理描述文件和共享库等概念和技术。  相似文献   

6.
朱晓姝  蒙霜  龙法宁 《广西科学》2023,30(4):764-775
单细胞转录组测序(single-cell RNA-sequencing, scRNA-seq)数据具有高稀疏性、高噪声、高维度、结构信息和位置信息缺乏等特点,且数据规模迅速增大,使得单细胞聚类面临较大的挑战。为便于对不同的scRNA-seq数据选择合适的分析方法,本研究对scRNA-seq数据的质量控制、基因选择和聚类等方法进行比较分析。首先,分析质量控制中过滤和归一化的方法及其阈值设置;然后,从模型因子、测序技术、方法局限性和优势等方面,对6种典型的基因选择方法进行比较;最后,详细阐述6种典型的单细胞聚类方法,并分析其适用的数据规模和优缺点。收集14个带有真实标签的金标准scRNA-seq数据集,包括5个全长测序数据集和9个双端测序数据集,其中5个数据集包含的细胞数大于3 000个,对6种典型的基因选择方法和6种单细胞聚类方法进行实验比较,分析它们在识别高差异基因时和在聚类性能上的差异。结果发现,不同的基因选择方法在Adam和Wang_Lung数据集分别可以检测到182个和124个共有基因,以及一些独有基因。此外,Seurat、SC3、Monocle 3和scDeepCluster的...  相似文献   

7.
通过大数据技术对海量的用户贡献内容构建数据分析系统框架,以酒店为例,进行多维度分析及可视化应用。基于TripAdvisor网站的列表和点评信息,通过分布式爬虫框架爬取所需的数据,经过数据预处理,采用分布式文件系统存储数据,在此基础上运用统计建模及自然语言处理方法进行数据分析研究,借助第三方框架对分析结果进行可视化。研究者在使用该框架时,可以根据自身需求从多个维度进行数据分析及可视化应用。该框架能够有效地对旅游评论大数据进行多维度的统计分析,进而为旅游相关人员提供基于旅游评论大数据的参考信息。  相似文献   

8.
从高校业务协同场景出发,结合高校业务数据特点,提出一种数据质量管理框架和评价模型;建立协同业务数据质量的评价指标体系,包括数据源质量、数据关联质量、数据效用质量三个维度7项一级指标;采用比较标度的改进层次分析法设计评估权重,简化构造矩阵的一致性校验的问题。实际应用表明,提出的评价模型可以有效量化评价业务协同场景下各系统和数据集数据质量,发现问题原因,具备可操作性和实用性,为提高数据质量提供参考。  相似文献   

9.
大数据为社会经济预测提供了更丰富的数据来源和维度,但是也带来伪回归、过度拟合等预测风险,使得实际应用中“测不准”问题频繁出现。本文系统梳理“测不准”问题的定义和内涵,总结社会经济领域中“测不准”问题的形成机理,发现其主要原因是预测对象会受到预测结果的影响而改变行为决策,最新文献尝试从去噪和因果分析等角度解决这一问题。最后本文在此基础上提出一个新的大数据预测理论框架,并对未来研究进行展望。  相似文献   

10.
徐慧 《华东科技》2022,(2):109-111
本文应用问卷调查的方法,获取了服务贸易统计数据用户的质量感知数据,并且综合应用因素分析法和模糊综合评价法,从数据的准确性等5个质量维度来探讨数据用户对服务贸易统计数据质量感知的主要维度及满意度.研究结果表明,用户对服务贸易统计数据整体质量以及数据的准确性、适用性等5个质量维度的满意度处于较低水平.不同专业技术水平的用户...  相似文献   

11.
朱杰  程攀  唐顺仙  王炳赟 《科学技术与工程》2022,22(27):11783-11791
静止卫星轨道星载闪电探测,因独特的平台优势,可以连续获取较大视场范围内全部闪电活动的观测信息,是未来闪电探测技术发展的新方向。闪电成像仪LMI(Lightning Mapping Imager)是我国首次星载的闪电光学成像观测仪器,在较少先验知识的基础上,自主研发,各项技术指标处于国际前列。然而,LMI独特的数据聚类处理方案,使得其在数据质量控制与真实性检验等方面依然面临着诸多挑战。本文针对其广泛应用的L2 级 1 分钟定量Group数据(LMIG),基于闪电活动与强天气过程间的耦合关系,提出了基于多源气象资料的多层次数据质量控制技术,并通过与第三方数据的比对,对质控效果评估与优化,有效剔除了误差数据,提升了LMI数据的质量。本文的工作,为LMI数据的应用奠定了更加坚实的基础,同时也有助于促进我国星载闪电观测技术的探索和仪器性能的提升。  相似文献   

12.
 依据DoDAF体系架构框架理论,针对航天工程中的质量大数据(数据包),采用经验法挖掘出航天工程质量数据体系架构的过程模型。该过程模型与前馈-反馈复合控制系统模型基本吻合,进而识别出航天质量工作恰是遵循了前馈-反馈的复合控制机制。在该机制下,进一步从4个维度选取典型质量数据进行挖掘,得到了关于“热词”、数据基线和质量问题预测等3个方面的重要信息。  相似文献   

13.
摘要: 实验动物是医学院校教学和科研的必要支撑条件,良好的实验动物质量控制是教学和科研的重要保障。目前国内医学院校和开展生物医学相关教学及研究的综合院校在实验动物质量控制方面呈现的水平参差不齐,这从一定程度上反映了其教学和科研的质量及综合实力。本文将主要介绍实验动物质量控制的核心内容,以期为医学院校教学及科研工作者提供参考。  相似文献   

14.
介绍了一种基于休哈特控制图的工业现场质量监控系统,并阐述了系统软、硬件的设计思想和实现方法.在现场利用控制图监控生产过程,调查生产过程的状态,了解工序能力是否适宜,实现了预防为主的思想.该系统可实现现场实时数据采集和质量控制的自动化.  相似文献   

15.
针对数据质量中约束规则描述的语义复杂性、 快速提取等问题, 引入本体技术描述数据质量约束规则等 要素的语义关系, 提出了元本体的思想, 对数据质量领域的核心词汇进行了提练, 并依据相关标准, 构建了与 领域无关的数据质量元本体模型。 在应用中, 特定领域可根据需求将该元本体模型实例化为用于描述本领域 的数据质量本体, 不仅解决了数据质量领域词汇共享与明确描述问题, 而且使数据质量复杂约束规则语义描述 得以解决。 同时, 以石油领域数据为例, 依据提出的质量本体元模型实例化出石油领域的质量本体模型, 定义 了各种推理规则, 并基于 Jena 推理机验证了构建的数据质量本体的合理性, 极大地提高了数据质量评估中约 束规则提取的效率。  相似文献   

16.
UN Comtrade(United Nations international trade statistics database)是全球最大且应用最为广泛的国际贸易数据库,具有高权威性与完整性.本文在框架体系结构设计与数据表结构设计基础上构建UN Comtrade数据共享平台,以期为地理学研究提供数据与工具支撑.在数据聚合策略方面,平台通过综合集成数据爬取、加载模块并嵌套多种错误修正方法,实现5亿多条商品贸易记录的动态高容错聚合.在检索策略方面,平台通过分区复合索引提升数据检索指令执行效率与可扩展性.检索试验表明,平台能够在80用户并发模式下稳定执行不同类型检索指令,并且通过调用ODBC/JDBC接口将计算过程融入检索任务,可以更加有效利用服务器端资源并节省数据传输与读写耗时,具有效率更高、简化数据处理过程等优点.2017年平台被应用于中-美商品显性比较优势特征检索-计算-格网化表达-对比分析,案例表明平台具有高效、稳定的并发检索效率,以及高可扩展性等优点,可以为贸易特征计算与分析提供便捷快速、形式多样的数据共享服务.   相似文献   

17.
针对抑郁相关量表大数据所面临的特征冗余、特征维度单一、特征子集难以确定等问题,提出了一种基于深度神经网络(deep nural network,DNN)的抑郁分类模型.通过结合主成分投影k-means(principal component, PC k-means),在不破坏原有特征空间的条件下对量表大数据进行特征选择,并对原始算法的随机性与聚类个数不确定的问题进行了优化;在此基础上,为了增强抑郁识别维度的多样性,构建了引入因子分解机(factorization machines,FM)的DNN抑郁分类模型.分析和对比结果表明:PC k-means不仅可以有效地选择特征,而且与传统分类器和FM-DNN结合,更能提高抑郁分类的准确率,为深度学习引入量表大数据分析提供了新的研究思路与方向.   相似文献   

18.
准确预报洪水过程对城市防洪减灾至关重要.基流一般是指来源于地下水,河道中常年存在的基本径流,在进行城市洪水模拟时对模拟结果具有重要的影响.为提高模型模拟精度,本文构建了济南市主城区流域SWMM(storm water management model),借助基流水平分割法处理模型率定所需流量数据,将基流分割前后流量数据应用于模型率定和验证,模拟6场不同历史暴雨洪水过程并定量评价基流分割前后的模拟效果.研究结果表明:基流量大小约占洪峰流量的10%,对洪水模拟结果影响较大;当采用原始流量数据率定模型时,未区分降水和其他径流组分来源,模拟效果一般(纳什效率系数均值为0.532);当使用基流分割后的流量数据时,模拟精度明显提高(纳什效率系数均值为0.765),场次暴雨模拟精度平均提高43.7%,洪峰流量相对误差降低3.59%,对峰现时间误差等洪水过程波动趋势特征影响不明显.本文拓展了基流分割在城市雨洪模拟中的应用,并为相关部门在城市暴雨洪水灾害预报预警方面提供了一定的科学依据和技术支撑.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号