首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
对肿瘤登记和大数据的发展、大数据对肿瘤登记的作用和影响进行了系统回顾,大数据和肿瘤登记近年发展快速,大数据的发展促进了肿瘤登记的发展,而肿瘤登记发展又推动了大数据的进步.在大数据的影响下,肿瘤登记将向以下几个方向发展:(ⅰ)肿瘤登记自动化;(ⅱ)及时收集、整合和更新不同来源的肿瘤数据,提高肿瘤资料的质量、可用性和易用性,推动肿瘤资料的开放和共享,扩展肿瘤资料的应用;(ⅲ)各级医疗卫生信息中心的出现将彻底改变肿瘤登记模式;(ⅳ)采用大数据的技术和方法建立各级肿瘤数据中心;(ⅴ)医院肿瘤登记逐步开展,人群肿瘤登记覆盖率大幅提高,部分省将全民开展肿瘤登记.肿瘤登记自动化的理念和技术,迎合了大数据和肿瘤登记发展的趋势,并可借鉴应用到其他疾病的监测和研究.  相似文献   

2.
陈刚 《科学通报》2015,(Z1):439-444
现代科学研究的一个重要模式就是大科学项目,其特点是大科学装置和合作,并产生海量的科研数据.数据密集型的大科学项目对数据的采集、存储、分发和处理有着巨大的需求.本文以大科学项目为案例讨论了科研大数据在数据采集、处理、存储以及网络等方面的挑战,以及相应的应对方法.其中,国际上的高能物理实验每年产生数十拍字节(PB)的数据,这些数据需要妥善地记录和保存下来,并高效地分发到世界各地进行分析处理.高能物理学家基于网格技术合作建立了大数据处理的WLCG网格平台,该平台成功地支持了大型强子对撞机实验数据的处理和分析,同时也支持了其他大科学项目,取得很好的效果.另外,为了解决对数据的高效存储和访问,新的存储技术和网络技术,如软件定义网络和云存储等,被开发应用到科学大数据中.最后还介绍了云计算技术在科研大数据中的应用.  相似文献   

3.
王书浩  龙桂鲁 《科学通报》2015,(Z1):499-508
大数据技术的迅猛发展对计算效率提出了更高的要求.由于量子系统的独特性质,量子计算具有经典计算不具有的量子超并行计算能力,能够对某些重要的经典算法进行加速.人们发现,除了大数分解算法,量子计算的更多用途是对量子体系的仿真计算和在数据分析领域的应用.近年来,大数据和量子计算开始融合.虽然实际使用的量子计算机尚未建成,量子计算在大数据的应用在理论上已经取得了一些重要的进展.实验上也有了一些发展.本文首先介绍量子计算的基本原理和Grover量子算法.随后以量子机器学习作为切入点,介绍了量子计算在数据挖掘领域的应用.  相似文献   

4.
李武军  周志华 《科学通报》2015,(Z1):485-490
随着信息技术的迅速发展,各行各业积累的数据都呈现出爆炸式增长趋势,我们已经进入大数据时代.大数据在很多领域都具有广阔的应用前景,已经成为国家重要的战略资源,对大数据的存储、管理和分析也已经成为学术界和工业界高度关注的热点.收集、存储、传输、处理大数据的目的是为了利用大数据,而要有效地利用大数据,机器学习技术必不可少.因此,大数据机器学习(简称大数据学习)是大数据研究的关键内容之一.哈希学习通过将数据表示成二进制码的形式,不仅能显著减少数据的存储和通信开销,还能降低数据维度,从而显著提高大数据学习系统的效率.因此,哈希学习近年来成为大数据学习中的一个研究热点.本文对这方面的工作进行介绍.  相似文献   

5.
<正>戈登·摩尔(Gordon Moore,上图)有一个新的信念,他认为大数据终将造就大科学。戈登-贝蒂·摩尔基金会计划对15位科学家给予150万美元的津贴(每年20万美元至30万美元分期发放)。基金会对这15位科学家的期望是有能力对新算法、机器学习的方法,以及其他数据密集型科学技巧进行跨学科的开发和使用,能把巨大数据量变成惊人的科学发现。根据基金会的说法,这"可能是对那些推动数据驱动以及  相似文献   

6.
大数据时代的数据素养教育   总被引:1,自引:0,他引:1  
正数据素养是大数据时代对科研人员所提出的要求。国外各大学已在广泛开展数据素养教育。在中国,如何提高下一代科学家的数据素养,使他们具备在大数据时代开展科学活动的能力,是一项紧迫的重要任务。随着信息技术和网络技术的迅速发展,科学研究数据呈现爆炸性增长的态势。利用各种各样的研究工具和实验设备,通过模拟、仿真、计算和观察,在科学研究过程中不断产生和创造出大量"原生态数字信息",形成特定科学领域的数据集和数据场。如美国大规模科学项目"泛星计划"(全景式巡天望远镜和快速反应系统),每年在运行中可捕获2.5PB(1PB=10~(15)字节)的数据;国际上高能物理学研究领域的LHC(大型强子对撞机)每年能产生50~100PB的数据;小规模研究  相似文献   

7.
互联网技术发展至今,已进入了大数据和云计算时代,并在传统商业领域取得了令人瞩目的成功,产生了许多新的发展模式.但是,在勘探地震专业领域,"云计算与大数据"技术的潜力尚没有充分发挥.本文介绍了"云计算与大数据"的方法论和基本特征,分析了云计算、大数据和物联网、互联网+等关键技术之间的关系,并结合地震采集、处理、解释的技术特点和发展需求,探讨了"云计算与大数据"对地震技术发展的影响,提出了建设地震专业软件生态系统和基于物联网改变地震采集现状的设想.  相似文献   

8.
●大数据是当前最火热的话题之一,该领域正在飞速发展中,未来5年内有可能形成价值500亿美元的产业. "我们将在这个领域占据主导地位."2011年11月,派崔克(Patrick)州长在肯德尔广场对一屋子黑客这么说.他所说的"这个领域",就是"大数据",即对线上增殖的所有原始数据的大规模分析.大数据是当前最火热的话题之一,该领域正在飞速发展中,未来5年内有可能形成价值500亿美元的产业.  相似文献   

9.
基因组变异是个体间疾病易感性和药物反应等表型多样性的遗传基础. 国际人类单体型图(International HapMap)旨在为复杂疾病相关遗传变异的研究提供路线图. 单核苷酸多态性(SNPs)是HapMap的基本要素. SNPs等位基因频率影响连锁不平衡结构、单体型的构建、标签SNPs的筛选, 是影响HapMap精度的主要因素之一. 因此, 次要等位基因频率筛选阈值的选择对图谱精度有深远影响. 迄今大多数研究者选用自定的阈值, 且鲜有针对次要等位基因频率筛选阈值对HapMap精度影响的研究. 为探讨次要等位基因频率筛选阈值对相应HapMap精度的影响, 本研究用中国汉、藏族人群15号染色体中心粒区域基因的测序结果按不同次要等位基因频率筛选阈值(≥0.01, ≥0.05, ≥0.10)将以往的数据分成了3组, 即0.01组、0.05组以及0.10组, 分别构建了3组数据的HapMap, 并比较了各组HapMap精度、关联分析的研究效能及节约/总成本比值. 结果显示, 0.01组有最高的关联分析研究效能(相比0.05组: 汉族, P = 0.019; 藏族, P = 0.029), 并捕获了最多的人群特异性单体型(相比0.05组, P = 0.012). 在所检区域内, 与0.10阈值相比, 0.05阈值并没有显著提高关联分析的研究效能(汉族, P = 0.191; 藏族, P = 1.000)及人群特异性单体型的捕获(P = 0.592). 同时, 在藏族人群中, 0.05与0.10组产生了相同数据的标签SNPs效率、连锁不平衡结构域的数目和平均长度、关联分析研究效能及节约/总成本比值. 结果提示, 较低的次要等位基因频率筛选阈值更适合着重于人群特异性单体型的研究; 不同人群最佳次要等位基因频率筛选阈值可能不尽相同. 由于本研究检测基因数目有限, 这一重要议题仍需更多深入的探讨.  相似文献   

10.
生物医学大数据的现状与展望   总被引:1,自引:0,他引:1  
宁康  陈挺 《科学通报》2015,(Z1):534-546
生物医学是一门新兴的前沿交叉学科,它综合了医学、生命科学和生物学的理论和方法而发展起来.近年来随着先进仪器装备与信息技术等越来越广泛和深入的整合到生物技术中来,生物医学研究中越来越频繁的涉及到大数据存储和分析等信息技术.大数据时代的来临对生物医学研究产生了重大影响.其中,一个重要发展趋势就是由假设驱动向数据驱动的转变.数十年来分子生物学水平上的实验目的是获得结论或者是提出一种新的假设,而现在基于海量生物医学大数据,可以对海量数据的研究来探索其中的规律,直接提出假设或得出可靠的结论.随着先进的生物分析技术的不断推出和更新,生物医学数据迅速积累.基于此类大数据一些以往不能解决的问题将有望解决,同时相关生物医学研究的新问题也层出不穷.生物医学相关的大数据技术和相关应用主要包括:基于高通量测序的个性化基因组、转录组和蛋白组研究,单细胞水平基因型和表型研究,人类健康相关微生物群落研究,生物医学图像研究等.相关生物医学大数据分析任务均具有着数据密集和计算密集的双密集性特点.要充分地利用这些大数据解决一系列生物医学问题,迫切需要高通量、高效率、高准确性的生物信息存储和分析策略.本文总结和回顾生物医学大数据的生成、管理和分析相关的一系列问题,其中重点讨论人体微生物群落、单细胞表型和基因型、生物医学图像等新近出现的生物医学大数据形式,以及相关数据分析和应用前景等.基于目前生物医学大数据的现状我们可以发现,生物医学大数据的研究正处于蓄势待发状态:适应于生物医学大数据的软硬件平台、大数据存储、大数据分析挖掘等方法等还不成熟,制约着生物大数据的研究.然而一旦相关研究获得突破并有所优化和应用,将会全方位地支撑生物医学大数据的深入解构;进而有助于对医学现象的趋势分析和预测,服务于相关的遗传疾病研究、公共卫生监控、医疗与医药开发等广泛生物医学应用.  相似文献   

11.
陈国良  毛睿  陆克中 《科学通报》2015,(Z1):566-569
大数据是当前IT信息技术研究和应用的热点,但目前的研究多集中在系统和应用层面,而理论基础研究方面相对较少.本文以计算复杂性理论为基础,针对大数据量大、快速和多样性等挑战,着重研究大数据的可计算性及其计算原理.首先将多种类型的大数据抽象到度量空间进行统一化表示以解决多样性问题,其次在度量空间中基于距离对大数据进行划分,最后运用NC类计算理论等并行计算理论和方法对大数据问题进行并行求解,以解决量大和快速等问题.本文从更广的视角,根据大数据的特性和大数据整个生命周期,提出处理大数据的策略和技术以及需要变革思维方法研究大数据.  相似文献   

12.
张云泉  徐葳  龙桂鲁 《科学通报》2015,(Z1):425-426
<正>在大数据应用技术需求的推动下,大数据科学研究和应用已经成为科技领域中的热点.同时人们开始从这些工程实践中提炼出一些共性的思路、方法和工具,开启了一门新科学——数据科学.从思想方法上,数据科学研究继承了统计学的一些思想,例如在大量数据上做统计性的搜索、比较、聚类或分类等分析归纳,其结论是一种相关性,而并非一定是某种因果关系.虽然都依赖大量的计算,但数据科学与计算机模拟不同,并非是基于一个已知的数学模型,而是用大量数据的相关性取代了因果关系和严格  相似文献   

13.
周琳  孔雷  赵方庆 《科学通报》2015,(Z1):547-557
在过去的10年中,以基因组学、医学遗传学和神经信息学等为代表的生命科学各研究领域,以前所未有的增长趋势,积累了海量的数据信息.这些数据类型复杂、数量庞大,其中蕴含的价值更是不可估量.通过传统的处理手段,难以理清海量原始数据中错综复杂的关联信息.而针对生物大数据的可视化研究,将有利于科研人员对复杂数据进行多角度观察并获取有效信息.生物数据量越大,复杂性越高,可视化在生物有效信息挖掘方面发挥的作用就越大.本文通过例举若干生物机构中心现存的数据规模和数据增长速率,说明生物研究领域已进入大数据时代,然后由生物数据的组成特征及可视化的特点引出生物大数据可视化的重要性和必要性.本文总结了生命科学研究领域中不同类型生物大数据的可视化研究进展,最后讨论了目前生物大数据可视化所面临的挑战,并提出可能的解决方案.  相似文献   

14.
申学易  买晓琴  刘超 《科学通报》2015,(11):986-993
基于互联网的大数据收集是社会认知领域的新兴研究手段.本文主要介绍了基于以MTurk,Micro Turk等为代表的、具有交易功能的大型行为数据网络收集平台进行的社会认知领域的研究,从网络平台大数据采样的数据质量和大数据对社会认知领域新方向的启发两方面进行阐述,总结了网络大数据在样本范围和数量、分析方法和实验情境上相比传统实验室数据采集的优势和不足.虽然互联网平台的大数据收集还有无法完全控制被试完成任务、存在难以通过大量样本平衡的变量等一系列问题,但这一研究方式的社会性生态效度佳,且在纵向研究和社会行为的网络化分析等方面表现出独有优势,在社会认知领域的研究中具有广阔的应用前景.  相似文献   

15.
李曼丽  黄振中 《科学通报》2015,(Z1):570-580
随着大数据技术和大规模在线开放课程(MOOCs)的不断发展,基于MOOCs平台数据的教育研究也日益涌现.然而,相关研究在研究问题、理论基础和研究方法等方面还有待进一步探索.MOOCs平台大数据将为教育问题的研究提供不同类型的数据,有助于打破以往的一些限制.目前来看,基于MOOCs平台大数据的教育实证研究可能会出现聚焦MOOCs本身的研究、大规模在线开放式研究和应用于经典教育研究框架内的研究3种类型.  相似文献   

16.
大数据时代,以数据驱动的药物研发(data-driven drug research and development)方式有望显著提高药物研发成功率、缩短药物研发周期以及降低药物研发成本.本文简短综述了近年来药物设计和药物信息相关数据整合和数据挖掘的最新研究概况,并对大数据时代的药物设计与药物信息研究提出了展望.  相似文献   

17.
(一) 白志毅(见图)是上海海洋大学的副教授,去年他因为淡水珍珠蚌遗传育种方面的课题获得上海青年科技启明星计划的资助,元宵节过后我应约到地处南汇滴水湖的上海海洋大学采访了这位水产养殖领域的后起之秀.采访中,我得知这位"把论文做在鱼塘边"的博士,原是一个在华北平原长大、从出生到读大学前从未见过河海的农村娃.只是到了97年高考时,受到当时社会上一些介绍海洋生物世纪文章的影响,尽管还懵懵懂懂,但怀着这样一点对海洋世纪的梦想,他选择并考取了大连水产学院(现改名为大连海洋大学)水产养殖专业.  相似文献   

18.
通过卫星从空间观测全球大气二氧化碳(CO2)浓度为全球碳循环研究提供了新的数据源.虽然卫星可以进行高密度点观测,但是由于云和卫星观测模式等影响,卫星观测点数据在空间上呈不规则分布且存在大量无观测值的空白区域.精确填补这些空白区  相似文献   

19.
社交媒体大数据是大数据的重要组成部分.与大数据的"4V"特性对应,本文主要讨论社交媒体大数据中的Variety-多源问题.社交媒体的多源主要体现在不同社交媒体网络所关注的异构用户行为信息,理解社交媒体多源现象对于社交媒体分析和社交媒体大数据的深度应用具有重要意义.社交媒体数据具有来源于用户、服务于用户的特点.我们提出从多个社交媒体网络的共同用户入手来进行社交媒体多源分析:(1)跨网络用户建模,整合分散在不同社交媒体网络的行为信息得到完整用户模型,进行个性化服务;(2)多源数据知识关联,以共同用户与多源数据的交互作为桥梁,挖掘多源数据知识关联,服务于社交媒体协同应用.  相似文献   

20.
破译蛋白质     
生物学真正是21世纪科学。科学家在2001年宣布,在花费了10年和24亿英磅之后,一项国际性的努力已经在产生一幅人类基因组草图方面获得成功。现在正在制订有关一项更大的规模倡议的计划。已经创建了人类蛋白质组组织(HUPO),以协调人类蛋白质组的破译——即充分认识人体每个蛋白质的结构和功能。蛋白质领域中的这个与人类基因组计划相当的计划对在分子水平上认识疾病和加快药物的发现速度是至关重要的。没有它,人类基因组计划产生的一切数据就没有什么实际用途。虽然基因可能提供了生命的蓝图,但是根据这些信息产生行为并推动人体发挥功…  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号