欢迎光临第一论文网,权威的论文发表,我们将竭诚为您服务!
您的位置: 第一论文网 -> 科学教学论文 -> 文章内容

生命科学领域科研数据仓储特点及服务分析

作者:admin 更新时间:2018年09月02日 11:14:57

  摘要:[目的/意义]对生命科学领域的科研数据仓储进行调研与分析,探讨生命科学领域的科研数据管理服务。[方法/过程]利用re3data.org开放数据仓储目录与注册系统,分析生命科学领域科研数据仓储的建设年代、国家、机构、学科领域、开放程度等分布情况,并选取Genbank、Dryad、ArrayExpress、PurdueUniversityResearchRepository、Biosharing和dbGaP6个典型的数据仓储,从数据获取、重用、存储等方面深度分析其服务内容和模式。[结果/结论]美英两国引领着生命科学领域科研数据仓储的建设与共享,在国家层面和资助机构层面均制定了科研数据相关政策;国内可借鉴美英两国成熟的建设经验,加快制定战略规划和政策体系;资助机构应发挥引导作用,在服务内容及模式上推动数据管理与共享,建设具有领域特色的高影响力的数据仓储并集成数据管理服务。


  关键词:科研数据仓储;生命科学;科研数据管理;科研数据服务;


  作者简介:邹丽雪


  随着科学研究向数据密集型科研快速发展,科研数据共享与重用的需求日趋强烈,科研数据仓储(datarepository,DR)作为科研数据存储、发布、开放共享的途径之一,得以快速发展,国际上一些基金资助机构、科研机构、期刊均纷纷制定数据相关政策,要求将科研数据提交至相应的数据仓储。科研数据仓储通过一定的数据提交机制,并进行数据质量审核,组织存储数据,同时对数据共享重用提出明确的规范要求。面向不同的学科领域和数据形态,科研数据仓储有着不同的特点[1],H.J.Nielsen等的研究中提到应对科研数据进行学科领域的分析研究,以更好地提供数据服务[2]。


  在生命科学领域,2005-2015年这10年间,随着高通量测序技术的的快速发展与应用,在以基因组学和生物医学领域为代表的科研过程中产生了大量的数据,欧洲生物信息学研究所作为全球最大的生物数据库之一,目前已存储了20PB(2×1016b)的数据,每年以200%的速率在迅速增长[3]。数据的膨胀驱动了数据仓储的快速发展,刘峰等[4]对科研数据仓储注册目录系统databib中注册的数据仓储按学科领域进行了分析,指出生物学领域数据仓储分布较为广泛。本文聚焦于生命科学领域的科研数据仓储,系统地分析其建设现状、特点及服务内容,并从政策制定与管理、建设内容、服务层面提出建议和对策。


  1生命科学领域科研数据的特点


  生命科学领域的科研数据可分成通用数据和专门数据[5]。通用数据是指生物体或组织的核酸、基因、蛋白质序列等数据,具有量大、稳定、使用频率高等特点。专门数据是指特定主题的实验或临床所获取的数据,数据量少、变化较快、获取难度大并在一定程度上不可重复。该领域的科研数据特点与传统大数据特点一致,表现为数据量大、处理数据速度要求快、数据多源异构、数据整合分析复杂[6]。


  本文以生命科学领域的科研数据仓储为研究对象,基于Re3data.org科研数据仓储注册与目录系统进行分析。截至2015年8月20日,该系统共注册了1314个数据仓储,其中生命科学领域(LifeScience分类)共653个,本文选定这653个数据仓储,对其建设时间、国家、机构、学科领域、开放程度进行统计,并对缺失的数据进行补充,系统地梳理其建设现状及特点,并就国家、科研机构及基金资助机构层面制定的政策进行解析。根据生命科学领域高影响力期刊Nature、Science指定用于存储不同类型数据的仓储,从中选取6个典型的数据仓储作为实例,深度分析其具体服务内容及模式。


  2生命科学领域数据仓储特点分析


  2.1建设年代分布


  对653个生命科学领域数据仓储的建设时间进行分析(435个数据仓储有明确的建设年代),发现最早的数据仓储建于1903年,是美国人口调查局建设的“UnitedStatesCensusBureau”[7]。从建设年代分布看,1988年之前只是零散地建立个别数据仓储,1988-1999年间,数量波动性上升,2000年大幅增多,在2006年达到峰值。数据仓储建设年代的转折点均与生命科学领域研究技术的突破以及研究数据的发展息息相关。如1988年美国联邦报告批准了人类基因组计划,建立了NCBI[8],为今后科学数据仓储的建设打下了基础;2000年,人类基因组草图被绘制完成,随后便建立了ArrayExpress[9]、dbSNP[10]、GBIF[11]、WorldwideProteinDataBank[12]等具有重要影响的数据仓储;2005年之后,随着高通量测序技术的广泛应用,生命科学正式进入大数据时代,为满足新型大数据的需求,NIH迅速建成了dbGaP[13]、SequenceReadArchive[14]等新型的数据仓储;2007年之后,数据仓储的建设数量呈下降趋势,这可能与前期数据仓储趋于饱和与成熟且该领域暂未出现新型数据有关。图1以1986年之后建设的数据仓储为例,展示了其建设年代的分布情况:


  2.2建设国家分布


  对数据仓储建设国家进行分析(见图2),美国、英国、德国在该领域有较大的优势,其中仅美国单独建设的就有347个,占所有数据仓储的一半以上,美国和英国合作建设的有52个,如GenBank[15]、Dryad[16]、ProteinDataBankinEurope[17]等典型数据仓储。在全球范围内,美国和中国是生命科学领域科研数据的产出大国[18],但中国数据仓储的数量很少,仅有19个,且影响力远不如上述数据仓储。


  美英两国引领着全球开放数据仓储的建设与共享,这与美英两国在国家层面制定了一系列与科学数据相关的的战略和政策息息相关[19-21],具体见图3。


  2.3建设机构分布


  从数据仓储的建设机构看,美国国立卫生研究院在建设数量上具有明显的优势,且前10家机构中美国的基金资助机构和大学较多。英国建设数据仓储最多的机构是惠康基金会,德国则是马普学会。表1中的10家基金资助机构和研究机构大多都已制定了详细的数据政策作为其建设和服务的保障。


  2.4学科领域分布


  目前,数据仓储主要分为机构仓储、学科仓储、多学科仓储以及特定项目仓储这4种类别,653个数据仓储中有529个为多学科类别,占81.01%,这表明该领域的数据仓储在开放性和学科领域的广度上具有优势。具体学科领域分布见图4。其中,医学、基础生物和医学研究领域数据仓储数量最多,而农林园艺、神经科学方面的仓储数量相对较少。


  2.5数据仓储开放程度


  数据仓储的开放程度可从数据获取、重用、存储3方面进行评价,开放程度分为完全开放、受限制、不开放3个层次。653个数据仓储中,88.82%支持完全开放获取,66.16%支持完全开放重用,7.20%支持完全开放存储(见表2)。可见支持开放存储的比例还很小,分析其原因,一则可能与该领域数据仓储多是由基金项目资助建设的数据库,存储数据基本上都是项目产生的数据有关;另外,除非基金资助要求或期刊要求,科研人员主动存储和共享数据的意愿还不是太强烈;再者,开放存取对数据类型、格式和质量等要求较高,许多数据仓储尚未制定相应的政策保障机制。


  3生命科学领域数据仓储实例


  参考Nature、Science等期刊对存储不同类型的科研数据指定的数据仓储,如将DNA和RNA序列存储至Genbank、DNADataBankofJapan(DDBJ)等,分子结构数据存储至WorldwideProteinDataBank(wwPDB)等、微阵列数据存至GeneExpressionOmnibus(GEO)、ArrayExpress,生态数据存至Dryad,基因型和表型数据存储至dbGap等,这些数据仓储都是存储生命科学领域各种类型数据的典型代表。此外,结合一些特色数据仓储如嵌入了数据管理计划服务的PurdueUniversityResearchRepository(PURR),集成了生命科学领域注册标准的BioSharing,本文选取了6个数据仓储为典型代表,深度分析其具体服务内容与模式。


  3.1GenBank


  GenBank是美国国立卫生研究院建立的基因序列数据库,用于收集所有公开可获取的DNA序列,数据主要来源于作者直接提交或由生物医学相关的文献中检索已发表的序列数据,并与日本的DDBJ(DNADataBankofJapan)和欧洲的EMBL(EuropeanMolecularBiologyLaboratory)每天进行数据交换。


  (1)GenBank的数据可用Entrez检索核苷酸序列标识符和注释,可由序列数据检索至相关的蛋白质序列、三维结构及文献数据,提供Blast进行序列局部比对检索,数据可通过NCBI提供的e-utilities以及FTP服务器下载。


  (2)在数据重用上没有任何限制。


  (3)GenBank接受科研人员直接提交序列数据,数据内容必须包括源生物信息和注释信息,提交方式可通过BankIt(以www表格在线提交)、Sequin(输入数据处理后发邮件提交)、Tbl2asn(命令行程序自动创建序列记录提交完整基因组和大批量序列)等工具进行提交。


  3.2Dryad


  Dryad由美国国家进化分析中心等机构建立,其最初由进化生物学和生态学的主要期刊和科学团体提出,鼓励与数据一同提交手稿,进行存储。目前已有11047个数据包,451种期刊与之合作进行存储数据,包括生命科学领域目前主要的数据期刊如GenomicData、BMCResearchNotes、OpenHealthData、GigaScience、F1000Researh。


  (1)所有数据都与出版期刊及其他数据仓储的数据进行关联,并与TreeBASE和KnowledgeNetworkforBiocomplexity合作进行元数据互收割及数据检索,向DataCite、Googlescholar、Mendeley等外部系统提供元数据检索,所有数据可免费下载。


  (2)与DataONE合作,为数据分配数字对象标识符(digitalobjectidentifier,DOI),便于引用与共享。除了处于保护期暂不公开的数据外,所有数据和元数据均可通过CC0协议进行复用。


  (3)不限制所提交的数据文件格式,鼓励提交ASCII和HTML数据格式,鼓励采用现有标准或进一步发展标准,提交过程简便。对论文发表前提交的数据允许短时间内禁止共享,在论文发表后数据同时发表,并与CLOCKSS合作对数据进行长期保存。


  3.3ArrayExpress


  ArrayExpress是由EMBL-EBI、EC、NIH、NSF于2001年联合建立的,用于存储功能基因组学数据,数据来源为科研人员直接提交或从GEO数据库中导入。高通量测序实验的实验描述和处理数据存储在ArrayExpress中,原始数据由EuropeanNucleotideArchive(ENA)管理。目前,该数据库中共有62491条实验数据。


  (1)每一条数据均匹配了收藏号,可按关键词及收藏号检索,按物种、技术、实验类型分类,并提供ENA原始数据链接,数据可直接下载,并可链接至分析软件如Genomespace、Bioconductor等进行可视化分析。


  (2)可接受所有芯片和测序技术产生的功能基因组学数据,微阵列数据提交需遵循基因芯片实验最小信息标准(minimuminformationaboutamicroarrayexperiment,MIAME),测序数据提交需遵循高通量测序实验最小信息指南(MinimumInformationaboutahighthroughputSeQuencingExperiment,MINSEQE),提交内容需包括元数据、原始数据文件、加工的数据文件,提供Annotare工具协助完成数据标准的要求来提交数据,所有数据在文章正式发表后才公开。


  3.4NCBIdbGaP


  dbGaP由NIH2006年建立,用于存储和共享全基因组关联研究的编码基因型、表型相互作用的数据。2014年8月,NIH发布了“基因组数据共享政策”,dbGaP是该政策指定的存储库[38]。


  (1)dbGaP中可获取的数据包括3种———授权的个人基因组数据、NIH孤独症组学研究数据、精神分裂症遗传学研究数据,采用Entrez检索系统,可进行“结果关联检索”,提供“PheGenI”根据基因型及表型检索,可通过“GenomeBrowser”查看染色体测试位点分析结果。所有上传文件(包括研究方法、调查问卷及分析图表)均可开放获取[39],访问个体基因型和表型数据需要授权。


  (2)每一项数据被分配一个唯一的入藏号,面向公共领域可开放重用,引用时需至少包含入藏号,并向数据获取委员会提交获得数据使用认证,数据分析得到的结果在数据集禁止释放日期之前不能出版。


  (3)存储NIH资助的研究数据需要与项目办公室或基因组项目管理人员联系申请注册“研究”,邀请PI进入系统和提交模块,按照数据模板上传数据,经预览及批准后发布。数据模板中提供各类数据文件格式要求及指南。dbGaP提供了GRAF工具用于查找SNP基因型数据相关的主题,TransEAV工具用于将EAV数据转换成可提交的矩阵表格形式。


  3.5PURR


  PURR由普渡大学图书馆组织建立,面向普渡大学研究人员提供数据管理服务,支持数据集和软件工具的发布,并嵌入了数据管理计划服务,目前该仓储中在线发布了329个数据集,建立了63个项目空间、1个在线工具[40]。


  (1)所有数据集在发布之后可在线下载。图书馆通过PURR完成数据对象的描述,管理元数据的采集,并在图书馆在线检索中建立索引,支持基本的数据集检索与浏览[41]。


  (2)PURR通过CC协议支持数据重用和引用,科研人员也可推荐其他许可协议。每一个数据集都分配唯一的DOI,并提供具体引用格式,另外,与DataCite合作,为每一个数据集注册唯一的DOI,并提供具体引用格式,便于数据发现及引用。


  (3)PURR支持普渡大学的研究人员发布项目研究数据,并可创建项目管理空间,提供“数据采集表”来帮助科研人员确定数据是否适合存储。PURR可接受所有的文件类型,提交的数据集在两个工作日内,由存储专员和学科馆员审核、添加标签后进行发布。


  (4)PURR中嵌入了数据管理计划服务,帮助用户制定资助机构要求的数据管理计划,如帮助评估数据需求、组织、管理、共享数据,提供自我评估工具(DMPSelf-AssessmentTool)以问卷的形式帮助用户了解数据管理计划中应包含的内容,并提供现成的样本文件,样本文件可直接放在申请书中。自2011年以来,普渡大学超过1000个项目申请书中的数据管理计划使用了PURR。另外,学科馆员提供在线参考咨询服务,服务内容涵盖制定数据管理计划、组织和管理数据、发现和使用研究数据。


  3.6BioSharing


  BioSharing[42]由英国牛津大学于2007年建立,主要集成了生命科学领域注册的数据和试验元数据的标准、数据仓储以及数据政策,并将三者进行关联。此外,BioSharing还监测标准的开发及在数据仓储中的实现和应用,促进标准和数据库的协调一致,减少重复。目前该平台上所收集的内容包括标准622个、数据库702个、政策23个。


  BioSharing数据标准类型包括术语文件标准(Terminologyartifact,345篇)、模型格式(Model/format,192篇)和报告指南(Reportingguideline,85篇)3种。在每一条记录下可查看与该记录相关的标准、数据仓储、政策、出版物,数据访问和重用条件、涉及的工具以及提供的支持帮助,并与机构、出版商和数据期刊合作,如Biomedcentral、F1000Research、Scientificdata,帮助定义数据政策,集成相关标准和数据仓储。数据重用使用CC开放许可协议,数据存储需注册,可存储标准、数据仓储、数据相关政策,在存储数据后,BioSharing团队进行完备性检查后即可发布。数据标准和数据仓储开发与维护人员可进行注册认证,使标准可被发现和重用。


  4生命科学领域数据管理服务启示


  4.1制定国家层面的战略规划和政策体系


  数据政策是数据共享的基础,美英两国政府近年来密集发布开放数据相关的政策及战略规划来支持和推动数据共享,提升数据利用能力。生命科学领域一系列国际通用与高影响力数据仓储大部分由美英两国建立。我国虽然也发布了《科学数据共享工程建设规划》《科学数据共享条例》《国家科技计划项目科学数据汇交办法》和《科学数据分类分级共享及其发布策略》等政策[43],但与美英两国的规划和政策体系相比,仍不够完善。未来还需加快出台国家层面的战略规划,在借鉴美英经验的同时,立足于我国生命科学数据的现状与需求,梳理与提炼出政策要素内容,针对专业领域或不同的数据类型制定相应的开放数据政策与数据安全政策,从国家层面构建完善的政策体系。


  4.2资助机构在政策制定上应发挥带头作用


  国外基金资助机构如美国NSF和NIH、英国生物技术和生物研究理事会BBSRC、惠康基金会[44]等纷纷制定了领域或机构内的数据政策。我国国家自然科学基金委员会2014年发布了受资助项目科研论文的开放获取政策[45],但针对科学数据目前还没有具体的政策。国内的基金资助机构应发挥带头作用,引导国内科研机构对科学数据进行管理与共享,在政策的具体内容上可借鉴国外资助机构的模式如对数据提交内容、数据存储时间、数据公开及传播方式、数据使用规范、数据管理成效评估及经费支持等方面综合考虑。研究机构相关部门如图书馆可协助研究机构制定与实施相关政策,增强科研人员的数据管理意识与相关技能,并为其提供相关数据管理服务。


  4.3数据仓储在服务内容上应多元化


  在生命科学领域,中国是数据产出大国,但建设的数据仓储无论是在数量上还是影响力上,都与数据产出不成正比。未来我国在数据仓储建设的服务内容上,可借鉴美英两国成熟的数据仓储建设经验,在数据获取方面,除建立快捷准确的检索系统和下载方式外,可通过将数据与出版期刊的文献进行链接、向外部系统如DataCite提供元数据检索、在图书馆检索系统中建立索引等方式提高数据被检索获取的可能性。在数据重用方面,数据仓储应为数据分配标识符或入藏号,对数据使用规范和引用格式作出说明,还可考虑将数据链接至外部分析软件,方便数据复用。在数据存储方面,应对数据提交内容、格式、涉密数据保护等作出说明,提供不同数据的标准,鼓励采用标准提交数据,可提供工具软件辅助完成数据提交,在数据质量层面可邀请领域专家参与,建立审核与发布及长期保存机制。


  4.4数据仓储中应嵌入数据管理相关服务


  美英两国建设的数据仓储在服务模式上的创新,对于国内数据仓储开展服务具有很好的借鉴意义。我国一方面可向PURR学习,将数据仓储嵌入科研数据生命周期,提供数据管理计划服务,为科研人员提供在线的数据协作环境,助力其动态存储科研数据。另一方面,在数据仓储中提供数据管理相关服务如在线参考咨询服务、专业培训、工具软件使用指导等,辅助科研人员更好地利用数据仓储进行数据管理与共享。在此模式下,图书馆可发挥重要的作用,国外很多图书馆已开展数据管理服务,国内如中国科学院文献情报中心也展开了数据管理服务的相关研究[46],并面向中国科学院大学生命学院、地球科学学院等科学数据高产出学院开展了科学数据管理课程教学实践。而国内图书馆则可进一步努力尝试科研数据管理与服务,其数据仓储平台可集成图书馆提供的数据管理服务,从而丰富服务模式层面的建设。