当前位置:范文帮毕业论文内容页

数据管理计划工具RDMO研究

2021-10-20 12:00:01毕业论文访问手机版

摘要:数据管理计划是科研数据管理服务的第一步和基础,对良好的数据管理具有重要指导作用。文章以数据管理计划工具RDMO为研究对象,从开发目标、服务模式到设计方案进行分析,发现该工具以访谈形式为输入,属性为核心元素构建信息组织关系,在应用上采用机构分散部署的方式,涵盖整个数据生命周期,对于图书馆/信息机构开发相关工具具有较高的参考价值。

关键词:科研数据;数据管理计划;RDMO

数据管理计划(DataManagementPlan,简称DMP)作为科研数据管理的第一步,是由科研人员撰写,描述科研项目中如何管理、描述、分析和存储可能获取或生成的数据,以及项目结束后如何共享和保存这些数据的正式文档[1-2]。由于科研数据管理的后续步骤都包含在数据管理计划之中,且数字管理计划是科研数据生命周期全流程管理的出发点,所以良好的数据管理计划是增强数据质量、提升数据共享水平的基础保障,也是后续数据存储、组织等工作的落脚点和指南[3]。现阶段,作为参与数据管理的重要工具,几乎所有开展科研数据管理服务的图书馆都提供该服务[4]。数据管理计划工具就是在此背景下,提供完善的数据管理计划参考信息,并指导科研人员创建符合资助单位或是开放科学要求的工具。因此,设计、开发数据管理计划工具是图书馆提升科研数据管理服务水平的重要任务,对于数据管理工作具有重要的指导意义。目前,数据管理计划工具主要包括:由DigitalCurationCenter(DCC)开发运行的DMPOnline[5]、加利福尼亚大学数字图书馆监管中心(CDL)的DMPTool[6]、德国比勒菲尔德大学数据管理计划工具OnlineTool[7]、柏林工业大学(TUBerlin)TUP-DMP[8]和德国生物数据学会GFBio开发的GFBioDMPTool[9]。其中最为常用的为DMPOnline和DMPTool。DMPTool的设计开发工作始于2011年,由5家美国高校图书馆、2家科学数据组织和1家博物馆共同研制,目前共有268家机构,46911个用户。DMPOnline最初由格拉斯哥大学的人文技术信息研究所按照DCC模型开发,目前有203家机构,近18000个用户。目前,DCC和CDL联合开发版本DMPRoadmap也已经上线。由于使用相对广泛,所以针对数据管理计划工具的研究普遍也以这两种工具为主。

1文献综述

对于数据管理工具的相关研究成果方面,马建玲等注意到国外图书馆在科研数据管理工具开发方面的工作,并介绍了数据管理计划创建工具DMPTool[10];王凯等从开发路线、服务方式与需求建议的角度比较了DMPTool与DMPOnline二者的区别[11];王璞则分别介绍了DMPOnline和DMPTool的发展和目标,并指出尽管两个工具有所差异,但都以集成式的DMP撰写工具来促进数据管理的最佳实践,已发展成为国际普及的数据管理计划工具[12];吴海茹认为DMPTool可以加速科研人员创建数据管理计划,更加熟悉科研资助单位的数据要求[13]。目前,针对现有科研数据管理计划工具的研究还较少,主要集中在应用方式方法层面,对于开发的依据、设计理念的研究还有所欠缺。在实际使用层面,DMPTool与DMPOnline主要针对英美两国科研环境,所关联的机构数据要求也以本国为主。虽然机构在使用上述工具时可以进行个性化配置,但对于我国这样的科研大国,开发自己的工具尤为重要。而RDMO工具开发时参考了相关工具的不足,并进行了德国科研的个性化开发,所以研究该工具,对于我国开展相关软件工具的开发具有重要参考价值。

2RDMO工具概述

随着开放科学的普及,科研数据已经成为重要战略资源,作为科研工作的基本保障,良好的数据管理计划已经成为大部分资助机构的要求,无论科研人员本身还是所在机构都需要利用有效工具进行科研数据管理。在此背景下,RDMO(ResearchDataManagementOrganiser科研数据管理组织工具)的开发,由德意志研究联合会(DFG)资助,波茨坦莱布尼茨天文物理研究所、波茨坦应用技术大学和卡尔斯鲁厄大学图书馆共同完成,第一阶段从2015至2017年,第二阶段从2017至2020年。如同DMPOnline和DMPTool,RDMO也是一款基于网页的数据管理计划软件。RDMO的开发基于科研数据的全生命周期,所以适用于科研数据管理中涉及的所有参与者。同时,由于框架采用Python-Django和AngularJS,代码开源(GitHub)[14],因此,RDMO可由科研机构或大学独立安装,并且易于补充特定学科或机构个性化的内容。RDMO的安装主要分为三部分,即rdmo-app、rdmo软件包和数据库。其中rdmo-app主要存储本机构的所有设置、自定义选项;rdmo软件包则是由RDMO项目团队集中维护的程序包;数据库主要用于存储用户的科研数据管理计划等机构实际使用信息,数据库管理系统可支持sqlite3、MySQL或PostgreSQL[15]。从使用形式上看与DMPOnline和DMPTool也较为类似,如面向科研人员,通过结构化问题进行数据管理计划的填写,并可以选择使用机构模板;而对于机构工作人员,也可以进行相关内容审查、模板编辑功能。数据管理计划主要是满足科研项目申请阶段的要求,一般在项目执行阶段前完成。所以,针对数据管理计划的工具主要基于管理机构、资助方模板建立一份科研数据使用的备忘录,并没有发挥数据管理计划在科研数据全生命周期中的功能。而且在实际使用中,无论DMPOnline还是DMPTool,其主要围绕各自国家资助机构相关数据政策,并且采用集中管理模式,存在科研方向、研究内容等敏感信息的泄露风险。因此,开发本国数据管理计划工具具有重要现实意义。目前,RDMO已经在德国科研机构广泛使用或试用。从机构类别上看,主要包括三类:大型科研项目,如德国联邦食品及农业部畜牧业减排项目、德国联邦教研部区域高校联盟科研数据项目、德意志研究联合会(DFG)研究数据生命周期中的分子数据管理项目等;科研机构/高校图书馆/计算中心日常数据管理计划服务,共26家,包括尤里希研究中心、马克斯普朗克数字图书馆、亥姆霍次材料能源中心等7家国家科研院所和17所高校;联邦州科研数据基础设施,如黑森州研究数据基础设施联盟、北威州数字高校研究数据基础设施先导行动等。由于结构化问题源自需求,又是良好实践经验的总结,因此,依托这些科研机构,RDMO可以提升学科适应性,丰富结构化问题。以德国的畜牧业减排项目(EmiMin)为例,服务团队按照项目要求,设计工作流程,并根据各方的任务角色,建立与农业技术相适应的问题模板,开发出项目用数据管理计划工具定制版RDMO4Life。下一步RDMO团队将基于此,扩展相关问题,建立起适合农业科学的RDMO。目前,RDMO在其GitHub平台上共享了8份结构化问题模板,包括DFG项目模板、经济学项目模板、教育科学模板、社会学模板、机械工程模板等。

3RDMO工具服务模式

RDMO主要面向数据管理计划使用者,包括创建者即科研人员,以及数据管理计划服务的管理者,即一般组织机构的图书馆。相应地,所使用的服务方式也有所区别。

3.1面向科研人员服务模式

科研人员服务模式如图1所示。与DMPOnline和DMPTool最大的不同是,RDMO首先通过结构化问题模板的方式引导科研人员完成科研数据在项目全周期各环节处理办法的填写,而非直接利用资助者或者相关机构的数据管理计划模板进行。这样的好处在于,数据管理计划不拘泥于某个具体模板,而是切实在科研过程中管理数据的内容。问题模板选择之后,科研人员按照问题进行相关内容的填写,过程中既可以按顺序填写各部分内容,也可以跳过部分内容或自由跳转,或以个人喜好的顺序填写各部分内容。RDMO的另一个特点是在预览阶段,已填写的内容信息可以自动映射到具体资助机构的数据管理计划模板,减少了科研人员的重复劳动。此外,科研人员还可以在线存储数据管理计划,填写完成后导出数据管理计划或提交至所在组织机构以待审查。服务的最后一步是用户信息的添加和编辑,一个项目可能涉及多种用户身份,RDMO设立4种身份供选择,分别是项目负责人、项目经理、组员和访客。从访问权限上看,项目负责人和项目经理具有几乎相同的编写加工权限,区别只在于项目负责人可以添加/删除项目,而组员具有读和写权限,访客只有读的权限。

3.2面向组织机构的服务模式

对于组织机构,RDMO最重要的服务是问题模板的编辑以及计划模板的添加。机构管理员可以以现有问题模板为参考,增加/删减机构层面特有/无关的问题,而在数据管理计划预览阶段,也可以添加本机构或特定资助机构的数据管理计划模板,具备了较强的扩展特性。此外,RDMO对于机构的服务还有面向软件平台的权限更改和配置,如用户权限、账户信息等常规管理员功能。

4RDMO工具数据模型及要点

RDMO的数据模型如图2所示。对于用户而言,结构化问题是RDMO中最明显的部分。层级从高到低使用目录、部分、子部分、问题集和问题进行配置。单个RDMO可以配置多个目录,创建新项目时,用户可以选择要用于该项目的目录。目录包含多个部分和子部分,这些部分本身具有问题集,而具体问题可以直接添加到问题集中。问题为文本格式,显示给用户,并辅助一个可选的帮助文本。“域”模型是数据模型的核心部分,其功能是将访谈中的问题与用户输入联系起来,并按照树状结构组织。用户项目中每条信息都由一个属性表示,并采用目录组织的形式,因此,这些属性可以看作是“域”模型树上的叶子,组织它们所代表的不同实体之间的联系。如项目开始日期为带有路径的属性project/schedule/project_start,该属性本身键值为project_start,并位于属性schedule中,而schedule本身又位于project中。“条件”与问题集相关联,并确定所控制的问题集在当前环境下是否有效。如果问题集无效,则不会显示给用户。“视图”是允许在RDMO中使用的DMP模板,每一个模板都对应一个“视图”,该视图可以使用基于HTML的Django进行编辑。在“视图”中,管理人员可以人为的添加标题和帮助文本,并显示在项目之中,帮助科研人员回答相关科研数据管理的问题。待结构化问题填写完成后,RDMO将根据用户的回答提供跟进“任务”。“任务”具有标题和文本,通常情况下,“任务”与“条件”相关联,以确定特定项目是否需要。此外,由于“任务”本身具有“datetime”等时间属性值,可以使用诸如项目开始或结束的答案来计算任务的时间范围,因此便于进行时序管理。

4.1RDMO属性结构

从上节可以看出,每个问题所对应的属性是RDMO希望提取的核心元素,是整个数据组织的骨架。同时,属性又是RDMO的信息基础,是数据管理计划中信息颗粒度的重要指标。因此分析RDMO的属性设计是理清工具功能的基础。RDMO的属性无外乎就是如何组织串联每个任务和所包含的具体信息,所以,首先要明确科研数据管理的任务划分和流程。科研数据管理主要由6个科研数据生命周期的独立任务,包括:计划/创建、选择/评估、获取/接收、存储/IT、保存手段以及访问/使用,以及5个贯穿于全周期且交叉的管理任务组成,分别为:管理/政策、法律/道德、财务/资助、元数据和标识[16]。而RDMO的基本属性结构,可以从其GitHub上的文档得到,如表1所示(由于篇幅的原因,四级键值有所归并和简略)。从内容上看,RDMO属性包括funder、costs、legal_aspect、dataset等交叉管理任务,而dataset中又包含creation、datacollection等数据生命周期独立任务,涵盖了所有科研数据管理任务元素,具有较为全面的特点。从结构上看,科研数据的基础单位是项目,因此属性以project为最高级。在二级中,除research_field、schedule等项目概述值外,主要包括:additionalrdm_policy、coordinator、partner、funder、costs、legal_aspect、dataset等,而三级则主要是二级值对应的各个方面,四级以此类推。特点主要表现在:首先,以科研数据管理模型中具有交叉特点的管理任务为属性结构的主线(二级),而数据生命周期独立任务则主要处于第三级,并融入相应的二级指标中。这样的好处在于,数据管理计划的核心是管理,因此以管理实体,如科研人员、组织机构、伙伴机构划分,可以明确主要干系人的任务/信息区块,避免了管理实体交叉带来的任务不清;其次,增加时间维度指标,在数据生命周期中任务步骤,如datacollection、datacleaning、dataanalysis等方面增加了执行的起始和结束时间,明确了数据管理计划的计划性、动态性特征;最后,增加了责任人,如在机构合作层面的coordinator和partner中明确了contact_person、name,在数据周期任务中,也出现如creator,owner,responsible或responsible_person等需要确立的相关责任人元素.

4.2互操作性

互操作性是RDMO与其他工具软件或科研数据基础设施信息共享的基础。由于结构化问题是唯一输入,所以,RDMO互操作性的基础是上节所述“域”内问题——属性与目标系统之间的有效映射。目前,RDMO互操作性主要针对DataCite的15个强制属性和5个推荐属性,具体如表1所示。从表中不难发现,在映射时,RDMO非常注意问题——属性和DataCite之间语义的对应。如在“Publisher->dataset/preservation/repository”中,DataCite主要使用“Publisher”表明数据来源,所以在RDMO结构化问题中,使用“storedorarchivedaftertheendoftheproject”(在项目结束后存储或归档),既明确了时间为“项目结束后”,在用词上使用“storedorarchived”,区别于一般概念上的“Publish”;再如“creatorName->project/dataset/creator_name”中,“creatorName”在DateCite中指数据建立者的姓名,格式为“姓,名”,在RDMO中,首先区别了creator和creatorName,前者可以为人或机构,而后者为DataCite所指的主要研究人员,并且在问题中给出了明确的解释。

4.3服务体系

本研究的服务体系指RDMO软件的使用者社区建设。类似其他需求驱动型开源软件,完整的开发者和使用者的生态体系建设是成果的关键。在DMPTool和DMPOnline的开发设计时就考虑了这种互动关系。其主要原因有:(1)技术因素。单独的数据管理计划软件本身是“空”的,结构化问题和域内的属性元素需要不同机构在使用过程中才能反复优化,才能提高应用性和适用性;(2)组织因素。科研数据价值的提升在于大规模汇集,因此,建立使用者-开发者社区建设是开放科学下科研数据共享的要求。由于RDMO在设计之初就考虑到了数据的隐私性,所以,RDMO社区建设的核心方针是,使分布在各地的不同RDMO使用机构能够在技术上“自给自足”,并以此方式进一步发展RDMO整体社区。因此,RDMO社区建设通过多种渠道开展双方的交流,而RDMO团队针对这些问题和需求进行再优化。RDMO社区建设模式主要包括:(1)传统的宣传和培训。在RDMO官网上有技术帮助文件的文本、视频文件供下载,如快速使用手册、如何生成、编辑结构化问题等。(2)技术文档解决方案。在RDMO网站内,开发者公开了技术文档手册包括安装、部署、配置,在涉及科研数据管理的内容上,也有相应的问题-属性等核心字段。(3)RDMO在机构数据基础设施的整合服务。一方面协助机构进行RDMO的整合,如RDMO与不同专业学科、不同机构展开合作,建立适用不同专业或特定机构的的数据管理计划工具版本。另一方面,RDMO还积极融入到现有科研基础设施中,特别是一些德国参与建设的平台,如re3data(全球科研数据知识库注册系统)、RADAR(通用科研数据知识库)。(4)交流平台,如GitHub、建立聊天群组、邮件列表等。(5)使用者大会。从2018年开始,每年召开一次使用者大会,在大会上,RDMO服务团队及用户就软件的使用、问题和需求开展一些列讲座和研讨。

5RDMO工具特点

5.1以模板为驱动转变为以组织为核心

随着科研数据愈发重要,数据管理计划逐渐成为科研机构或是资助者在项目执行前所提供的必需材料。从目前主要数据管理计划工具看,资助者模板是计划的最初驱动。在完成数据管理计划时,基本与科研机构或资助机构的数据管理要求相关联,而对于没有现成模板的情况,结构化的问题则相对简单,如DCC基础模板,对于未来实际科研数据管理指导性、操作性不强。而RDMO使用一般化的问题,依管理任务进行切分,内容涵盖整个科研数据管理流程,又在相关步骤中明确责任人,可以依照不同角色安排任务。在技术上,模板中的每个问题与属性相对应,便于进行信息的提取-交互,也便于融入到其他工具和系统之中,从而形成一份可执行、可扩展的数据管理计划。

5.2分布式部署

当前的数据管理计划工具多为集中管理方式,这种方式存在数据安全和机构/国别适应性方面的问题。而RDMO允许进行机构/项目/联盟等多种方式的分布式部署,既保证了科研项目/科研数据,特别是一些敏感信息的安全性,在应用层面又便于使用方按照机构特点或学科特征进行编辑和优化,具备了较强的扩展能力。由于RDMO的组成结构较为简单,主要包含rdmo-app、rdmopackage和database3个部分,因此,从安装到配置都较为简单,且源代码在GitHub上公开。对于软件更新的问题,则主要通过建立技术社区、收集问题、工具软件包更新的方式进行。

5.3互操作的扩展特性

目前,如DataCite、re3data等基础设施在科研数据领域,已经成为科研数据的必要组成。因此,数据管理计划作为科研数据管理的基础和出发点,互操作性是与其他软件/基础设施一起工作并共享信息的保证。在RDMO中,所有结构化问题都对应了一个属性,同时一些关键词汇也来自RDMO内部的规范词汇表。因此,互操作性既是软件内部问题——模板的自动关联,实现自动提取,降低科研人员工作量的重要保障,又是与外部一些科研数据常用基础设施进行信息共享的基础。如上文所述,RDMO已经与DataCite中的20个强制属性和可选属性进行了映射。目前,RDMO正在通过开发相应模块和元数据模型来实现与其他系统的信息共享,以及与机构本身科研管理相关联的功能,如将RDMO链接到科研信息系统(FIS),实现元数据的接口和标识符系统,采集科研数据成果。

5.4建立多维度社区服务

通过建立社区实现开发者与用户之间的交流是开源工具软件持续优化的保障。在RDMO中,这种信息交互是多维度的。从内容上看,既有传统媒介的宣传和培训,又有目前开发人员使用较为广泛的GitHub、Slack、Twitter等,通过多种渠道建立联系,广泛收集问题和需求,实现反复优化迭代;从组织上看,有学科、机构、联盟等不同合作模式,一方面可以推广工具软件的使用,另一方面可以扩展软件在学科和使用环境的适用特性,为衍生出不同版本的RDMO提供了基础。

6对我国科研数据管理的启示

纵观我国科研数据管理研究,主要从服务的范畴和任务(如内容、参与者)、治理(如机构科研数据政策)、执行(图书馆在科研数据管理服务的作用)和实践(科研数据管理服务平台建设)开展,并取得了大量研究成果,但具体工具软件却较少。而数据管理计划作为科研数据管理的服务的首要内容,其工具软件的开发设计,对于我国图书馆/信息机构开展相关服务都具有重要参考价值。

6.1开发我国自己的数据管理计划工具

数据管理计划工具是规范科研数据管理,增强数据质量以及提升数据共享意愿的重要工具软件,也是发挥图书馆/信息机构在数据治理中作用的重要手段。2018年,我国科研机构和高校各类研究与试验发展项目接近120万项[17],仅国家层面的自然科学和社会科学基金2019年就达到50000余项[18-19],这还不算数量更为巨大的省市系统基金资助项目。一方面,若使用国外相关工具,在适用性上无法保证,另一方面,还有泄露重要科研敏感信息的风险。德国作为科研大国和强国,从2015年开始开发自己的数据管理计划工具RDMO,保障自身科研需要。2018年4月国务院办公厅印发《科学数据管理办法》,旨在进一步加强和规范科学数据管理,保障科学数据安全,提高开放共享水平[20]。因此,开发我国自己的数据管理计划工具,具有重要现实意义。

6.2注重可执行性

科研数据管理计划并不只是为了满足资助方的数据管理要求,不能局限在一个静态的文档,其目的是增强数据在全生命周期的有效管理,保障科研数据的质量,增强可复用性。因此,数据管理计划工具在开发过程中应在以下方面注重可执行性。可执行性的基础就是参与者可以找到自己所需要的信息。具体来看,应注重问题颗粒度设计和相关方需求的辨析。首先,数据管理计划的结构化输入应尽量明确,以科研数据管理中的必要元素为核心设计问题模板,引导科研人员做出尽量标准、规范的回答,收集到所需信息;其次,科研数据管理涉及多方共同协作,包括数据生产方(科研人员)、服务提供方(图书馆/技术中心)、科研数据基础设施以及项目资助者,所以,数据管理计划应满足不同角色的使用需要,如对于科研人员,类似项目的DMP案例、元数据的使用规范是其正确填写的基础,而对于资助方,可能来自科研人员未来数据的存储方式、地点和成本回答是最为重要的信息。

6.3注重互操作性

互操作性是可执行性的重要基础。互操作性主要分为3个维度:(1)工具软件内的信息可以充分交互。如在RDMO中,结构化的输入与不同数据管理计划模板相关联,便于信息的提取,此外,对于一些具备唯一性的实体也应当进行标记,以便不断完善数据管理计划数据库内容,为科研人员撰写数据管理计划提供良好的帮助和指导。(2)与其他数据基础设施的互操作。其他数据基础设施主要指包括如DataCite、re3data等在内的数据索引、知识库登记系统。这些系统是科研数据发布、再利用的重要保障。(3)数据管理计划与科研信息系统的互操作。一方面,数据管理计划中诸如项目信息、资助信息来自科研信息系统,另一方面,科研信息系统也需要在数据管理计划中提取如大型仪器的使用、成果数据进行相关领域的评估。在开发阶段,应着重从方案语义和持久标识符两个方面考虑。方案语义是不同信息相互映射的基础。在数据管理计划工具的数据模型设计中,可按照不同系统方案中的语义,通过注释信息或向用户提供标准描述列表来实现和规范,如RDMO就使用如注释信息来解释creatorName,利用问题中store和archive来解释publish在不同方案的含义。而对于持久标识符,应从人-机构进行标识,如学者身份ID、知识库标识、资助者标识、项目计划标识。

6.4注重用户社区建设

建设完善的用户社区是数据管理计划软件成功的关键。首先,数据管理计划本身由于可能涉及各机构的敏感数据,技术上一般需采用分布式部署,满足自有数据的独立性;其次,对于软件的输入-结构化问题必须不断优化,因此,又需要为工具软件不断进行核心功能的迭代和升级。而内容上,只有尽可能丰富来源,才能建立起更为贴近实际的问题输入,以及更为全面的语义方案,从而提升工具软件的可执行性和互操作性。在具体工作中,用户社区建设的关键在于多维度,多维度应包括机构、学科、形式三个方面。机构上,包括项目执行机构(如高校、科研机构)和项目资助机构,并尽可能广泛推广;学科上,应注意学科领域分类或科研数据类型范围,尽量将研究领域相近、元数据类似的学科整合在一起,构建适用于机构和学科领域层面的数据管理计划工具;同时,形式上,建立以开源形式的技术文档库为核心,以网络社区、聊天群组为主要交流形式,辅之以定期的培训和用户大会等多方面、多角度的培训。

作者:周雷