用于标记生命科学研究中敏感数据的工具箱

导读 从气候变化到全球流行病,世界正面临着与环境和健康相关的重大挑战,这些挑战促使生命科学研究机构汇集其数据和数字资源以寻找解决方案。然

从气候变化到全球流行病,世界正面临着与环境和健康相关的重大挑战,这些挑战促使生命科学研究机构汇集其数据和数字资源以寻找解决方案。

然而,生物和医学研究产生的许多数据都是敏感的,这要么是出于个人性质,要么是出于知识产权方面的考虑、生物危害问题或《名古屋议定书》。

敏感数据的工具箱

EOSC-Life项目正在汇集研究基础设施,为生命科学研究创建一个开放、数字和协作的空间,其中的数据、工具和分析工作流程更易于查找、访问、互操作和可重用(FAIR)。

为了支持这个FAIRification过程,它开发了一个工具箱,为打算在欧洲开放科学云(EOSC)等云环境中共享和/或使用敏感数据的研究人员提供信息。该工具箱在《科学报告》杂志上发表的一篇论文中有所描述。

该工具箱基于在EOSC-Life项目中涉及的六个生命科学研究基础设施集群中开发和协调的分类或标记系统。该工具箱不会创建新内容,而是让科学家能够找到与所有参与研究基础设施共享敏感数据相关的资源。它包含指向与敏感数据相关的数字对象的链接,例如法规、指南、最佳实践和软件,以支持数据共享和重用。

分三个阶段发展

工具箱的分类系统使资源的一致标签成为可能。开发了三个不同版本的分类系统,每个版本都通过后续的试点研究进行了测试。这最终导致了一个具有七个主要类别的系统:敏感数据类型;资源类型;研究领域;数据类型;数据共享生命周期中的阶段;地理范围;和特定主题。

第三版分类系统在试点研究3中使用110个资源进行了测试,其中一个资源缺失数据。因此,在该试点研究中标记的总共109个资源被用作工具箱演示器的初始内容。

演示器是一种软件工具,允许研究人员搜索链接到敏感数据的数字对象,并根据分类系统进行过滤。研究作者进一步解释说:“该工具允许通过DOI或作者对链接到标题中带有自由文本的敏感数据的资源进行预过滤。可以根据项目类型(例如期刊文章、网络研讨会、报告、软件)和从系统版本3的不同类别中选择任何预先列出的标签。搜索结果可以保存为PDF或JSON。”

这组作者说,接下来的重要步骤包括评估工具箱演示器的可用性和用户友好性,扩展工具箱以涵盖更多资源,促进不同生命科学社区更广泛地采用它,并制定维护和可持续性的长期愿景。EOSC-Life(为欧洲数字生物学提供开放协作空间)项目将于2023年8月结束。