在过去的十年里,我们在研发方面经历了巨大的变化。从新的仪器和软件到数字实验室的兴起,分析化学数据的前景已经发生了变化。对于ACD/Labs而言,我们需要把握分析数据管理(ADM)的脉搏。

这就是为什么我们每隔几年就发起一次全面调查,以揭示分析化学数据及其管理的最新趋势和偏好。

在这项调查中,我们听取了学术界(30%)、工业/制造业(26%)、生物技术/制药(13%)、政府(11%)、非营利研究单位(9%)、合同服务商(5%)和咨询公司(3%)的意见。

以下是我们的调查结果:

数据的多样性既是一个问题,也是必要的存在

数据是所有科研项目的支柱。采集分析数据主要是为了确保样品的特性和质量,特别是:

  1. 了解样品的结构或组成以及制造它们的工艺
  2. 评估实验、材料或过程的性能

通常需要运行几个不同的分析实验来回答这些问题(例如LC/MS和NMR)。分析实验室配备了各种仪器,以便分析人员可以为所寻求的答案选择最合适的仪器。由于我们希望确保科学性,因此,分析数据的多样性是必要的。此外,许多研究团队使用多个供应商制造的仪器,这会导致文件兼容性的问题。

不出所料,我们的调查发现,超过92%的受访者收集众多仪器的数据,使用多种技术,并依靠各种软件来处理分析数据。为了进一步细分,45%的人通常使用2-4种分析技术;37%的人使用2-4种不同的仪器来收集数据(33%的人使用5-9种仪器!);54%的人使用2-4个软件应用程序来处理他们的数据。

分析数据在多个应用程序中进行管理并随意共享

分析数据的多样性意味着对于大多数组织来说,它需要在许多不同的应用程序和系统中存储和管理。

微软应用程序仍然是管理和共享分析结果最流行的方式,80%的受访者选择了这种方式。无论是Excel电子表格,PowerPoint演示文稿还是电子邮件,对这些应用程序的无处不在的访问使它们成为一个简单的选择,尽管它们不是最适合科学数据共享和管理。

仪器软件是第二受欢迎的选择,占70%。虽然仪器软件仅限于处理和分析在该仪器上收集的数据,但它是专门为此而设计的。令人惊讶的是,许多组织仍在使用内部开发的软件来管理和共享分析数据,即使需要开发和维护开销。研发中部署的许多其他系统也用于存储和共享分析数据,如ELN,LIMS,CDS,SDMS等。

这些系统表示不同的活动,通常在分析数据文件的整个生命周期中组合使用:

  1. 存储在原始数据存档中,以确认质量和准确性
  2. 处理并存储在供应商软件中,以提取结果并保留处理后的数据文件
  3. 通过LIMS或电子邮件与科学家共享的结果可能包括谱图,预期结构/材料成分的确认以及文本结果(分子量,峰表,保留时间等)
  4. 基于这些结果的决策可以与谱图、峰值表、预期结构的确认以及科学家的笔记一起记录在ELN中。决策也可以通过PowerPoint在内部会议中呈现,随后存储在SharePoint上,或在报告中共享
  5. 存储在 CDS 或 SDMS 中,以符合 FAIR/ALCOA 原则并满足监管要求


表 1:分析数据生命周期中通常涉及的应用程序/系统的优势和不足


由于数据的分散导致难以拼凑进行综合分析、决策。当数据有许多可能的位置而难以快速获得时,阻力最小的路径通常是重复实验或向同事请求数据,这会非常浪费时间、材料并可能导致挫败感。

分散的数据使报告变得耗时

报告是在组织内或与外部合作伙伴共享信息的关键方式。只有18%的受访者表示,他们很少(或从不)将分析报告与来自不同仪器和技术的数据进行核对,40%的受访者每周或每天这样做。那么,从一个系统移动到另一个系统来收集所有相关数据以编制这些报告浪费了多少时间?通过全面实施 ADM 解决方案,科学家只需链接到数据即可整理出报告。

分析数据是任务关键型数据,但难以访问和共享

九成的受访者指出,他们每天需要NMR、LC/MS、GC/MS或其他分析数据来做出决策。七成人认为,在组织内共享和解释数据很重要。但是,对于对其工作至关重要的元素,访问或与他人共享该数据并不容易;50%的受访者认为在组织中搜索数据是一项挑战,而68%的受访者表示很难访问和与他人共享。


需要访问过去实验数据的原因

为了适当地解决数据访问的这些障碍,必须搞清楚科学家为什么需要访问过去实验中的数据。

在所有研发部门中,从过去的实验和报告中获取数据的三大原因是:

  1. 与新结果进行比较
  2. 重新处理或重新分析新信息
  3. 用于发布目的

而且,制药/生物制药的三大原因是:

  1. 与新结果进行比较
  2. 出于监管目的
  3. 重新处理或重新分析新信息

出于监管目的访问过去的数据是制药/生物制药的第二大重要因素,而对于学术界和非营利组织来说,这显得并不太重要。除了这种变化之外,需要访问过去实验数据的原因在研发部门是一致的。

25%的受访者访问旧数据以替换丢失或放错位置的数据。正确管理、可访问的数据可以显著节省时间和精力。特别是当找不到旧数据时,另一种选择是重新运行实验!

只有18%的受访者访问了数据科学项目的旧数据。

虽然学术和非营利组织可能比其他研发部门更少关注数据管理,但这可能是提高生产力的机会。从我自己在实验室的日子开始,几个研究项目会从一个学生转移到另一个学生。从团队内部查找数据,甚至从现任同事那里查找数据都具有挑战性。

改进机会

基于云的数据管理在简化存储和访问方面越来越吸引人

科学研发正处于云革命的边缘。基于云的数据管理提供了简化的协作,无论身在何处,每个人都可以使用信息。除了减少 IT 维护开销外,基于云的存储还提供快速的可扩展性和更高的数据安全性。从长远来看,更即时的数据访问意味着投资回报率的提高和支出的减少。

近一半的受访者(47%)也认为基于云的数据管理解决方案很重要。

人工智能和机器学习等先进技术很有吸引力,但很少有人将其用于分析数据

在过去的几年里,关于人工智能(AI)和机器学习(ML)的炒作很多。虽然这些技术在生命科学领域有很大的潜力,但我们的结果表明,该行业距离完全实施还有数年时间。

只有6%的受访者组织在数据科学项目中完全实施了分析数据的使用,而43%的组织正在这样做。51%的受访者没有计划将分析数据用于AI和ML项目。

在AI和ML的实施方面存在很大差异。这并不奇怪,特别是考虑到每天的分析数据量及其多样性。数据科学项目的基石是精心策划的规范化数据,这对于分析数据来说具有挑战性。如果利用人工智能是一个长期目标,那么确定分析数据如何适应该目标并从头开始非常重要。目前存在的许多分析数据管理解决方案都没有为数据科学项目准备数据。自动化收集数据而不增加科学家的负担,以及内部就如何规范化数据达成一致,是关键的第一步。

下一步的工作

70%的受访者认为他们的组织需要投资更新/更好的数据管理技术。

提到的具体改进包括:

  • 一个集中式系统,用于管理数据,而不是多个程序或系统
  • 用户友好的系统
  • 兼容云存储
  • 更强的数据安全性

ACD/Labs在这里提供我们的专业知识

近三十年来,我们一直在帮助客户管理他们的分析数据,并提高以分析数据为关键的解决方案的效率。

ACD/Spectrus数据管理软件平台为分析数据的管理提供了专业的支持,兼容不同仪器类型、不同品牌仪器的原始数据:

支持的数据类型:

  • 化学结构(兼容主流的画图软件格式)
  • 化学反应
  • 谱图信息(核磁、质谱、色谱、紫外、红外等)
  • 兼容主流的分析仪器产生的原始文件(如上图示)
  • 生物及毒性信息
  • 描述性文本记录
  • 批次及项目编号附件(doc、xls、ppt、pdf、txt 等)

搜索功能:

  • 化学结构(精确结构、子结构、相似结构)
  • Markush 结构
  • 峰信息、谱图或其他光谱或色谱参数
  • 文本或数值信息
  • 分子量或其范围
  • 谱图搜索功能(峰信号、精确谱图、相似谱图)

数据库模板示例:

广州凯美科信息技术有限公司

产品经理:胡炽文

联系电话:18680221948 (微信同号)

联系邮箱:[email protected]