华大科技&GeneDock 基因组解码计划实践,实现自动化生产、智能化数据质控、有效的数据管理和数据安全等。

11 月 10 日,深圳华大基因科技服务有限公司(以下简称“华大科技”)总经理高强博士与北京聚道科技有限公司(以下简称 “GeneDock”)CEO 李厦戎博士在北京正式签署了基因组解码计划战略合作协议。 目前,双方已经完成了基于 GeneDock BPL 智能化云端数据生产线的开发和调试,以及数百个全基因组数据的压力测试,并投入生产。

主要性能指标:

❖.缩短数据平均交付时间
— 由周级别降为天级别;
❖.提升并发任务数
— 全基因组达到 100 个/天;
❖.压力测试中任务失败率低于 1%
— 失败原因均为非系统原因(输入数据质量不过关)。

满足的业务和管理需求:

❖.跨地域交付数据;
❖.细粒度权限控制保证安全性;
❖.组学数据多层质控;
❖.单个样本成本可精确计量。

这是业界实现跨地域大规模组学数据交付及数据生信分析生产自动化的开创性实践,我们希望与大家分享其中的技术与思考。

华大科技业务场景及痛点

1.数据生产

作为全球最大的测序机构,为支持客户的大规模测序需求,华大科技在国内外有多个自建和合作的测序实验室。在实际生产业务中,华大会将样本就近分发到测序实验室,再汇总下机数据到深圳。在多个物理站点的数据分析和管理过程中,需要多步骤的数据分发和整合,存在环节多,流程长,涉及到人员广等痛点。

2.数据传输

在构建云端数据生产线之前,这些测序实验室将下机数据通过硬盘或网络传输的方式汇总。对于 TB 级别的项目数据而言,一般网络传输存在较大瓶颈,而硬盘传输目前往往依赖传统的第三方物流,缺乏数据物流过程的有效存储、实时追踪和信息安全保障等。

3.数据分析与管理

数据处理组把数据放入本地磁盘阵列,按照统一的数据规范整理并进行质控分析,通知生物信息分析人员,生物信息分析人员查看质控报告,把数据上传到集群,开始运行分析流程。分析完成后,数据下载到本地备份,通知项目管理人员,数据分析完成,然后把数据交付给客户。这其中涉及数据生产、生物信息分析、项目管理等多个岗位,涉及操作人员广,核心环节依赖人工协作。

4.交付周期与成本

在每一年测序仪更新换代,测序价格以超摩尔定律下降情况下,数据生产需求与日俱增,同时计算资源的价格并非类似下降,资源扩充需要较高成本同时,会引起一段时间内的交付不稳定。而斥资引进传统高性能计算集群,在非峰值时期无法做到满负荷,造成资源浪费。存在计算资源限制,通量小,交付不稳定等痛点

图一、华大科技业务场景

智能化云端数据生产线方案

如何解决以上问题?
相信不止华大,也是众多基因企业一直以来困扰的难题。一方面,需要平衡用户体验和计算资源使用的效率;另一方面,缺乏专注于基因数据计算解决方案的供应商,这不仅需要有 IT 背景,更需要有对基因测序业务场景的浸润和上下游联动的资源能力。

图二、智能化云端数据生产线

GeneDock 的 BPL 产品方案是国内领先的面向基因领域的生物信息计算生产服务,可以深入客户场景,提供一站式解决方案。

在同华大的战略合作中,基于以上的业务难点和痛点,和华大科技共建“智能化云端数据生产线”,实现智能化、自动化的高效基因数据生产:

✤ 不同地域的测序实验室数据会直接通过 GeneDock 数据传输客户端将数据从多个区域的测序实验室上传到云端。

✤ 自动化完成云上下机数据质量控制、批量生物信息分析。

✤ 分析结果出来后,通过 GeneDock 的数据管理进行云上交付并同时使用专线进行本地备份。

云端数据生产线的优势

1.缩短交付周期

通过 GeneDock BPL 的云上组学数据管理和传输方案,替换掉物流快递硬盘,不仅有效缩短交付周期,还保证了数据的安全性。

2.自动化生产

通过 GeneDock BPL 进行了质量控制及后续数据分析,保证分析结果的可靠性,并省去了分析前数据二次下载准备工作。自动化流程则把生物信息工程师从繁琐重复的工作中解放出来。

3.海量数据处理

经大规模压力测试,每天能同时处理上百个全基因组。

4.业务精细管理

生产线处理的每个样本都有成本核算,并提供月底账单。传统的购买硬件自建环境的用户,不能满足资源弹性伸缩的场景需求,往往也没有考虑硬件折旧成本。

GeneDock BPL 介绍

智能化云端数据生产线技术是基于 GeneDock BPL 产品研发的。在精准医学研究及临床实践中,由于组学数据不同于以往的表型和影像数据,数据的管理交付及安全性方面没有针对性的解决方案。GeneDock BPL 设计了一套面向精准医疗的组学数据管理方案,帮助用户解决数据交付便捷性、时效性、安全性问题。
随着测序成本的降低,全基因组测序样本的数量也越来越多,GeneDock BPL 提高了组学数据的分析速度,采用自动化生产投递的方式,并保证成功率。

1.数据传输

测序数据下机后的组学数据需要经过传输才能到达数据所有者手中。GeneDock 提供了图形化数据传输客户端和命令行客户端,测序数据下机后可直接批量上传 ,省去数据拷贝和硬盘邮寄的环节,提升了传输效率。同时传输过程中提供了数据压缩、加密和校验及用户权限控制等功能,确保数据的安全完整。

图三、GeneDock 客户端操作界面

根据不同地区实验室的网络条件,我们采取不同的就近传输方案。举个例子,从不同城市向深圳汇总测序下机数据。

(1)、云端跨域:
北京测序实验室会先把数据通过云计算厂商高速通道传到云计算北京机房,之后再经过云计算北京到云计算深圳的高速通道,把数据迁移到深圳。

(2)、数据直传:
上海和南京的测序实验室使用互联网,直接把数据传输到云计算深圳机房。另外,配合聚道自主研发的基因数据压缩算法,数据的平均传输速度会高于带宽的传输上限 ,90G 的全基因组数据大约在两小时内传完。

源地址 目的地 平均传输速度
北京 深圳 14.22MB/s
上海 深圳 13.98MB/s
南京 深圳 14.09MB/s

2.数据质控

数据质控对数据的分析结果至关重要,是判定数据分析结果是否可靠的直接因素。一般在数据生产过程中会有专门的数据质控团队。GeneDock BPL 系统则把这一过程实现了自动化,数据从测序实验室上传完成之后系统会自动触发数据质控流程,对数据的规范和质量执行自动检测。节省了大量的人力。

例如,用户可以对传输的文件设定一套命名规则,加入项目 ID 等关键信息。再如,依照《临床分子病理实验室二代基因测序检测专家共识》和《二代测序(NGS)技术应用于临床肿瘤精准医学诊断的共识》的指标对 FASTQ 和 BAM 文件均进行统计,如果上传数据不符合质量标准,就会自动报警并发出通知邮件,以便生产人员第一时间进行检查。

GeneDock BPL 的数据质量智能监控,减少了人为因素处理的中间等待环节,大大提高了数据交付验收和后续生产的工作效率。

图四、FASTQ 文件的基本测序质量统计

图五、比对后 BAM 文件的基本统计

3.数据分析

生物信息的一个重点就是组学数据的处理与分析,随着基因行业在临床和科研方面的应用逐步加深与扩大,样本数量的越来越多,加之分析过程本身也是高并发的过程,如何快速、高效、准确的获取分析结果变成了一个问题。
GeneDock 自主研发的调度系统,支持任务在多种计算框架(例如本地集群、阿里云、AWS 等)中混合调度,为快速、高效的数据分析提供了强有力的底层保障。

4.管理的挑战性

组学数据实际的应用过程中,用户通常需要通过不同组织间来进行数据交付(例如,很多机构有多个跨地域的测序实验室),不同的部门间来合作完成数据的分析计算。
传统解决方案中,每个参与人员都可以直接触碰数据,安全性无法得到有效保证。GeneDock 提供了完整的权限管理方案,可以实现细粒度的权限控制,管理员可以对不同的用户授予不同的操作权限,如上传读取数据、运行生信工作流权限等,通过控制不同角色的权限,管理员可以完善的保护数据及分析流程的安全,组织内责任划分也更加清晰。


图六、权限管理

正在进行的工作

智能化云端数据生产线正在持续优化的工作包括:

1.增强云端数据生产线监控

包括任务状态监控、资源消耗监控以及统计报表。

2.提供更为完整的人全基因组分析流程

包括 Germline 和 Somatic 的人全基因组分析流程和运行记录以及质控报告。

3.完善协作云迁移到专有云的部署流程

减少部署时间,支持更多运行环境。

4.增加 GATK4 等权威且开源的工作流

降低运行成本和提升结果准确性。

5.整合基因浏览器

方便用户对 BAM 和 VCF 文件进行精细查看,准确判定变异结果。

6.面向海外拓展

拓展现有数据交付网络,以便支持海外业务。