8月16日,CEO李厦戎受邀参加了联想之星Comet Labs的线上微课分享,主题为《DNA遇上云计算:前阿里、前华大的他们为何投身基因数据云服务领域》,以下为分享内容:



生命延续和癌症发生的奥秘



大家都知道,基因带有很多的遗传信息。这张图是大熊猫幼崽刚出生以及出生1-2周之后,我们看到它刚出生时体表是粉红色,并没有出现黑白色,在1-2周之后,它的体表开始慢慢变黑,发育成为与父母比较类似的性状,这其实是基因在父母和子代之间传递遗传信息。


对于所有生命而言,父母的遗传因素会在孩子的性状包括相貌上如实的反应出来。这是一个比较有趣的例子,这是一家整容医院的广告,也就是说,虽然父母可能做过整容,但是孩子还是会带有父母本质的遗传信息。为与父母比较类似的性状,这其实是基因在父母和子代之间传递遗传信息。


这是基因检测领域非常经典的一个例子,好莱坞影星安吉丽娜朱莉在2013年查出带有乳腺癌的易感基因,她又结合自己家族的遗传特性,她的祖母和母亲因卵巢癌去世,而姨妈因乳腺癌去世,所以她觉得自己患这些癌症的风险比较高,在医生与自己的商讨决定下,她做了乳腺的切除手术,将自己乳腺癌的风险从87%降到了5%,并且在2015年进一步切除了卵巢和输卵管。这是她的自我保护,当然在医学上会有一些争议,因为这只不过是患病的风险,并不是一种确定性的结果。


我国每年都会有30万例左右带有遗传性缺陷的新生儿出世,同时每年会新增307万肿瘤患者,这是一个比较大的数字。


无论所有的性状表达,包括肿瘤,其实都源于生命本身的中心法则,也就是生命体本质上的一个规律,由DNA转录成为RNA,再由RNA翻译成蛋白质,最后体现在我们的性状上。

肿瘤本身是一种基因类的疾病,也就是说肿瘤的发生就是你体内某些组织里的抑癌基因或致癌基因发生了突变,导致整个细胞的扩增变的不受控,结果就形成了肿瘤组织,这是被公认的肿瘤发病原因。当然,有抑癌基因和致癌基因可能会在不同组织里有不同的位点,也就是说其实肿瘤发病的机制会比较复杂。


这张图其实就描述了中心法则涉及的三个部分,一个是DNA,是一个双链的双螺旋结构;RNA,这个是单链的;另外还有蛋白质,这张图上实际是一条蛋白质的多肽。我们前面说的遗传,肿瘤,都与中心法则有关系。中心法则涉及的DNA、RNA、蛋白质需要通过现代生物技术将整个过程数据化。



如何读取生命的密码—基因



下图来自艾瑞今年刚发的一份研究报告,很好的整理了整个基因测序发展的脉络。在1953年,沃森和克里克就提出了DNA双螺旋结构, 70年代有了早期的测序,桑格测序法,慢慢在八九十年代,有了这种可以商业化的测序技术。我们真正开始能够对基因做大规模的测序是来自于二代测序的发展,也就是在2005年之后。


二代测序让我们对基因测序有了更大能力。近几年开始有了一些单分子的测序技术,被认为是第三代的测序技术,但目前整个基因测序领域还是以二代测序为主。DNA是一个大分子,它上面有人的全基因组,会有30亿个碱基对。我们可以认为每个碱基对是一个字母,也就是它数字化后可以是ATCG这四个字母中的一个,每个字母的长度非常小,大概只有1-2个埃,而埃是一个长度单位, 相当于头发直径的50万分之一,所以现在的测序技术,希望在这个尺度上面将碱基的信息读取出来。

二代测序技术实际上是将DNA的长链分子随机打断,然后用一些化学的方法去一批批的将它扩增和读取出来。我们可以打个比方,假设我们的DNA分子是一张白纸上面打印的一篇文章,我们就相当于将这篇文章放进了一个碎纸机,变成了一条条小的片段,接着我们就可以基于小的片段将上面的字母读出来,最后我们还需要用生信分析的数据技术将片段拼回成为一个完整的基因组。


我上面放的这张图是NHGRI做的非常有名的一张图,它描述的是整个基因测序成本的下降。之前有一个非常大的计划叫做人类基因组计划,实际上是说测出了第一个人类基因组的草图,这个计划一共持续了13年,共耗资4.37亿美元。现在,基于最先进的二代测序技术,已经可以花不到1000美金在一天之内完成一个全基因组的测序。

这张图上有一条线,这条白线叫做摩尔定律,计算机行业会经常提起。摩尔定律由Intel的创始人提出,晶体管会在18个月之内,将密度上升一倍,成本下降一半,这是经典的摩尔定律。但是整个基因组实际的测序成本的下降幅度是超过摩尔定律的,也就是说这个行业,有一个超过摩尔定律的速度。这个下降的拐点实际上是在07-08年发生的,恰恰就是二代测序技术大规模的使用时期。



基因数据的生产应用及产业发展挑战



下图展现的是现在主流测序仪的外观,左图是测序仪生产商Illumina的测序仪,它最大规格是由10台测序仪构成的,型号叫做HiSeq X Ten。有了这套系统,可以在一周之内完成300个个人全基因组的测序。右图是华大基因最新推出的测序仪BGISEQ-500,是国产可供商用的高通量测序仪。


目前在中国已有9套Illumina的测序设施,每年可以完成将近20万人的全基因组测序。每个人的全基因组测序会产生大概100GB的数据量, 20万人的全基因组意味着一年会产生20个PB的数据量,而这个数据的产能还在持续的增长。所以如何更高效的应用和管理这样量级的数据是这个行业的挑战。

现在的二代测序技术相当于用碎纸机将纸碎成小片段,再将小片段拼回来,所以意味着后端对数据的处理需要复杂的流程和算法,以及一个比较大的计算量,所以这也是我们面临的计算上的一个挑战,而GeneDock正在着力于解决这些问题。


这张图描述的是从测序产生数据,到最后基于这些数据出一份面向终端应用的报告的数据流,人全基因组会产生90G base,将近100GB级别的原始的数据资料。我们需要将这些数据做传输,进一步的进入存储系统做管理、分析、计算,将其中个体间的差异或者自体的差异的变异位点找出来,基于这些位点结合公开的数据库做注释,最后生成这个位点与疾病或健康因素的关系,基于这些注释的结果,形成一份可读的报告。

有一些临床专家会基于这些信息做进一步的解释,给相应的对象提供临床的指导和治疗方案。从上到下,需要移动大量的数据,同时需要涉及很多分析的过程,另外需要涉及到外源数据的整合。GeneDock所做的工作就是帮助整个从上到下的数据流实现更高的效率,降低整个数据处理过程时间以及经济上的成本。


我们提供的是一套云计算模式的产品和服务。从云计算的角度来讲,云计算可以分为三层,GeneDock其实是面向基因检测这一特定的垂直领域,提供一整套完整的PaaS的解决方案。对接下面包括公有云设施以及本地的计算集群这种基础设施,向上提供包括API、SDK、 APP engine这种模式去支持上层的SaaS. 具体在PaaS这一层,我们解决的是纯数据的传输,数据最后的管理和存储,整个计算资源的管理和调度,以及一些通用算法的分布式优化,整个账号和权限的管理,以及生物信息工程师所要面临的开发环境的建设。

基于GeneDock提供的行业通用的PaaS层的模块和技术的支持,上层的临床应用,科研类的应用以及其他结合基因检测方面的应用场景,就能够去构建适合于他们应用场景的SaaS层。



云计算的发展、特点及优势



为什么用云来解决基因组面临的数据问题呢?GeneDock实际是将这些基础的模块包括数据的传输存储计算和最后的分析和可视化作为了一些公共组件,用云的方式提供出来。


一方面,云本身是一种将资源虚拟化的技术,能保证计算资源的弹性需求。对于个体来讲可以有更大的计算能力和存储空间。同时,云模式还是一种共享经济的模式,大家在分担这些资源的成本,能降低单位个体承担的存储、计算、传输上面的成本压力。另外,当用户使用了相同的云基础设施,用户之间的分工和协作就会变的更简单,特别在基因领域,其实是要涉及到大量的数据共享和协作,以及上下游之间数据的分发。在常规的模式中,会比较繁琐且耗时,但是如果有了一套统一的云和统一的接口、标准之后,会将整个过程变的更简化,使数据变的更加易于管理,业务之间的关联也会变的更加的紧密。同时基于云的后端提供的海量计算和存储能力,对于很多的生物信息开发者,包括很多公司,只需要一些电脑,就可以通过网络服务实现大量数据的计算。国际上最新的算法和数据库也可以最快时间更新到云平台上,让用户能够同步使用。所以对于生物行业,医疗行业,代码能力相对薄弱一点的领域的用户来讲,用云计算来做精准数据的分析是一种更友好的方式,也降低了他们采纳新技术的门槛。



云计算如何应用于农业育种、病原微生物监测、临床肿瘤和遗传病诊疗等领域



GeneDock是国内最专业的企业级的基因组数据平台服务商,我们正在用领先的数据技术,解决基因组数据的上下游协作及整个数据管理的问题。同时我们也积累了不同场景下实施的丰富经验。


GeneDock核心团队是来自阿里的一帮技术专家,华大基因的渠道以及生物信息分析的工程师。我们既有阿里对于云计算及数据管理的丰富的实践经验,也有华大基因团队对于国内基因行业的熟悉和了解。目前GeneDock基于自己研发的数据技术,面向基因检测的数据平台,正在服务基因检测领域的企业以及科研用户。


这是去年我们与阿里云、中国农科院以及华智水稻合作的水稻基因组数据的开放项目。这个项目早期是由比尔盖茨基金会支持的,一套国际水稻种子资源的基因组测序项目,其对于3000余种野生水稻的基因组进行了测序。我们在云平台上开放了3000余种野生水稻的基因组数据,方便各国以及不同地区的专家可以访问该平台、查看、下载这组数据。


这是与中国疾病预防控制中心的传染病预防控制研究所合作建立的一个面向疾控领域的病原微生物分析云平台,通过这个平台,各地的疾控系统可以快速将病原微生物的测序数据上传,并用平台上提供的生物信息分析的算法和工具对数据作分析,去鉴定病原菌的来源以及种属,更快的了解突发性传染病病原的信息。


泛生子是国内领先的一家面向肿瘤的基因测序公司,在GeneDock云端数据技术支持下,他们在平台上实现了肿瘤全基因组数据的分析。分析一个样本的数据量会是300GB,基于数据的分析结果,能够帮助医生更好的了解肿瘤病人的发病原因,以及知晓未来如何提供更精准的治疗方案。


在中国,每1000位新生儿中就会有1-2位患有遗传性耳聋,这是GeneDock团队跟医院老师合作的面向遗传性耳聋的数据分析平台,基于这个平台我们能对于带有遗传史的家族提供遗传性耳聋的基因组数据分析,并且提供一些医学建议。



GeneDock的目标及愿景



GeneDock是一家解决基因组数据传输、存储计算、管理协作的数据技术公司,我们用云计算的模式为基因测序领域的商业公司、医疗机构、科研机构提供完整的面向数据的产品和服务。


整个基因检测数据领域正在从计算系统向一个完整的工作环境,以及向管理平台和协作网络这样的路线去演进。目前GeneDock已经完成了工作环境的建设,也就是面向基因检测领域的任何机构可以基于GeneDock提供的这套产品和平台,完成其基因数据工作流的搭建。其实目前整个行业处于精准数据的积累期,所以GeneDock会继续支持这个行业管理基因组数据,当有了更好的基因组数据管理能力时,我们才能说这个行业真正有了大数据管理的基础,GeneDock在接下来会有一些更大范围的行业内的协作。

很多人问我为什么会从互联网行业跨界到生物领域,做基因测序的行业。其实,虽然看上去行业差别很大,但是我们现在做的事或关注的点其实是很类似的,就是用数据技术帮助行业变得更精准。之前在友盟和阿里,我们基于海量的互联网数据,去了解每个用户的特点和喜好,做精准广告。现在我们在用基于这样的数据技术和更大的计算能力,面向基因组数据,去分析每个生命个体的独特性,最典型的应用是精准医疗。我们发现其实现在面对的也是数据驱动下的医疗和健康,与我们在互联网做的事情非常类似,同时这个领域也需要先进的数据技术做支撑。

GeneDock的口号是为生命计算,也可以理解为是在做算命的公司。我们在做的基因组数据的云端的处理,管理以及协作可以帮助行业内的公司和机构解决数据应用中的问题,也希望GeneDock可以跟大家一起为更好的医疗和健康服务努力。



问答环节



Q:基因测序在国内的发展水平与国外相比如何?
A:基因测序从核心技术来讲,包括测序仪的生产,现在还是以国外的技术为主导,国外还处于领先位置。但是国内的华大基因以及其他公司也在研发国产的测序仪,我们相信未来在测序技术上,国内会逐渐赶上国外。
从数据的分析包括临床的应用和服务来讲,基本上我们可以认为国内外是同步的,但是国外的公司及医院从事基因检测时间更长,所以他们在数据量上的积累以及整个数据协作的环境会比国内更先进些,但是国内也在慢慢改善。



Q:全组学基因能否在计算机仿真成虚拟世界的自己?
A:基于基因组数据是否能够仿真成自己,确实有人研究过。有人基于基因组数据可以做一个你的面部长相的预测,但这仅仅限于研究工作,现在我们对于基因的认知水平并不能很好的做这些事情。当然一些基础的相貌特征,比如眼睛颜色,是否卷发,以及能够看到的一些具体的点,基因组确实找到了一个基因调控的过程。



Q:怎样做到目标基因的识别?例如,对先天性耳聋基因的识别?
A:如果是对于治病基因,一般的科学研究会找一些带有疾病的样本,做一个基因组的测序,再找一些对照组,接着基于这两组测序结果去比较它的差异性,就能找到目标基因,知道先天性耳聋这样的疾病是由哪类基因导致的。但我说的只是一个大体的分析的框架,具体从算法以及采样统计分析来看,实际是一个非常复杂的过程。



Q:请问高通量测序的数据量很大,怎么解决和云端的传输问题呢?
A:GeneDock在数据传输这块花了很多力气,也提供了一些方案,我们对于数据的传输过程做了一些压缩,降低整个实际传输的数据量,同时会对有大量传输需求的用户提供一些专线接入的方案,保证有足够的出口带宽。同时这个大数据量的传输还面临着稳定性和一致性的问题,我们技术方案里也有相应的功能去解决这个问题。