善学者,假人之长以补其短

(本文由GeneDock公司 Bioinformatics Engineer 武雅蓉撰写,转载请保留作者信息和原文链接)

引子

为了完成主任交代的任务–同时提交成百上千次分析,小F找到了肿瘤科的小W求助。

小F:“小W,上回咱俩交流完,我通过Python SDK已经成功在GeneDock平台提交了任务。我们主任为此还夸奖了我,好激动。可是我们那边样本量很大,经常是成百上千个,如何通过Python SDK批量提交这么多分析任务呢?一个一个地手动修改配置文件好辛苦,还容易出错。”

小W:“这个简单!这种情况的批量提交任务就相当于,按照样本信息把配置文件中的输入项和输出项批量替换,每次替换完配置文件提交一个任务。下面我给你详细说一下具体步骤:”

阅读文章 >>

5月12日至14日,ACM图灵奖五十年中国大会(ACM TURC 2017)在上海召开。



图灵奖(A.M. Turing Award)由美国计算机协会(ACM)于1966年设立,其名称取自计算机科学的先驱、英国科学家阿兰·麦席森·图灵(Alan Mathison Turing)。图灵奖是计算机界最负盛名、最崇高的一个奖项,被誉为“计算机界的诺贝尔奖”。


阅读文章 >>

2017年5月15日,GeneDock正式发布人全基因组体细胞突变标准化数据分析服务:GeneDock HGTM Somatic。
HG Somatic 延续了GeneDock HG “多快好省”的特点,适用于成对测序样本标准化数据分析,可快速鉴定体细胞突变(somatic mutations)。这种分析方法常用于肿瘤领域的组学研究。

利用GeneDock HGTM Somatic完成一次常规的成对测序样本数据分析(30X Normal+60X Tumor),分析计算时长约为9小时,仅需299元。

阅读文章 >>

本文由 GeneDock Genomic Data Engineer 成帆撰写,感谢 GeneDock 基因数据工程师孙兴强,武雅蓉,王玉梅在写作过程中的耐心地审阅和修改,转载请保留作者信息和出处。

小 F 是今年刚进入被誉为“没有疾病隐喻的乐土”的圣芒戈医院工作的一名生信分析师。能有幸为这样高水平的医院工作,小 F 心里美滋滋的。高兴了没两天,主任把小 F 叫去了:“小 F 啊,我听说你之前是专门做微生物二代测序数据分析的?你看,前阵子寨卡病毒传播这么猖獗,病毒的突变又这么厉害,你能不能结合现在大家测的这么多数据搞一个模型,帮我们分析这些疾病传播途径,同时对致病病毒的分子亚型也精确分类,看能不能提前控制疫情?”

阅读文章 >>

(本文由GeneDock公司 Bioinformatics Engineer Huanwei Wang撰写,转载请保留作者信息和原文链接)

引子

在二代测序(NGS)领域中,Fastq文件大小和测序深度(即测了多少乘)是两个常用的概念,但不同人给出的Fastq文件大小与测序深度的比例可能并不一致,而且之间的关系也一直模糊不清。

故,这篇博客就试图去探讨这两者的关系及其相关概念。

阅读文章 >>

(本文由GeneDock R&D Engineer 吴凯撰写,转载请保留作者信息和原文链接)

前言

生物信息的一个重点就是数据的处理与分析,随着基因行业在临床和科研方面的应用逐渐加深与扩大,样本数量的越来越多,加之分析过程本身也是高并发的过程,如何快速、高效、准确的获得分析结果变成了一个问题。为了应对这个问题,我们需要大量的机器去处理这些作业。当你有一台机器,你可以随时看着这台机器是不是可以继续投递任务,但是拥有一千台甚至是一万台机器的时候,那就已经超出了你的能力程度了。

针对生物信息的计算需求,GeneDock开发了Flash分布式调度平台(简称Flash),它承担了平台的基因分析任务的管理,调度和监控。

阅读文章 >>

(本文由GeneDock公司 Bioinformatics Engineer Huanwei Wang撰写,转载请保留作者信息和原文链接)

引子

API和SDK作为强大的技术,目前在互联网行业中被广泛使用。然而在生物信息行业中,对其了解、掌握和使用的人却很少。故作为GeneDock生物信息工程师的本文作者,希望通过这个博客,记录自己学习API和SDK的心得,也帮助更多其他生物信息从业人员使用它。

背景介绍

什么是API?

API(Application Programming Interface)是一组规则、协议或工具,清楚地定义了不同软件部分之间通信的方法。其将应用程序(application)的实现过程隐藏,只暴露调用所必须的部分,供其他开发者使用。

举个例子,大部分人都不知道投影仪的实现过程和原理,但是很多人都可以按照产品说明书,将电脑通过数据线连接到投影仪上,最终放映幻灯片。

相似地,你可能不知道一个应用程序(例如google map)的实现过程和原理,但是通过阅读API文档、调用API,你就可以方便地使用这个应用程序。

再进一步,GeneDock平台也提供了APISDK,您可以不知道GeneDock产品的实现过程、数据库结构、后台代码,只需调用GeneDock的API,就可以方便地、自动地使用我们GeneDock系统了。

阅读文章 >>

GeneDock(聚道科技)于2017年3月6日正式发布基于云计算的人全基因组标准化分析服务——GeneDock HG。它是一项面向人全基因组大规模分析的服务,主要完成从fastq到vcf的标准化分析,其成本、速度、稳定性和结果准确度均达到了大规模生产服务的标准。GeneDock HG对30X人全基因组数据的分析价格为99元/次,这也是业内首次实现了百元以下的人全基因组标准化分析服务。




阅读文章 >>

本文总结了生物信息人员在使用BLASTX的一些经验,期待与其他同行交流BLASTX的优化经验。

0 前言

BLAST作为生物信息最重要的局部比对工具,在序列物种注释和基因注释起重要作用。其中BLASTX(将query序列翻译成氨基酸序列和蛋白数据库进行比对)常常作为对核酸序列的基因注释工具。BLASTX先要将DNA序列按照6个读码框翻译成氨基酸序列,从而BLASTX的比对时间和需要计算资源都是比较大的,如何减少运行时间和降低运算成本,成为生信工作人员关心的重要问题之一。另外,本文主要讨论BLASTX工具的优化,其他BLASTX的替代工具,比如DIAMOND等,不在此文的讨论范围。

阅读文章 >>

(本文由GeneDock 后端研发实习生魏畅撰写。转载请保留作者信息和原文链接)

Docker简介

Docker是什么?

Docker is the world’s leading software containerization platform.

根据Docker的官方解释,Docker是一个世界领先的软件“集装箱化”平台。

那么“集装箱化”又是什么呢?下面这张图可以帮助我们直观地理解这一概念。


阅读文章 >>