善学者,假人之长以补其短

(本文由GeneDock公司 Bioinformatics Engineer 刘轩竹撰写,转载请保留作者信息和原文链接)

背景

随着基因测序技术的快速发展,检测成本大幅度降低,使得基因组测序投入临床市场并服务大众。但二代测序发现的变异数量是巨大的,造成变异解读及查找致病基因需耗费大量的人力物力。以人类基因组为例,1个人类基因组包含近3500000个SNV突变和1000个拷贝数变异,其中约20000-25000个变异是在编码区,10000个位点发生了氨基酸编码改变,仅有50-100个发生了蛋白截断或功能缺失,手动检查每个位点非常耗时且有些不切实际。

Variant Effect Predictor(VEP)是功能强大的注释、分析工具。它可以对二代测试产生的不同类型变异进行注释,包含SNPs, insertions, deletions, copy number variants和structural variants。也可以依据各种数据库的内容,根据需要,对变异进行过滤和排序。

GeneDock公有云平台目前提供VEP注释的工作流,使用VEP88对变异进行注释,输入变异检测后的vcf文件,输出注释后的文件(vcf格式)和经筛选后的变异位点。

VEP工作流介绍

图1:工作流程图

1. VEP使用的数据库

VEP注释使用的是cache文件包,以human注释文件为例,有Ensembl转录本、RefSeq转录本及二者整合的三种cache文件包,文件包中还包含如下数据库信息(VEP88):

Database Version
GENCODE 19
dbSNP 147
1000genomes phase3
ESP 20141103
ExAC 0.3
COSMIC 78
HGMD-PUBLIC 20162
Clinvar 201610
polyphen 2.2.2
sift 5.2.2

在此基础上,VEP运行时还可以使用plugin和custom参数自定义添加数据库。GeneDock平台的VEP工作流目前添加了以下数据库。

Database Information
M-CAP Pathogenicity classifier for rare missense variants in the human genome
dbscSNV Includes all potential human SNVs within splicing consensus regions (−3 to +8 at the 5’ splice site and −12 to +2 at the 3’ splice site), i.e. scSNVs, related functional annotations and two ensemble prediction scores for predicting their potential of altering splicing.
Clinvar Public archive of reports of the relationships among human variations and phenotypes, with supporting evidence
gnomAD The Genome Aggregation Database
dbNSFP Database with functional prediction and annotation of all potential non-synonymous SNVs

备注:自定义数据库中的Clinvar数据库版本较Cache文件包有更新。

2. 可注释变异类型

明确位置及序列改变的变异,全外显子组和全基因组检测出的变异,包含SNVs,insertions、deletion等。

3. 注释结果信息

1) 功能注释信息,主要是把变异在基因组的位置和功能影响标出。包括基因信息和变异影响,信息来自RefSeq或Ensembl。

2) 频率信息,标记群体数据库频率,包含数据库总的频率及子群体频率。这部分信息主要在疾病研究中根据疾病的流行病学研究,有针对性的筛选低频或罕见变异,为人类疾病研究提供基础。高通量测序检出的变异数目众多,对于遗传病来说,要筛选出致病变异,需要过滤掉一些常见变异,群体变异库的使用可以进一步缩小筛选范围。

3) 软件预测结果信息,突变的致病性预测。可有效缩小变异范围,协助研究者更快找到致病基因。

4) 疾病数据库信息,HGMD、Clinvar等数据库信息,协助用户快速定位已知致病位点。

4. 过滤筛选

VEP工作流提供注释结果的简单过滤,主要包含

1) 筛选功能突变,筛选出coding区和剪切区域的突变;

2) 按照频率过滤,筛选出低于指定频率的突变;

3) 按照遗传模式过滤。

运行时间

1. cache文件建索引,能更大的节省时间

1) 命令行:

1
perl convert_cache.pl -species homo_sapiens -version 88_GRCh37 --force_overwrite

注意:建索引时间比较长,建议放后台执行。

2) 时间比较:2020个位点的vcf文件,使用-everthing注释,

cache不建索引:50-60min

cache建索引后:2-3min

3) 参考网址 http://www.ensembl.org/info/docs/tools/vep/script/vep_cache.html。

2. 案例

在GeneDock平台深圳域测试了两个外显子数据,使用4核8G的机器,

1) 不添加自定义数据库的前提下,

文件1:137750个位点,运行时间约7分钟。

1
./vep -i sample1.vcf  --cache -o sample1.out.txt  --force_overwrite --everything --tab  --fork 4 --assembly GRCh37 --offline

文件2:182748个位点,运行时间约12分钟。

1
./vep -i sample2.vcf --cache -o sample2.out.txt  --force_overwrite  --everything --tab  --fork 4 --assembly GRCh37 --offline

2) 在添加了自定义数据库Clinvar、gnomeAD、dbscSNV、MCAP、dbNSFP后,

文件1:137750个位点,运算时间为13分钟;

文件2:182748个位点,运行时间约20分钟。

结论:20分钟完成一个WES的vcf注释,这个时间对于研究者来说,接受度较高。

小结

变异位点的注释是变异分析,基因研究的重要步骤,VEP更新速度快,支持自定义数据库,运行时间短,可更好的服务研究者。GeneDock公有云平台提供的VEP注释工作流,助力您的科学研究。

参考文献

McLaren W, Gil L, Hunt SE, Riat HS, Ritchie GR, Thormann A, Flicek P, Cunningham F.The Ensembl Variant Effect Predictor.Genome Biology Jun 6;17(1):122. (2016) doi:10.1186/s13059-016-0974-4.