善学者,假人之长以补其短

(本文由GeneDock公司 Bioinformatics Engineer 武雅蓉撰写,转载请保留作者信息和原文链接)

引言:

随着NGS测序成本的降低,高通量测序分析变得越来越普遍。然而,在实际工作中,生信人员往往拿到测序公司提供的数据之后,就直接开始跑流程,去接头、过滤、鉴定变异位点…

然而,过滤前和过滤后的数据到底有什么不同?数据中N碱基的含量如何?低质量的数据是否居多?测序深度是否达到要求?靶标区域覆盖度如何?这一系列的问题往往被急于出分析结果的生信人员(尤其在大Boss的问[逼]候[迫]下)抛之脑后。

满心欢喜去交付自己麻溜完成的分析成果,却遭到了客户对结果的质疑。苦苦回溯分析过程,查找众多可能的出错步骤,最终发现是测序数据质量不过关。前功尽弃,何其郁闷哉…

为保证分析结果的可靠性,对测序数据进行质量控制统计分析意义重大。尤其在临床二代测序检测领域,分析结果的可靠性与否关乎医生的诊断和病人的安危。

参照《临床分子病理实验室二代基因测序检测专家共识》、《二代测序(NGS)技术应用于临床肿瘤精准医学诊断的共识》中要求的指标,以及实际测序数据分析经验,GeneDock的小伙伴为全外显子组和全基因组产品增加了质控统计步骤,主要包括:(1)过滤前后FASTQ文件的基本测序质量统计;(2)比对后BAM文件的基本统计。

FASTQ文件的基本测序质量统计

1. 基本统计表格

统计指标 描述
Number of Reads reads数目
Data Size 碱基数量
N of fq1 reads1中N碱基数目
N of fq2 reads2中N碱基数目
Low qual base of fq1(<=15) reads1中低质量的碱基数目
Low qual base of fq2(<=15) reads2中低质量的碱基数目
Q20 of fq1 reads1中质量值>=20的碱基所占的比例
Q20 of fq2 reads2中质量值>=20的碱基所占的比例
Q30 of fq1 reads1中质量值>=30的碱基所占的比例
Q30 of fq2 reads2中质量值>=30的碱基所占的比例
GC of fq1 reads1的GC含量
GC of fq2 reads2的GC含量
Error of fq1 reads1的错误率
Error of fq2 reads2的错误率
Discard Reads related to N and low qual N碱基和低质量的reads所占比例
Discard Reads related to Adapter 带接头的reads比例

2. 质量值和GC含量图

1) 碱基含量分布图

根据reads中每个位置碱基 A、T、G、C、N 所占的比例,绘制碱基含量分布图。根据碱基互补原理,A和T、G和C的含量应该基本一致,前几bp出现抖动情况是由于随机引物、测序反应开始酶和底物结合不太稳定导致,属于测序本身所带来的正常抖动。碱基含量分布与建库、测序和物种相关。

图1:碱基含量分布图
图中,横坐标为reads中的碱基位置,纵坐标为碱基所占的比例,不同颜色代表不同的碱基类型,左右两侧分别为双端测序序列两条reads的碱基分布情况。

2) 测序质量分布图

根据reads中每个位置碱基的平均测序质量值,绘制测序质量分布图。测序片段末端的碱基质量一般会比前端的低,但测序质量主要会分布在 Q20 以上,才能为后续数据分析提供保证。

图2:测序质量分布图
图中,横坐标为reads中的碱基位置,纵坐标为每个位置的平均测序质量值,左右两侧分别为双端测序序列两条reads的质量值分布情况。

3) 碱基总体质量分布图

根据不同测序质量值的碱基数目情况,绘制碱基总体质量分布图。对于二代测序,一般要求达到Q20的碱基比例 >95%(最差 >=90%),Q30的碱基比例 >85%(最差 >=80%)。

图3:碱基总体质量分布图
图中,横坐标为测序质量值,纵坐标为该质量值处的碱基数目。

4) 测序错误率分布图

测序错误率与碱基质量负相关,受测序仪本身、测序试剂、样品等多个因素共同影响。一般来说,测序片段末端的错误率会偏高。

图4:测序错误率分布图
图中,横坐标为reads中的碱基位置,纵坐标为单碱基错误率,左右两侧分别为双端测序序列两条reads的测序错误率分布情况。

比对后BAM文件的基本统计

1. 基本统计表格

统计指标 描述
Total_reads_num_in_bam bam文件中reads数目
Total_reads_num_in_bam_on_target bam文件中属于目标区域的reads数目
Mapped_reads_num 比对上的reads数目
Mapped_reads_num_on_target 目标区域比对上的reads数目
Mapping_rate(%) 比对率
Mapping_rate_on_target(%) 目标区域比对率
Duplication_reads_num 重复的reads数目
Duplication_reads_num_on_target 目标区域重复的reads数目
Duplication_rate(%) reads重复率
Duplication_rate_on_target(%) 目标区域reads重复率
Mapped_bases_num 比对上的碱基数目
Mapped_bases_num_on_target 目标区域比对上的碱基数目
Mapped_bases_num (cigar) CIGAR中比对上的碱基数目
Mapped_bases_num_on_target (cigar) 目标区域CIGAR中比对上的碱基数目
Mismatch_num 错配的碱基数目
Mismatch_num_on_target 目标区域错配的碱基数目
Mismatch_rate(%) 碱基错配率
Mismatch_rate_on_target(%) 目标区域碱基错配率
Average_read_length(bp) 平均reads长度
Target_region_size(bp) 目标区域长度
BaseNum_covered_on_target(bp) 目标区域覆盖的碱基数目
Coverage_of_target_region(%) 目标区域覆盖率
Average_sequencing_depth_on_target 目标区域平均测序深度
Fraction_of_target_covered_with_at_least_150x(%) 目标区域测序深度>=150X的百分比
Fraction_of_target_covered_with_at_least_100x(%) 目标区域测序深度>=100X的百分比
Fraction_of_target_covered_with_at_least_50x(%) 目标区域测序深度>=50X的百分比
Fraction_of_target_covered_with_at_least_30x(%) 目标区域测序深度>=30X的百分比
Fraction_of_target_covered_with_at_least_20x(%) 目标区域测序深度>=20X的百分比
Fraction_of_target_covered_with_at_least_10x(%) 目标区域测序深度>=10X的百分比

2. 测序深度图

1) 目标区域测序深度图

根据目标区域每个位点的覆盖度,绘制测序深度分布图,可直观展示平均测序深度情况,同时用来衡量目标区域测序的随机性。当平均测序深度和峰值重合时,测序的随机性较好。

图5:目标区域测序深度图
图中,横坐标为测序深度,纵坐标为该测序深度碱基位点所占的百分比,其中红色和黄色箭头分别代表测序深度平均值和中位数。

2) 测序深度累积曲线

根据测序深度累积曲线,可直观得到大于某测序深度时的碱基覆盖率。和目标区域测序深度图一样,可用于指导后续数据分析时的参数的设置。例如:检测SNP时,至少需要多少reads的支持。

图6:测序深度累积曲线
图中,横坐标为累积型测序深度,纵坐标为累积型测序深度所占的百分比。

小结

测序质量的好坏直接影响下游的数据分析,对测序数据进行质控统计意义重大。GeneDock 公有云平台目前为 WES Germline,WGS Germline 和 WGS Somatic三套分析流程均提供了质控统计步骤,为您的数据分析提供前提保障。