fastqc_multiqc结果解读

1. 前言

在得到了测序结果之后,我们需要评估一下测序的质量,因此我们需要对测序的数据进行统计评价,这里采用的软件组合就是fastqc和multiqc,fastqc用于对每一组的测序结果进行评价并且输出html结果文件,但是当同时有比较多组的测序数据时,一份份html文件去翻阅是非常麻烦的,此时multiqc就派上用场了,multiqc可以对这些结果进行整合,生成一份html文件,方便查阅。

为什么要进行质量评价呢?因为我们后期的所有分析都是基于测序数据展开的,测序数据质量的高低直接影响了我们分析的结果,因此在所有分析步骤之前,我们必须要对测序的数据的质量进行评价,只有达到我们的要求的测序数据才能用于下一步分析。

2. fastqc使用

fastqc是用于统计评估测序数据质量的常用软件,使用命令如下:

fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN

nohup fastqc -o ./fastqc_70/ -f fastq clean_* &

参数解释:
|parameters|explanation|
|:—-|:—-|
|-o|output dir,选择输入结果的文件夹|
|-f|输入文件的格式,支持bam/sam/bam_mapped/sam_mapped/fastq|
|-h|帮助文档,查看参数和使用方式|

还有很多参数未一一列出

结果输出:
fastqc_results

输出结果每组都有两个文件,一个是html,一个是zip文件。

3. multiqc使用

命令如下:
multiqc /B313/Zjunlin/raw_data/fastqc_70/ -o /B313/Zjunlin/raw_data/multi_qcraw/

参数如下:
options

结果输出:
multiqc_re

4. multiqc结果解读

fastqc的结果解读参数与multiqc一致,所以解读一份就好了。

4.1. General Statistics:所有样本数据基本情况统计

%Dups——重复reads的比例

%GC——GC含量占总碱基的比例,比例越小越好

Length——测序长度

M Seqs——总测序量(单位:millions)

4-1

4.2. Sequence Counts:序列数量统计

横坐标——序列的数量

纵坐标——样本

unique reads——蓝色

Duplicate reads——黑色

由图可以看出测序中的一些重复水平,这个重复水平和测序深度以及序列本身的表达情况有关。

4-2

4.3. Sequence Quality Histograms:每个read各位置碱基的平均测序质量

横坐标——碱基的位置

纵坐标——质量分数

质量分数=-10log10p(p代表错误率),所以当质量分数为40的时候,p就是0.0001。此时说明测序质量非常好。

绿色区间——质量很好;

橙色区间——质量合理;

红色区间——质量不好。

可以看到在下面的图中,所有的样本的quality scores都在绿色区间,所以质量很好。

4-3

4.4. Per Sequence Quality Scores:具有平均质量分数的reads的数量

横坐标——平均序列质量分数

纵坐标——reads数

绿色区间——质量很好

橙色区间——质量合理

红色区间——质量不好

当峰值小于27时——warning

当峰值小于20时——fail

由此图中可以看出低质量reads占整体reads的比例(估算各颜色区域曲线下面积)。如下图中,几乎所有数值都在绿色区间,所以质量非常好,但是如果存在50%的counts在红色区间,则表示测序结果很差,不可用。

4-4

4.5. Per Base Sequence Content:每个read各位置碱基ATCG的比列

对所有reads的每一个位置,统计ATCG四种碱基的分布,

横坐标——碱基位置,

纵坐标——样本。

%A——绿色

%G——紫色

%C——蓝色

%T——红色

如果ATGC在任何位置的差值大于10%——warning

如果ATGC在任何位置的差值大于20%——fail

reads每个位置的颜色显示由4种颜色的比例混合而成,哪一个碱基的比例大,则趋近于这个碱基所代表的颜色。正常情况下每个位置每种碱基出现的概率是相近的。如果ATGC在任何位置的差值大于10%—则warning(橙色),如果ATGC在任何位置的差值大于20%则fail(红色)。在图中可以看出,大概在前9bp的部分,颜色非常不均匀,也就是表示存在AGCT四种碱基的比例差异巨大的地方,这可能有过表达的序列的污染,所以12个样本都是fail。

4-5

4.6. Per Sequence GC Content:reads的平均GC含量

横坐标——GC含量百分比

纵坐标——数量

正常的样本的GC含量曲线会趋近于正态分布曲线,曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。

偏离理论分布的reads超过15%时——warning

偏离理论分布的reads超过30%时——fail

由下图可以看出,有6个样本与理论分布偏离超过了15%,有2个偏离超过了30%,有4个在合理的偏离度内。

4-6

4.7. Per Base N Content:每条reads各位置N碱基含量比例

当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”,统计N的比率。正常情况下,N值非常小。

横坐标——read中的位置

纵坐标——N的数量比

当任意位置的N的比例超过5%——warning

当任意位置的N的比例超过20%——fail

由图可以看出,所有的样本在所有的位置都是属于绿色区间且数值比例非常小,可以看出测序的质量很高。这应该和现在测序仪工艺的进步,电脑处理能力的提升有着很大的关系,现在的测序仪能够高质量的完成测序。

4-7

4.8. Sequence Length Distribution:序列样本长度的分布情况

横坐标——序列长度

纵坐标——数量

reads长度不一致时——warning

reads有0长度时——fail

在这里可以看出测序的读长,也能够分析得出所有的小片段的长度分布情况,依据此我们可以判断测序效果的高低。在这里的结果呈现中,所有的结果都是在150bp,这也是二代测序的特点,测序的读长段,但是片段非常多,也就是通过将基因序列高度片段化分别同时测序,由此提高测序速度。

4-8

4.9. Sequence Duplication Levels:每个序列的相对重复水平

横坐标——每个序列的相对重复水平

纵坐标——在文库中的比例

当非unique的reads占总数的比例大于20%时——warning

当非unique的reads占总数的比例大于50%时——fail

测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在。

4-9

4.10. Overrepresented sequences:文库中过表达序列的比例

横坐标——过表达序列的比例

纵坐标——样本

过表达序列的比例>0.1%——warning

过表达序列的比例>1%——warning

一条序列的重复数,因为一个转录组中有非常多的转录本,一条序列再怎么多也不太会占整个转录组的一小部分(比如1%),如果出现这种情况,不是这种转录本巨量表达,就是样品被污染。这个模块列出来大于全部转录组1%的reads序列,但是因为用的是前100,000条reads,所以其实参考意义不大。

4-9

4.11.Adapter Content:接头含量

横坐标——碱基位置

纵坐标——占序列的百分比

百分比>5%——warning

百分比>10%——fail

由图可以看出,所有的样本的接头含量均低于5%,因此结果还算比较良好。

4-9

参考资料

https://www.jianshu.com/p/85da4dcc6020