represented FastQC评估测序数据的质量

编辑：

发布时间: 2020-12-13 22:25:07

分享:

FastQC软件用于评估测序数据的质量，官网如下

http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

安装过程如下

wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.un fastqc_v0.11.7.

解压缩之后，在FastQC目录下有一个可执行文件fastqc, 可以输入以下命令查看软件的帮助信息

fastqc --help

对于单端数据，基本用法如下

fastqc -o out_dir -t 10 input.fq

对于双端数据，基本用法如下

fastqc -o out_dir -t 10 R1.fq R2.fq

需要注意的是，输出目录必须手动新建。

fastqc会从以下几个方面进行汇总和评估

1. Basic Statistics

这部分给出序列的基本信息，包括文件名，序列类型，碱基质量编码类型，碱基总数，序列长度，GC含量等信息，示意如下

对于碱基质量的编码，常见的有phred64和phred33两种格式，早期的Illumina 数据曾经是64编码格式，后来统一调整成了33格式， Illumina 1.5说明是phred64格式，Sanger/Illumina 1.9说明是phred33格式。目前主流测序平台产出的数据都为phred64格式。

序列长度部分会给出最小长度和最大长度，如果所有序列长度相同，只给一个值。对于下机的原始数据，所有序列的长度和机器读长是一样的。

需要注意的是，这里的poor quality 只是针对Casava格式的序列，对于illumina平台的fastq格式的数据，没有这一项统计内容，值永远为0。

2. per base sequence quality

这部分内容对所有序列的测序质量进行评估，并给出如下所示的图片。

纵坐标为测序质量，根据测序质量划分成了3个区间，0-20之间，背景色为红色，测序质量非常糟糕；20-28之间，背景色为橘色，测序质量差；28以上，背景色为红色，测序质量良好。

横坐标为序列长度，从序列的起始位置开始，统计所有序列在该位置上的碱基的质量，并用箱体图表示，箱体图上红色的线代表所有碱基质量的中位数，蓝色的线带代表所有碱基质量的平均数，黄色箱体的上下边缘分别代表上下四分位数，箱体图最下方的横线代表第10百分位数，最上方的横线代表第90百分位数。

当一个位点的第10百分位数小于10或者中位数小于25时，会给出警告信息；当一个位点的第10百分位数小于5或者中位数小于20时，会给出失败信息。

通常情况下，在序列的起始和结束部分可能出现质量较差的情况，对于最初测序的部分数据，测序仪直接使用默认参数进行base calling, 这部分碱基的质量一般，然后会利用这部分数据去调整base calling的参数设置，以符合真实的数据，在之后的测序中，用调整后的参数进行base caling, 此时碱基的质量会更好，所以会观察到，在开头部分存在碱基质量上升的趋势；随着测序反应的进行，酶活性等因素降低，会导致测序质量变差，所以在结尾部分会观察到碱基质量降低的趋势。

3. per sequence quality scores

这部分内容会给出序列平均质量的分布图，示意如下，横坐标为reads的平均测序质量，纵坐标为序列数。

碱基平均质量越高的reads数越多，说明测序质量越好。在上图中，峰值出现在31处，说明大部分的reads平均质量都在Q30以上，测序质量良好。

当峰值对应的碱基质量小于27时，会给出警告信息，小于20时，会给出错误信息。

4. per base sequence content

这部分内容给出序列的碱基组成，示意图如下，横坐标为序列长度，纵坐标为各碱基的百分比

理想情况下，各个碱基的比例并不会随着测序反应的进行发生变化，所以每个碱基对应的线应该是相互平行的，而且对于碱基随机分布的文库，A和T碱基数量相等，G和C碱基数量相等。当A和T或者G和C的比例相差超过10%时，会给出警告信息，相差超过20%时，会给出错误信息。

实际建库时，特别对于RNA_seq文库或者转座酶片段化的文库，在初始阶段，会存在碱基分布的偏倚，但是这个是正常现象，并不会影响下游的数据分析；对于亚硫酸氢盐处理的甲基化测序文库，未甲基化的C会转换成T,也会出现碱基分布的偏倚，也是正常的。

当文库中引物二聚体序列比例很多时，就会观测到碱基分布的偏倚，这种情况就是文库的构建过程存在问题了。

5. per sequence gc content

这部分内容给出序列的GC含量分布图，示意如下，横坐标为GC含量，纵坐标为序列数

理想情况下，序列的GC含量分布是符合正态分布的，图中红色的线是实际的GC含量分布，蓝色的线是理论上的正态分布曲线，如果理论曲线的面积比实际的大15%，会给出警告信息，大30%，会给出错误信息。

引物二聚体比例过高或者存在其他物种的污染，都会导致GC含量分布不正常。

6. perl base N content

这部分内容给出N碱基的比例分布图，横坐标为序列长度，纵坐标为N碱基的比例

当测序仪无法识别具体是哪种碱基时，就会给出N, N比例越小肯定越好。当某个位点N碱基的比例大于5%时，会给出警告信息，大于20%时，会给出错误信息。

7. sequence length distribution

这部分内容给出序列的长度分布，示意图如下，横坐标为序列长度，纵坐标为序列条数

对于下机的原始数据，理论情况下所有序列的长度都和机器读长一致，上图中，机器的读长为150bp, 所以峰值在150bp处。可以看到，130bp处也存在部分序列，这说明文库构建中存在一点问题。当所有序列序列长度不相等时，会给出警告信息，当有任意一条序列长度为0时，会给出错误信息。

如果你的输入本身是长度不相等的序列，可以不用管这里的警告信息。

8. Duplicate sequences

这部分给出重复序列分布图，示意如下，横坐标为重复的次数，纵坐标为序列所占百分比

基因组覆盖度越高，测序得到的序列重复比例会越低；在文库构建过程中，如果某些片段PCR扩增的比例大于随机扩增的比例，会导致重复序列比例高。

9. overrepresented sequencs

这部分内容给出过表达序列的情况，过表达序列可能是引物二聚体，污染序列等异常情况，也有可能是基因组上存在的具有生物学意义的片段。需要根据实际情况加以区分。

10. adapter content

这部分内容给出序列中包含的adapter 序列的情况，并给出如下所示的图片

11. per tile sequence quality

只有illumina测序平台的数据才会给出这部分内容，对于每个tile的测序质量，用热图进行展示，示意如下

热图的颜色从蓝色过滤到红色，蓝色表明该tile的测序质量好，红色表明该tile的测序质量差，一个良好的测序结果中，基本上全部是蓝色。

对于序列的质量，fastqc提供了非常全面的评估内容和报告，软件用法很简单，主要是理解每个统计结果的含义。

·end·