转录组测序数据的分析与解读,转录组测序研究的整体思路
转录组分析通常用于功能基因组学领域。相关的软件组合也有很多种。本文采用hisat2 samtools stringtie策略从转录组数据中挖掘差异表达基因。现在边肖整理了这个组合的操作流程,以供参考;如果能分享到平台上,帮助更多的初学者,编辑将不胜荣幸。如有错误,望大家指正。
首先,让我们从整体上看一下软件所执行的功能。
Hisat2:建立参考基因组指数,对比我。
Samtools:sam2bam转换
Stringtie:估计的转录表达
使用的数据结构如下。这里使用酵母的转录组数据和参考基因组:
双端测序数据已经过QC快速筛选,具体筛选过程本文不涉及。例子仅供参考。执行时要关注文件格式转化,以及各种格式下包含的生物信息。
@ bio cloud:~ ~/1223/ngs 2022 $ tree . gene _ data.CSV//差异表达基因样本相当于最终输出的标准答案。(-genome(-yeast.fa/reference基因组文档(-yeast.gff///reference基因组注释文档(-yeast _ transcriptor . fa/))通常下飞机的时候,公司会同时推出rawdata和cleandata,不过你直接用后者就可以了。(S1 _ y _1。FQ.gz)-S1 _ 2。FQ.gz-S2 _ y1。FQ.gz-S2(((())())))))).可用软件安装包fast QC _ v 0 . 11 . 9 . zip hisat 2-2 . 2 . 1-Linux _ x86 _ 64 . zip hisat 2-2 . 2 . 1-OS x。
$ cd。/genome $ hisat2-builds yeast . fa genome.fa//创建一个参考基因组索引,hisat 2和build之间应该没有空格。//在新创建的文件夹$ cd中匹配。$ mkdir比对$ cd比对$ hisat 2-P6-x ./genome/genome . fa-1。/reads/S1 _ S1 $ Sam tools view-bs S1.Sam-os1.bam//samtoolsview将Sam文件转换为bam文件。是bam sam的二进制文件,二进制转换后的存储容量会更小。$ samtoolsorts 1 . ba ms1.sorted//samtoolssort对S1.bam进行排序并生成s1.sorted.bam后者会自动添加。bam后缀,不需要添加到命令行中。$ samtools index s1.sorted.bam //输入$ strintie。/S1 . sorted . bam-g ./genome/index yeast . gff-e-p2-o . strintie到排序后的bam文件中。根据gtf注释和分级bam的比较结果,估计转录本表达水平。//其他处理下双端序列的比较结果用同样的方法得到。//手动使用$ cd。新创建的文件夹中的$ mkdir differential _ expression $ CD differential _ expression $ vim sample _ list . txt #//sample _ list . txt文件。这里我们把两个gtf文件放在differential _ expression文件夹下。//out.GTF//S2/mnt/1223/ngs S1/mnt/1223/ngs 2021/微分_表达式/S1 2021/微分_ ed
f $ python prepde . py3-I Sample _ list . txt-G Gene _ count . CSV-T Transcript.csv//Stringtie脚本生成差异表达基因的列表。//注意stringtie差异基因总结脚本有两个版本:prepDE.py和prepde.py3,前者适用于python2环境,后者适用于python3环境。如果你把它搞混了,你会得到一个错误。本文基于python3.9.5环境。以上步骤后得到的gene_count.csv就是最终结果,可以导入R语言,用edgeR/DESeq2包进行分析。有机会组织后续教程。
sam文件基础Sam文件在序列分析中非常重要,无论是转录组分析还是基因组调用SNP。了解sam文件中包含的信息有助于理解数据。我们还是以本文中生成sam文件的命令行为例。转录组分析的核心比较步骤是使用hisat2将测序读数与索引的参考基因组进行比较:
$ hisat2-P6-x./genome/基因组. fa -1./reads/1.fq.gz S1-2./reads/S1 _ y _ 2 . FQ . gz-s ./S1 . Sam-x参考genome.fa文件
通常,双端测序采用read1的格式。FQ。FQ。BZ2,而且前后端同时出现,同时作为hisat2输入。通过hisat2将测序得到的fastq文件与参考基因组进行比较,得到SAM文件。SAM文件就是序列比对文件,有上下两个部分,分别包括头部注释部分和比对结果部分:头注释段//头注释段以@: @HD VN:1.0 SO:未排序//HD line: VN版本和比较排序类型。所以:此处unordered表示没有顺序。@ SQ SN:NC _ 001133.9 LN:230218//SQ line:参考连载目录。序列号:参考序列名称。LN:参考序列长度@ sqsn:NC _ 001148.4 LN:948066 @ sqsn:NC _ 001224.1 LN:85779 @ sqsn:NC _ 001140.6 LN:562643 @ sqsn:NC _ 001141.2 LN:4343 SN:NC _ 001143.9 LN:666816 @ PG ID:hisat 2 pn:hisat 2 VN:2genome . fa-DTA-s ./S1 . Sam-1/tmp/1909596 . in pipe 1-2/tmp/1909596 . in pipe 2 /pg line:使用的比对程序的名称,这里是hisat2的比对结果。比对结果部分的每一行表示读取基因组和参考基因组的比对结果信息。前11列是主列,包含最重要的信息。
SRR 5511068.3 99 NC _ 001147.6 1002516 60 75M=1002624 184 gtacttaacatttcttaatcatgttaaaaggtaaaaacctggcccattcgatgtaactgtaaattatac aaaaeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeee/eeeeaeeeeeeeeeeeeeeeeeeeeeeeeee AS:I:0 XN:I:0 XM
QNAME:查询名称,排序读取的名称。如果是双端测序,会出现两次,每端都要和上一个进行比较。FLAG:值是2的幂或其和,2的每个幂代表一种情况。详情请参考https://blog.csdn.net/genome_denovo/article/details/78712972 CSDN的博客
或者简书大佬:
https://www.jianshu.com/p/ab133ee9712cRENAME:参考名称,双端测序R1比对中的参考序列名称,如果不是,则为*。POS:位置,双端测序R1初始比对的位置序号。MAPQ:制图质量,质量分数。分数越高,越准确。CIGAR:比较结果,M代表完全匹配。RNEXT:双末端测序的R2末端比较。如果比较失败,则使用*符号,并将同一数据段与=符号进行比较。MPOS:双末端测序R2末端比对位置。ISIZE:库插入长度,R2终端位置-雪茄处R1终端位置值。SEQ:序列信息。QUAL:读取质量,以ASCII码表示。最后总结一下,转录组数据分析的步骤不仅仅是差异表达基因的比较,还有差异表达基因的显著性分析、相关性分析、GO和KEGG分析。本文仅总结转录组分析的上游步骤。就上游步骤而言,有很多种比较软件可用。本文只用hisat2 samtools stringtie的经典步骤来学习转录组的上游分析。其他对比软件如果以后有涉及的话会整理出来。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。