RNA-seq数据分析实用方法,RNA-seq数据

  RNA-seq数据分析实用方法,RNA-seq数据

  HTSeq-apythonframework with high-ThroughputSequt作为一个能够处理高通量数据的python软件包,由Simon Anders、Paul Theodor Pyl、Wolfgang Huber等共同推出。受到了很多分析师的欢迎,他们对修改和使用熟悉python的cxdlh很有信心。

  这里需要注意的是,HTSeq是用于读取计数的计数软件,上游校验软件可以对clean data发送的校验结果bam文件(从sam文件排序得到)执行与HTSeq相同的功能,最后比较基本结果。

  安装手动管视频HTSeq创建2mk dir(/biosoft/HTSEQCD)/biosoft/HTSeq 3)下载1 #保存文件夹5wget3359pypi.python提取pack gag # Md5=fc71e 021 BF 284 a 68 f 5 AC 7533 a 57641 AC 6 tar ZF 059d 88 cc 3592 f 62d 15 ef 539 a 2/ht seq-0.9.1.tar.gz请注意这里。将root权限10 python setup . py build 11 python setup . py install-user 1213 # addyxdqt/安装到您的path14vim.bashrc15path=//home

  HTSeq使用注意事项HTSeq是携带参考基因组的转录本测序数据的表达分析结果,其输入文件需要SAM和GTF文件。通常,通过HTSeq获得的计数结果用于不同样品之间基因表达的差异分析,而不是一个样品内基因表达的比较。因此,HTSeq将-a参数的默认值设置为10,忽略与多个位置一致的读取信息,结果有利于后续的差分分析。输入GTF文件不能包含可变拼接信息。否则,HTSeq会认为每个可变剪接都是一个单独的基因,计算出来的结果可以和多个可变剪接转录本上的读数进行比较,是有歧义的,无法计算到基因计数中。将-i参数的值设置为transcript _ id只会导致转录本的表达式,结果同样不准确。这里用HTSeq接收上游hisat2匹配软件获取的bam文件,按pos排序。因此,sortsamtoolsort-n yourfile . bam yourfile _ name . bamhtseq-count-fbam-rname-SnO-a10-texon-igene _ id-id

  # command参数-f -formatdefault: Sam设置输入文件的格式。该值可以是sam或bam。-r -设置如何排序顺序default: namesam或bam文件。该参数的值是name或pos。前者是指按读名排序,后者是指按比对的参考基因组位置排序。如果排序数据是双端排序,sam/bam文件按pos排序时,两端reads的匹配结果通常不是sam/bam文件中相邻的两行,程序会将reads对的第一个匹配结果输出给另一个read。因此,如果选择了pos,程序可能会使用更多内存,这也适用于未排序的sam/bam文件。另一方面,pos序列表明程序认为双端测序的reads比对结果位于相邻的两行,这也适用于单端测序的比对结果。其他很多演示分析软件都要求输入的sam/bam文件按pos排序,但是HTSeq建议按名称排序,常用排序软件默认输出结果也是按名称排序。-s - stranded默认值:是,设置它是否是特定于链的序列。此参数的值可以是、否或还原。No表示非链特异性测序;对于单端序列,“是”意味着阅读与基因的有义链匹配;对于双末端序列,yes表示read1与基因的有义链一致,read2与基因的有义链一致;反向表示两端排序和y的情况。

  es相反值的结果。根据对文献的理解,一般来说,对于双端链特异性测序,这个参数的值应该是反向的(我暂时没有测试过这个参数)。-a -a默认值:10忽略比较质量低于该值的比较结果。在0.5.4版之前,该参数的默认值为0。-t -type default: EXON程序将计算指定特征(gtf/gff文件的第三列)的表达式,而其他特征(gtf/gff/GFF文件)将被忽略。-I -id attr default:gene _ ID设置的特征ID由gtf/gff文件第9列的标签决定;如果多行gtf/gff文件具有相同的特征ID,它们都来自相同的特征,程序将计算这些特征的表达式的和,并将它们分配给相应的特征ID。-m -mode默认值:union设置表达式计算模式。该参数的值可以是union、intersection-strict和intersection-nonempty。三种模式的选择请参考上面的原理图。从图中可以看出,对于原核生物推荐交集-严格模式;建议真核生物使用联合模式。-o -samout输出一个sam文件,sam文件的比较结果有一个XF标签,表示读取匹配某个特征。-q -Quiet不输出程序运行的状态信息和警告信息。-h -help输出帮助信息。

  htseq-count Union、intersection-strict、intersection-nonempty三种比较模式可以选择你需要的模式。

  我在这里使用intersection_nonempty模式HTSeq的output HTSeq将计数结果输出到标准输出,结果如下:headcounts。txt ensg 00000000000030 ensg 000000000050 ensg 0000000000419 1171 ensg 0000000000457563 ensg 000000000460703 ensg 0000000000938 0 ensg 0000000000009711 e。NSG 00000001036 925 ensg 000000001084 1468 ensg 00000001167 2997 tail count . txt ensg 00000283696 18 ensg 00000283697 0 ensg 000000283698 1 ensg 000000283699 0 ensg 000000283699 0 ensg 00000000283700 _ no _ feature 34699

  GFold:另一个提取计数矩阵的工具GFold,是2012年同济大学一个研究小组在生物信息学上发表的软件。旨在通过相对基因变化找出RNA-seq中表达差异的基因,也可以作为read count的计数。

  安装gfold。V1.1.4.tar.gzdownload,解压后即可使用。

  使用gfold count-ann hg19ref。GTF-tag sample 1 . Sam-OS ample 1 . read _ CNT g fold count-ann Hg 19 ref . GTF-tag sample 2 . Sam-OS ample 2 . read _ CNT

  输出文件包含五列:

  #描述很详细。这里,我们不翻译基因符号:对于bed文件,这是第4列。对于GPF文件,这是第一列。适用于GTF格式。如果存在,则对应于“基因标识”,否则对应于“不存在”。GeneName:对于BED文件,它总是“NA”。对于GPF档案,这是第12列。对于GTF格式,如果存在,则对应于“基因名称”,否则对应于“NA”。读取计数:映射到该基因的读取次数。基因外显子长度:该基因所有外显子的长度总和。RPKM:(#这里需要注意的是,双端测序技术还没有普及,这里不用FPKM。此外,RPKM和FPKM不能很好地代表基因的表达水平。

  输出文件示例:

  head example . read _ cntensg 0000000000003 tspan 6 0 4535 0 ensg 0000000000005 TNMD 0 1610 0 ensg 0000000000419 DP m1 1588 1207 27.4411 ensg 000000000457 scyl 3 1344 6883 4.07267 ensg 00000000000460 c1orf 112 1334

  这里使用的样本bam文件或sam文件与HTSeq的输入文件是一致的,但结果差别还是较大,这里只做说明,不做推荐。

  Bedtools:计数矩阵的另一个提取工具bedtools是一个极其古老的数据处理软件,由犹他大学的一个实验室开发。我也是看了盛鑫新秀团兴奋衫的一篇文章才知道也可以用来计数的。

  安装wget https://github . com/arq5x/bed tools 2/releases/download/v 2 . 26 . 0/bed tools-2 . 26 . 0 . tar . gztar ZXVF bedtools-2.26.0.tar.gz。

  使用bed tools multi cov-bam S1 . bam 2 . bam 3 . bam 4 . bam-bedfile . bedread . count . txt。

  #注意这里的bed文件需要自己处理,需要四列,第一列是chrN,第二列是第三列是基因位置,第四列是基因名称。类似于:IVL人权委员会1 0 10000 L2人权委员会1 10000 20000

  输出

  转载于:https://www.cnblogs.com/triple-y/p/9338890.html

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

相关文章阅读

  • 2020年高考成绩分布表,2020年高考成绩统计,数据分析2020年全国各省高考成绩分布情况
  • ,,python实现数据分析与建模
  • python3 数据分析,python数据分析课堂
  • 《数据思维》,数据分析的思维导图
  • python数据分析就业方向,python数据分析毕业论文
  • python数据分析数据清洗,python中数据清洗
  • 基于Python的数据可视化,python数据分析及可视化处理的第三方库
  • 利用python进行数据分析豆瓣,python数据分析基础和利用python进行数据分析
  • python数据分析数据清洗,用python进行数据清洗
  • python对excel表格数据的统计和分析,python进行excel数据分析
  • 从零开始学Python数据分析与挖掘,自学python数据分析
  • python数据分析结构思维导图,python组合数据类型思维导图
  • 关联规则分析案例,关联规则数据分析题,关联规则的实际案例数据
  • 数据分析与商业数据分析,120个Excel商业数据分析实战案例
  • python数据分析excel读写,python 读取excel数据
  • 留言与评论(共有 条评论)
       
    验证码: