read andcount,read andcount是什么意思
大家可以看最新版https://blog.csdn.net/qq_26012913/article/details/111939262?spm=1001.2014.3001.5501
首先我们要把通用追踪程序文件中的外显子抓取出来
grep外显子genome.gtf genome_exon.gtf然后提取genome_exon.gtf文件中的基因的外显子的长度和得到我们想要的基因的长度
python count _ genelen _ from _ GFT。py基因组_外显子。GTF基因。低输入联网(low-entry networking的缩写)这其中count_genelen_from_gft.py的代码如下:
导入sys,refile 1=sys。argv[1]file 2=sys。argv[2]f1=open(file 1, r)f2=open(file2, w )flag= fuck 外显子=[]for I in f1:a=I . split()if flag==a[-2]:pos=I . split( \ t )外显子。append(ABS(int(pos[4])-int(pos[3]))1)elif flag== fuck :flag=a[-2]pos=Iformat(flag,sum(exon)))exon=[]flag=a[-2]pos=I . split( \ t )外显子。append(ABS(int(pos[4])-int(pos[3]))1)f1。关闭()F2。关闭()就此我们得到了单个基因的长度,存在吉恩莱恩文件中例如:
mim 04m 24基因00599 2898 mim 04m 24基因00600 1035 mim 04m 24基因08324 588 mim 04m 24基因08325 468 mim 04m 26基因00001 1770 mim 04m 26基因00002 930 mim 04m 26基因00003 594 mim 04m 26基因00004 426 mim 04m 26基因000005
我们还要提取准备一下我们每个样本的映射_读取数的文件,内容如下:
总映射读取读取数a1a 18836863 a1b 15478037 a1c 19394549 a2a 19976617 a2b 15964986 a2c 19685810 a3a 18080220 a3b 16627794 a3c 20205794 a4a 16867356 a4b 1640921 a4 c 19966924 a5a 1733然后我再展示一下我的读取计数矩阵文件,我的文件名为:raw_counts.matrix
文件内容例如:
A1A A1B A1C A2A A2B A2C A3A A3B A3C A4A A4B A4C A5A A5B A5C A6A A6B a6 cmim 04m 24基因00599 334 179 300 532 261 376 238 284 312 306 191 260 105 187 191 204 177 mm04m 24基因00600 98 58 80 134 84 122 44 47 67 67 65以这三个文件作为输入,我们就能通过脚本得到纵坐标矩阵
python计算_ fpkm。py映射基因编号。txt基因。len raw _ counts矩阵fpkm。矩阵其中的计算_FPKM.py脚本内容贴下:
导入sys,refile 1=sys。argv[1]file 2=sys。argv[2]file 3=sys。argv[3]file 4=sys。argv[4]f1=open(file 1, r)f2=open(file2, r)f3=open(file3, r)f4=open(file4, w )A=[]arr f1=[]dick F2={ } dick F3={ } for I in f1:I=I . strip( \ n )if re .匹配( A ,I):A=I .拆分( \ n)格式(b))F4。写( \ t )F4。写( \ n )F4。关闭()最后我做一个完整的傻瓜式脚本,只要大家准备好通用追踪程序文件、映射的读取次数文件、读取计数文件和两个大蟒脚本到一个目录下跑就行了
总脚本如下:
grep 外显子基因组。GTF基因组外显子。gtfpython count _ genelen _ from _ GFT。py基因组_外显子。GTF基因。lenpython Caculate _ fpkm。py映射基因编号。txt基因。len raw _ counts矩阵fpkm。矩阵希望能对大家有所帮助,有困难可以给我发邮件1193226980@qq.com
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。