单样本基因集富集分析,单样本基因富集分析
上次写了—— 《微生物组入门必读+宏基因组实操课程=新老司机赶快上车》的学习心得和推荐教程。我的朋友当天阅读2700次,3.5天阅读3000次,满足了3000多人出发的宏基因组快车的要求。按照约定,我将继续分享宏基因组分析的实践过程。
喜欢这个教程的小伙伴们,请帮我在文末点个赞,鼓励我继续写下去,你懂的。
本系统教程基于2017年9月26-30日在加州大学戴维斯分校举办的宏基因组研讨会的学习笔记。课程介绍详见《宏基因组分析实操课程》。
同时结合作者的经验,对课程操作中可能遇到的问题进行了讲解并提供了解决方案,并对本课程没有涉及到的常用分析进行了专门讲解。预计总共有20门课程,每周二和/或周五更新。
1.课程介绍原文链接:https://2017-cicese-meta genomics . readthedocs . io/en/latest/welcome . html
1. 学习目标
-了解相关工具
-获得一些使用命令行的经验
——基本完成数据分析。
-介绍科学数据分析的常规
2. 安全空间与行为准则
-目的是提供一个安全友好的学习环境
-请阅读《木匠软件》了解行为准则。
-鼓励提问,也许其他人也需要
3. 主讲介绍
哈丽特亚历山大加州大学戴维斯分校的博士后。
-菲尔布鲁克斯-加州大学戴维斯分校博士后。
-泰特斯布朗-加州大学戴维斯分校兽医学院教授。
4. 亚马逊云计算
-软件安装简单
-大数据分析很方便
——爆发力强。
-没有地域限制。
5. 便签规则
-没有便利贴:进行中
——绿注:一切顺利。
-红色笔记:需要帮助
练习使用云计算平台。有政府官方提供的平台。没有成功使用过,尝试了几个都没有成功,或者说没有免费版本。在这里,你可以直接使用自己的服务器。没有服务器的人推荐用阿里云(国内速度快,朋友体验好,学生有优惠)。
捷流计算平台此节步按教程操作页无法登陆,可能不适合国内用户或需要授权
https://2017-cicese-meta genomics . readthedocs . io/en/latest/jetstream/boot . html
注册:访问https://use.jetstream-cloud.org/application/images,点击登录,
默认登录是XSEDE的账户,但是也支持google和ORCiD iD。这里我用Google,点击创建新用户,用公司邮箱注册,注册并设置密钥,回邮件后继续注册。
我的用户名是microking,密码是大小写字母。
参观http://portal.xsede.org,稍后着陆。
参观https://use.jetstream-cloud.org/application/images
云https://amazonaws-china.com/cn/
每月提供750h,1G内存,5G存储,100W免费请求。
注册未成功。国内应该有服务器可以用,可能是最后18个1的原因。
阿里云使用淘宝账号直接登录。学生可以每月购买9.9折,1核,2G内存,1M带宽,40G存储。学习数据分析应该就够了。如果你不是在学习,你最好自己买一台高配置的电脑或者服务器。不如配置一个相当于服务器的三年租金。
测试风里的星月帮测试数据搭建一个百度云同步共享文件夹,好处多多。在决定是否下载之前,请阅读以下内容:
1.下载被墙的数据;大量数据存在于谷歌,亚马逊的部分服务器在国内无法直接下载。但是服务器普遍不方便科学上网,数据下载困难。请在共享目录中找到下载失败的数据;
2.预下载好的软件、数据库;需要下载安装注册的软件很多(网上安装包除外)。其实他们已经在共享目录了,节省了小伙伴申请下载的时间;
3.数据同步更新;任何笔记或教程都不可避免地存在一些错误或不完善之处。以后我可以通过大家的测试反馈问题来完善教程。共享目录不建议全部下载或转存,因为文件体积非常大,而且还会更新。你传过来的只是当前版本的备份,不会再更新了。建议直接在链接里一个一个下载需要的文件,对文件的理解也有一个过程。
4.方便结果预览和跳过问题步骤;在不同平台和版本的Linux服务器下,软件安装和兼容性还是存在很多问题,用户的权限和经验也会导致一些相关软件无法成功安装的步骤(如有问题请选择google,向管理员求助;如果想在群里提问或者联系作者,一定要看《如何优雅的提问》)。在百度云共享目录中,有每一步的运行结果。读者可以下载并查看分析结果,并根据结果做进一步的分析。不要纠结于某一步的失败,重点是要理解整个过程的分析思路。
最后,发送本教程使用的所有文件同步共享文件夹的链接:http://pan.baidu.com/s/1hsIjosk密码:y0tb。
Shell入门需要服务器的实际操作。上面原作者提供的云不能用,阿里云需要付费。如果需要,读者可以自己购买,或者在自己的linux服务器上使用。
Shell学习材料推荐
1.Shell基本命令:常用入门教程https://github . com/SW carpenter/deprecated-boot-camps/blob/master/shell/shell _ cheat sheet . MD
2.Shell备忘单:在https://FOSS wire . com/post/2007/08/uni Linux-command-cheat-sheet/上记忆常用命令
3.贝壳收藏:百科、数据访问;https://explainshell.com/
图一。学习程序的重要性
初识Shell
#下载课程相关文件git clone https://github.com/edamame-course/edamame-data.git#,进入课程目录cd毛豆-data#进入本节目录cd shell#查看当前目录文件ls显示命令参数
#查看指挥人员ls查找文件的帮助
#区分目录和文件ls -F#检查当前目录中的文件find -name youfoundit.txt# tab键以完成命令和文件名。如果遵循以下命令,再次按Tab,是否需要完成文件名ls S#路径通用字符cd。#当前目录CD.#上级目录cd ~ #主目录通配符
*代表一个或多个字符,代表1个字符。
Ls /usr/kwddh/*。sh #查看所有以结尾的文件。sh ls/usr/kwddh/*。#显示只有一个字符扩展名的文件历史命令
Ctrl #终止当前命令并打开一个新提示。
Ctrl #反向索引历史命令
历史#每个命令都有一个数字!2017 #号是显示的数字,可以执行对应的命令查看文件内容。
Cd MiSeq #进入测试数据目录cat C01D01F_sub.fastq #显示文件内容到屏幕少C01D01F_sub.fastq #按页头查看内容-n 1 C01D01F_sub.fastq #查看第一行,默认情况下,前10行尾-N101D01f _ sub。fastq #查看最近1次
“空格”:向前翻页。
B:退后
“G”:跳到开头
“G”:跳到最后
“问”:退出
检索文件
Grep22029: 7208c01D01F _ sub。fastq #找一行grep-A32029: 7208c01D01F _ sub。FastQ #查找一行并显示接下来的三行#该命令可用于按四行过滤FastQ文件。注意,连续匹配将出现-分隔符,使用grep -v -
Grep-b2ttaccggattggtttaaagggt *。fastqgood-data2.txt #将搜索结果保存到一个文件,-B 2同时输出匹配行的前两行,grep TTATCCGGATTTGGTTTAAAGGGT *。fastq less #。保存结果。检查grep TTATCCGGATTTGGTTTAAAGGGT *。fastq WC-L #。保存结果。统计行数为重定向。
CP Good-data 2 . txt Good-data 2 . backup . txt #复制文件mkdir backup #创建目录mv Good-data 2 . backup . txt backup/#将文件移动到目录mv backup/Good-data 2 . backup . txt backup/Good-data 2 . backup _ IMPORTANT #文件重命名rmbackup/Good-data 2 . backup _ IMPORTANT #删除文件文件操作
镉.#返回上一级的shell目录。哪个ls #查看程序位置echo $PATH #查看环境变量hello.sh #报错,找不到程序。/hello.sh #程序的绝对或相对位置必须是运行程序
找到。-print #查看当前目录和下面找到的所有文件。-键入f -print # Find only files find。-键入f -name *1* #查找名称中带有1的文件Find。-键入f-name * 1 * -或-name * 2 *-print # Find文件名中包含1或2的文件Find。-键入f-name * 1 * -and-name * 2 * -print #查找名称中包含1和2的文件运行本地blast #更新软件库并安装blast, 请跳过sudo apt-get更新sudo apt-get-y安装python NCBI-blast #创建此实验室目录并输入mkdir blastcd blast#下载测试数据curl-O ftp://ftp.ncbi.nih.gov/refseq/. M _ muscle us/mRNA _ Prot/mouse . 1 . protein . FAA . gz URL-O FTP://FTP . NCBI . NIH . gov/ref seq/M _ muscle us/mRNA _ Prot/mouse . 2 . protein . FAA . gz URL-O FTP://FTP . NCBI . NIH . gov/ref seq/转到文件blastp-query m-first . fa-dbzebrafish . 1 . protein . FAA-outmm-first . x . zebrafish . txt lessmm-first . x . zebrafish . txt # 250序列进行了分析:head-500小鼠。1.蛋白质。一秒钟。fab lastp-查询毫米秒。fa-db斑马鱼。1.蛋白质。faa-outmm-second。十、斑马鱼。txt减去毫米秒。X.zebrafish.txt#输出表result-out fmt 6 blastp-query m-second . fa-dbzebra fish . 1 . protein . FAA-outmm-second . x . zebra fish . TBL . txt-out fmt 6 # Less-S view headmm-second . x . zebra fish . TBL . txt不换行 Less -S猜你喜欢看微生物组测序分析图-理解文章思路-扩增子分析流程-把握分析细节-扩增子统计图-impact高分文章16S预测微生物群落功能-微生物组入门必读宏基因组实用课程岛电影生物学科普强-生命大跃进实验王耔学生的信仰之路-biostar手册阅读进化树五色进化树匹配热图更好-ggtree美进化树-Endnote X8云同步:可以在网上随时阅读文献,写在后面为了鼓励读者交流,快速解决科研难点,我们建立了“宏基因组”专业讨论组。目前国内已有50个PI和500多名一线科研人员加入。参与讨论,获得专业指导,答疑解惑。欢迎分享这篇文章给朋友,扫码加方正好友带你入群。一定要注明“姓名-单位-研究方向-职位”。如需技术帮助,先阅读如何提出优雅的问题,学习如何解决问题,然后发布推荐信-生成技能树-微生物组板块(http://www . bio trainee . com/forum-88-1 . html),并将链接转发到群内,这样问题和答案就可以方便检索,造福子孙后代。
学习16S扩增子、宏基因组思路和实务分析,密切关注“宏基因组”,尽快推送干货。
点击阅读原文,跳转到最新文章目录阅读。
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。