转录组上游分析的全部流程:软件安装——数据准备——质控——序列比对——表达定量。
俗话说的好,工欲善其事,必先利其器,要想做上游定量的小伙伴首先要学会准备自己的测序数据,要不然大家分析什么?
本文将手把手教你做转录组上游分析——第二章(数据的准备)
目录如下:
1. 准备原始数据
2. 准备参考基因组
3. 准备参考基因组注释文件
4. 结语
前置条件:
虚拟机:vmwarewokstation,版本16.0.0,
linux系统:ubantu64位,版本20.04.3
模式生物:C57BL/6J(需要明确自己的样本属于哪一种模式生物)
原始数据:公司测序返回的fq文件(目前测序通常是双端测序)
1. 准备原始数据
原始数据一般是送样给公司检测后得到XXX.fq.gz文件,如下图所示(Windows界面):
并且我这里是双端测序数据,因此在.fq.gz前面还会有1/2的数字标识(原始数据的命名方式跟公司有关,不同的公司命名不同,后期可以自己修改命名)。
如下图所示,为修改命名后的文件(Windows界面):红线以上是药物处理组6个样本,红线以下是对照组6个样本(再次注意:由于是双端测序数据,因此一个样本会有两个fq数据)
现在我们已经有了修改命名后的原始数据,需要将这些文件复制到linux系统中供后续分析使用,接下来打开linux操作系统,如下图所示,我们可以看到桌面下什么文件夹都没有。
点击上图中红线指向的地方,打开终端,通过cd Desktop/指令,切换到桌面目录下(如下图所示)
输入如下指令,创建两个文件夹
mkdir00_raw_datamkdir 01_ref
(1)raw_data文件夹用来存放原始数据
(2)ref文件夹用来存放参考基因组。
关闭终端,这时如下图所示,我们就能看到桌面下多了两个新的文件夹。
之后双击中打开00_raw_data文件夹,如下图所示,直接将windows系统里的原始文件拖拽到00_raw_data文件夹中
2. 准备参考基因组
这里我们选用Ensembl数据库(ftp://ftp.ensembl.org/pub),打开网址后,我们可以看到一大堆英文命名的文件夹,对应每个物种的英文名,我们用的是C57BL/6J,对应的英文名是:Mus musculus,因此往下找到名为mus_musculus/的文件夹(如下图所示)。
点开文件夹后,接下来我们打开dna文件夹(这个文件夹里会存放C57BL/6J小鼠每条染色体参考基因组,以及所有染色体汇总的参考基因组文件)。
这里我们选择所有染色体汇总的参考基因组,如下图所示:
文件下载的两种方式:
(1)鼠标左键点击一下这个蓝色的链接就能获取下载(这种下载方式会下载到windows本地存储中)。
(2)另一种下载方式是右键点击蓝色链接后有一个复制链接地址,复制到转到linux终端中输入如下指令,可直接下载到Linux中。
wget 复制的链接
如果是第一种下载方式,跟准备原始数据一样,直接拖拽到Linux桌面下创建的01_ref文件夹中即可。
如果选择第二种下载方式,最好先切换到**01_ref文件夹路径**下再输入wget指令,如下图所示。
3. 准备参考基因组注释文件
这里我们还是选用Ensembl数据库(ftp://ftp.ensembl.org/pub),打开网址后,我们先回退到上级目录(如下图所示)
在上级目录中,我们重点关注两个文件夹,一个是fasta文件夹,这个就是刚才下载参考基因组的文件夹,另外一个就是gtf文件夹,这里存放着物种参考基因组注释文件(也就是我们这一步需要的),我们点击图中gtf文件夹。
点开后摁ctrl+f搜索mus_musculus/即可找到C57小鼠的参考基因组注释文件夹,如下图所示点开文件夹后我们可以看到有5个文件,第四个文件就是我们所需要的参考基因组注释文件。
文件下载的同样是两种方式:
(1)直接下载到本地,下载到本地的也需要拖拽到linux中01_ref文件夹下。
(2)在linux系统中切换到01_ref目录下用wget指令下载(前面讲过)。
4. 结语:
以上就是零基础入门转录组上游分析——第二章(数据的准备)的所有过程,如果有什么需要补充或不懂的地方,大家可以私聊我或者在下方评论。
如果觉得本教程对你有所帮助,希望广大学习者能够点赞,收藏,加关注
祝大家能够开心学习,轻松学习,在学习的路上少一些坎坷~~~