转录组上游分析的全部流程：软件安装——数据准备——质控——序列比对——表达定量。

俗话说的好，工欲善其事，必先利其器，要想做上游定量的小伙伴首先要学会准备自己的测序数据，要不然大家分析什么？

本文将手把手教你做转录组上游分析——第二章（数据的准备）

目录如下：

1. 准备原始数据

2. 准备参考基因组

3. 准备参考基因组注释文件

4. 结语

前置条件：

虚拟机：vmwarewokstation，版本16.0.0，

linux系统：ubantu64位，版本20.04.3

模式生物：C57BL/6J（需要明确自己的样本属于哪一种模式生物）

原始数据：公司测序返回的fq文件（目前测序通常是双端测序）

1. 准备原始数据

原始数据一般是送样给公司检测后得到XXX.fq.gz文件，如下图所示（Windows界面）：

并且我这里是双端测序数据，因此在.fq.gz前面还会有1/2的数字标识（原始数据的命名方式跟公司有关，不同的公司命名不同，后期可以自己修改命名）。

如下图所示，为修改命名后的文件（Windows界面）：红线以上是药物处理组6个样本，红线以下是对照组6个样本（再次注意：由于是双端测序数据，因此一个样本会有两个fq数据）

现在我们已经有了修改命名后的原始数据，需要将这些文件复制到linux系统中供后续分析使用，接下来打开linux操作系统，如下图所示，我们可以看到桌面下什么文件夹都没有。

点击上图中红线指向的地方，打开终端，通过cd Desktop/指令，切换到桌面目录下（如下图所示）

输入如下指令，创建两个文件夹

mkdir00_raw_datamkdir 01_ref

（1）raw_data文件夹用来存放原始数据

（2）ref文件夹用来存放参考基因组。

关闭终端，这时如下图所示，我们就能看到桌面下多了两个新的文件夹。

之后双击中打开00_raw_data文件夹，如下图所示，直接将windows系统里的原始文件拖拽到00_raw_data文件夹中

2. 准备参考基因组

这里我们选用Ensembl数据库(ftp://ftp.ensembl.org/pub)，打开网址后，我们可以看到一大堆英文命名的文件夹，对应每个物种的英文名，我们用的是C57BL/6J，对应的英文名是：Mus musculus，因此往下找到名为mus_musculus/的文件夹（如下图所示）。

点开文件夹后，接下来我们打开dna文件夹（这个文件夹里会存放C57BL/6J小鼠每条染色体参考基因组，以及所有染色体汇总的参考基因组文件）。

这里我们选择所有染色体汇总的参考基因组，如下图所示：

文件下载的两种方式：

（1）鼠标左键点击一下这个蓝色的链接就能获取下载（这种下载方式会下载到windows本地存储中）。

（2）另一种下载方式是右键点击蓝色链接后有一个复制链接地址，复制到转到linux终端中输入如下指令，可直接下载到Linux中。

wget 复制的链接

如果是第一种下载方式，跟准备原始数据一样，直接拖拽到Linux桌面下创建的01_ref文件夹中即可。

如果选择第二种下载方式，最好先切换到**01_ref文件夹路径**下再输入wget指令，如下图所示。

3. 准备参考基因组注释文件

这里我们还是选用Ensembl数据库(ftp://ftp.ensembl.org/pub)，打开网址后，我们先回退到上级目录（如下图所示）

在上级目录中，我们重点关注两个文件夹，一个是fasta文件夹，这个就是刚才下载参考基因组的文件夹，另外一个就是gtf文件夹，这里存放着物种参考基因组注释文件（也就是我们这一步需要的），我们点击图中gtf文件夹。

点开后摁ctrl+f搜索mus_musculus/即可找到C57小鼠的参考基因组注释文件夹，如下图所示点开文件夹后我们可以看到有5个文件，第四个文件就是我们所需要的参考基因组注释文件。

文件下载的同样是两种方式：

（1）直接下载到本地，下载到本地的也需要拖拽到linux中01_ref文件夹下。

（2）在linux系统中切换到01_ref目录下用wget指令下载（前面讲过）。

4. 结语：

以上就是零基础入门转录组上游分析——第二章（数据的准备）的所有过程，如果有什么需要补充或不懂的地方，大家可以私聊我或者在下方评论。

如果觉得本教程对你有所帮助，希望广大学习者能够点赞，收藏，加关注

祝大家能够开心学习，轻松学习，在学习的路上少一些坎坷~~~

• 11-21工作日志	• 第129回资治通鉴：没有心机，不会谋局的人，
• 关晓彤 19 岁荣膺白玉兰女配角奖！下一届或再续	• 【旅行】2016（6）克里姆林宫#俄罗斯之旅（6）
• 2024.11.23.	• 体育节比赛
• 西安交大RFect siRNA转染试剂成功转染人白血病	• 为什么文章阅读量低？因为你没get到这个点
• 速溶咖啡	• 人生的意义是繁殖和舒服

VIP会员

推广服务

零基础入门转录组上游分析——第二章（数据的准备）

1. 准备原始数据

2. 准备参考基因组

3. 准备参考基因组注释文件

4. 结语：

原文参考链接：（原文可视化效果更好）

零基础入门转录组上游分析——第二章（数据的准备）

平台客服