• 全国 [切换]
  • 二维码
    筹货展会网

    手机WAP版

    手机也能找商机,信息同步6大终端平台!

    微信小程序

    微信公众号

    当前位置: 首页 » 行业新闻 » 热点新闻 » 正文

    零基础入门转录组上游分析——第二章(数据的准备)

    放大字体  缩小字体 发布日期:2024-10-31 23:37:27   浏览次数:24  发布人:aca2****  IP:124.223.189***  评论:0
    导读

    转录组上游分析的全部流程:软件安装——数据准备——质控——序列比对——表达定量。俗话说的好,工欲善其事,必先利其器,要想做上游定量的小伙伴首先要学会准备自己的测序数据,要不然大家分析什么?本文将手把手教你做转录组上游分析——第二章(数据的准备)目录如下:1. 准备原始数据2. 准备参考基因组3. 准备参考基因组注释文件4. 结语前置条件:虚拟机:vmwarewokstation,版本16.0.0,






    转录组上游分析的全部流程:软件安装——数据准备——质控——序列比对——表达定量。

    俗话说的好,工欲善其事,必先利其器,要想做上游定量的小伙伴首先要学会准备自己的测序数据,要不然大家分析什么?

    本文将手把手教你做转录组上游分析——第二章(数据的准备)

    目录如下:

    1. 准备原始数据

    2. 准备参考基因组

    3. 准备参考基因组注释文件

    4. 结语


    前置条件:

    虚拟机:vmwarewokstation,版本16.0.0, 

    linux系统:ubantu64位,版本20.04.3

    模式生物:C57BL/6J(需要明确自己的样本属于哪一种模式生物

    原始数据:公司测序返回的fq文件(目前测序通常是双端测序



    1. 准备原始数据

     原始数据一般是送样给公司检测后得到XXX.fq.gz文件,如下图所示(Windows界面):






    并且我这里是双端测序数据,因此在.fq.gz前面还会有1/2的数字标识(原始数据的命名方式跟公司有关,不同的公司命名不同,后期可以自己修改命名)。

    如下图所示,为修改命名后的文件(Windows界面):红线以上是药物处理组6个样本,红线以下是对照组6个样本(再次注意:由于是双端测序数据,因此一个样本会有两个fq数据






    现在我们已经有了修改命名后的原始数据,需要将这些文件复制到linux系统中供后续分析使用,接下来打开linux操作系统,如下图所示,我们可以看到桌面下什么文件夹都没有。






    点击上图中红线指向的地方,打开终端,通过cd Desktop/指令,切换到桌面目录下(如下图所示






    输入如下指令,创建两个文件夹

    mkdir00_raw_datamkdir 01_ref

    (1)raw_data文件夹用来存放原始数据

    (2)ref文件夹用来存放参考基因组。

    关闭终端,这时如下图所示,我们就能看到桌面下多了两个新的文件夹。






    之后双击中打开00_raw_data文件夹,如下图所示,直接将windows系统里的原始文件拖拽到00_raw_data文件夹中







    2. 准备参考基因组

    这里我们选用Ensembl数据库(ftp://ftp.ensembl.org/pub),打开网址后,我们可以看到一大堆英文命名的文件夹,对应每个物种的英文名,我们用的是C57BL/6J,对应的英文名是:Mus musculus,因此往下找到名为mus_musculus/的文件夹(如下图所示)。






    点开文件夹后,接下来我们打开dna文件夹(这个文件夹里会存放C57BL/6J小鼠每条染色体参考基因组,以及所有染色体汇总的参考基因组文件)






    这里我们选择所有染色体汇总的参考基因组,如下图所示






    文件下载的两种方式:

    (1)鼠标左键点击一下这个蓝色的链接就能获取下载(这种下载方式会下载到windows本地存储中)。

    (2)另一种下载方式是右键点击蓝色链接后有一个复制链接地址,复制到转到linux终端中输入如下指令,可直接下载到Linux中。

    wget 复制的链接

        如果是第一种下载方式,跟准备原始数据一样,直接拖拽到Linux桌面下创建的01_ref文件夹中即可。

    如果选择第二种下载方式,最好先切换到**01_ref文件夹路径**下再输入wget指令,如下图所示







    3. 准备参考基因组注释文件

    这里我们还是选用Ensembl数据库(ftp://ftp.ensembl.org/pub),打开网址后,我们先回退到上级目录(如下图所示






    在上级目录中,我们重点关注两个文件夹,一个是fasta文件夹,这个就是刚才下载参考基因组的文件夹,另外一个就是gtf文件夹,这里存放着物种参考基因组注释文件(也就是我们这一步需要的),我们点击图中gtf文件夹。






    点开后摁ctrl+f搜索mus_musculus/即可找到C57小鼠的参考基因组注释文件夹,如下图所示点开文件夹后我们可以看到有5个文件,第四个文件就是我们所需要的参考基因组注释文件。






    文件下载的同样是两种方式:

    (1)直接下载到本地,下载到本地的也需要拖拽到linux中01_ref文件夹下。

    (2)在linux系统中切换到01_ref目录下用wget指令下载(前面讲过)


    4. 结语:

    以上就是零基础入门转录组上游分析——第二章(数据的准备)的所有过程,如果有什么需要补充或不懂的地方,大家可以私聊我或者在下方评论。

    如果觉得本教程对你有所帮助,希望广大学习者能够点赞,收藏,加关注

    祝大家能够开心学习,轻松学习,在学习的路上少一些坎坷~~~

    原文参考链接:(原文可视化效果更好)

    零基础入门转录组上游分析——第二章(数据的准备)

     
    (文/匿名(若涉版权问题请联系我们核实发布者) / 非法信息举报 / 删稿)
    打赏
    免责声明
    • 
    本文为昵称为 aca2**** 发布的作品,本文仅代表发布者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,发布者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们154208694@qq.com删除,我们积极做(权利人与发布者之间的调停者)中立处理。郑重说明:不 违规举报 视为放弃权利,本站不承担任何责任!
    有个别老鼠屎以营利为目的遇到侵权情况但不联系本站或自己发布违规信息然后直接向本站索取高额赔偿等情况,本站一概以诈骗报警处理,曾经有1例诈骗分子已经绳之以法,本站本着公平公正的原则,若遇 违规举报 我们100%在3个工作日内处理!
    0相关评论
     

    (c)2008-现在 All Rights Reserved.