查看: 849|回复: 7

[转录组] 当研究的物种无参时,我们该怎么分析

[复制链接]
  • TA的每日心情
    忙~
    2019.12.2 17:10
  • 签到天数: 1 天

    连续签到: 1 天

    [LV.1]初来乍到

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    45
    奥币
    106
    积分
    459
    注册时间
    2019.7.8
    在线时间
    94 小时

    发表于 2019.10.25 10:37:38 | 显示全部楼层 |阅读模式
    随着测序时代的快速发展,已经有越来越多物种的参考基因组被研究出来,有了参考基因组,各个组学我们都可以进行尝试,对生物的生长发育疾病衰老等密码进一步进行解密。然而,世界上的物种繁多,依然有很多物种的基因组秘密没有被解开,那么这种情况下,我们该怎么进行研究呢?

    在众多的组学中,最经济实惠的方法,就是测转录组了。相比于基因组动辄上万的价格,转录组的价格就显得亲民很多,非常适合没有参考基因组的物种进行组学的入门研究。既可以获得物种的参考序列信息,也可以对不同样本进行差异分析,研究实验处理背后的生物学规律。那么无参转录组怎么进行研究呢,我们可以一起来看一下。

    1.获得参考序列

    对于没有参考基因组的物种,我们首先需要获得参考序列,这样才能进一步了解各个样本的表达量情况。我们会利用Trinity软件[1]对测序的reads进行组装,组装后我们就能获得该物种的参考序列即unigene啦。

    当然,组装之后并不是万事大吉了,通常我们还会评估一下组装的好坏,一般来说,我们认为组装出来的unigene数量在10万以内,N50的长度大于1000即为比较合理的参考,但是这是个经验值,有些物种的参考基因组庞大,又或者比较复杂,组装出的基因可能会超过10万,这也是非常正常的情况。

    因此,有人研究出了评估组装完整性的软件,如BUSCO、QUAST等,在转录组中应用的较多的软件是BUSCO[2],它利用直系同源数据库构建了保守的单拷贝直系同源基因集(详细说明可以戳这里查看☞),通过比对这些保守的基因,查看组装是否完整。做完这一步,我们就可以往后进行分析啦。


    图1 busco结果图


    2.参考序列的注释

    当我们获得unigene之后,得到的只是序列信息,如果想要了解更多,就需要多这些unigene进行注释,最常用的就是NR、KEGG、SwissProt和COK/KOG这四大数据库了,Nr,SwissProt是两个著名的蛋白数据库,其中SwissProt是经过严格筛选去冗余的,COG/KOG是对基因进行直系同源分类的数据库,而KEGG是系统分析基因产物在细胞中的代谢途径以及这些基因产物的功能的数据库。

    此外,根据NR的注释信息我们可以获得得到GO数据库的功能注释。这些数据库都可以帮助我们了解unigene的功能,从而找出关键的unigene。

    当然,这些数据库都是非常基础的数据库,基因的功能是非常广泛的,因此现在也有非常多专门研究某一类型的数据库,如研究转录因子的TF数据库(植物plant TFdb/动物animal TFdb)、研究蛋白结构域的Pfam、SMART数据库、研究跨膜螺旋结构的TMHMM数据库、研究信号肽结构的SignalP数据库等,这些各种各样的数据库满足了我们对基因功能挖掘的需求。


    图2 四大数据库注释韦恩图


    3.序列分析

    由于没有参考基因组,对于序列的分析并不多,常见的分析就是挖掘unigene上的CDS序列、寻找unigene的SSR以及SNP的查找。预测了CDS序列之后,将CDS序列翻译得到的氨基酸序列作为参考,还可以进一步做蛋白组的测序,检测出的蛋白结果会比直接做蛋白组更加的准确。

    Unigene上的SSR可以帮助我们进行标记筛选,找出关键的unigene。而SNP由于没有参考基因组,准确性会相对低,因此不太建议无参转录组分析SNP。

    4.差异分析

    转录组分析的重头戏之一就是差异分析了,我们已经获得了参考序列之后,就可以了解每个样本中unigene的表达量了,当有了表达量信息之后,就可以进行差异分析了。

    由于各种客观情况的存在,可能会有没有生物学重复的差异分析,我们对不同情况选择不同的软件进行分析,在有生物学重复的时候,会选择用DESeq2进行差异分析;而在没有生物学重复的时候,就选择edgeR进行差异分析。


    表1.差异分析软件


    5.蛋白互作网络分析与GSEA分析

    由于基因与基因之间会有互作关系,而通常我们会利用到string数据库帮助我们进行研究,但是,当我们研究的物种没有收录在string数据库,该怎么办呢?

    我们可以将研究物种中的unigene用blastx比对到string数据库中包含的参考物种的蛋白质序列上,然后再利用比对上的该参考物种的蛋白质互作关系构建互作网络,这样就能够获得蛋白互作网络图啦。


    图3 蛋白互作网络图




    除此之外呢,功能分析一直是大家研究的重点所在,但是当我们的差异分析结果很少的时候,通过传统的超几何检验的富集分析得到结果可能会很少,甚至没有结果。因此,为了能帮助大家更好的找到研究目标,我们特意增加了GSEA的富集分析。

    GSEA的方法能够有效弥补传统富集分析对微效基因的有效信息挖据不足等问题,更为全面地对某一功能单位(通路、GO term或其他)的调节作用进行解释。如果对GSEA的原理非常感兴趣的小伙伴们,可以听一下周老师的在线课堂哦~(点击链接:http://www.omicshare.com/class/home/index/singlev?id=46


    图4. GSEA富集结果


    看了这么多,是不是心动了呢,基迪奥无参转录组流程更新,上面介绍到的分析内容统统都有,如果有意向做转录组的朋友们,赶紧联系我们吧~



    图5 无参转录组分析流程



    参考文献

    [1]Grabherr M G, Haas B J, Yassour M, et al. Full-length transcriptome assembly from RNA-Seq data without a reference genome[J]. Nature biotechnology, 2011, 29(7): 644.

    [2] Simão F A, Waterhouse R M, Ioannidis P, et al. BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs[J]. Bioinformatics, 2015, 31(19): 3210-3212.



    本文作者:基迪奥-半夏

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    回复

    使用道具 举报

  • TA的每日心情
    no
    2019.10.30 23:34
  • 签到天数: 61 天

    连续签到: 1 天

    [LV.6]常住居民II

    钵水母

    Rank: 3Rank: 3

    主题
    2
    奥币
    13
    积分
    177
    注册时间
    2017.5.24
    在线时间
    35 小时

    发表于 2019.10.25 11:20:57 | 显示全部楼层
    66
    回复

    使用道具 举报

  • TA的每日心情
    吃饭
    14 小时前
  • 签到天数: 41 天

    连续签到: 25 天

    [LV.5]常住居民I

    中华鲟

    Rank: 5Rank: 5

    主题
    2
    奥币
    520
    积分
    655
    注册时间
    2019.10.25
    在线时间
    24 小时

    发表于 2019.10.27 09:29:24 | 显示全部楼层
    好贴,收藏了
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    害羞
    12 小时前
  • 签到天数: 678 天

    连续签到: 2 天

    [LV.9]以坛为家II

    迅猛龙

    Rank: 8Rank: 8

    主题
    26
    奥币
    3972
    积分
    1748
    注册时间
    2016.1.8
    在线时间
    417 小时

    发表于 2019.10.28 14:05:15 | 显示全部楼层
    哈哈  GESA  GSAE 正文错别字比较多呢
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    忙~
    2019.12.2 17:10
  • 签到天数: 1 天

    连续签到: 1 天

    [LV.1]初来乍到

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    45
    奥币
    106
    积分
    459
    注册时间
    2019.7.8
    在线时间
    94 小时

     楼主| 发表于 2019.10.28 14:20:47 | 显示全部楼层
    platove 发表于 2019.10.28 14:05
    哈哈  GESA  GSAE 正文错别字比较多呢

    感谢提醒,已经更正啦!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    害羞
    12 小时前
  • 签到天数: 678 天

    连续签到: 2 天

    [LV.9]以坛为家II

    迅猛龙

    Rank: 8Rank: 8

    主题
    26
    奥币
    3972
    积分
    1748
    注册时间
    2016.1.8
    在线时间
    417 小时

    发表于 2019.10.29 14:10:34 | 显示全部楼层
    基迪奥-miko 发表于 2019.10.28 14:20
    感谢提醒,已经更正啦!

    666
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    害羞
    12 小时前
  • 签到天数: 678 天

    连续签到: 2 天

    [LV.9]以坛为家II

    迅猛龙

    Rank: 8Rank: 8

    主题
    26
    奥币
    3972
    积分
    1748
    注册时间
    2016.1.8
    在线时间
    417 小时

    发表于 2019.10.29 14:12:03 | 显示全部楼层
    基迪奥-miko 发表于 2019.10.28 14:20
    感谢提醒,已经更正啦!

    好像改错了
    正确的单词是GSEA # Gene Set Enrichment Analysis
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    忙~
    2019.12.2 17:10
  • 签到天数: 1 天

    连续签到: 1 天

    [LV.1]初来乍到

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    45
    奥币
    106
    积分
    459
    注册时间
    2019.7.8
    在线时间
    94 小时

     楼主| 发表于 2019.10.29 16:54:34 | 显示全部楼层
    platove 发表于 2019.10.29 14:12
    好像改错了
    正确的单词是GSEA # Gene Set Enrichment Analysis

    感谢指正!我自己也是个小白大神们的文章也看的一知半解,还需要学习!
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表