查看: 10206|回复: 37

【视频】第20期OmicShare课堂:有参RNA-seq 从数据比对到reads分配

  [复制链接]
  • TA的每日心情
    忙~
    2019.7.22 17:21
  • 签到天数: 217 天

    连续签到: 1 天

    [LV.7]常住居民III

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    125
    奥币
    8305
    积分
    3056
    注册时间
    2015.11.12
    在线时间
    738 小时

    推广达人宣传达人论坛元老


    发表于 2016.6.22 17:12:35 | 显示全部楼层 |阅读模式
    第20期在线交流
    有参考物种的RNA-seq——从数据比对到reads分配





    RNA-seq
    的定量和差异分析大概需要经历这些步骤:
    我们再回顾一下这些步骤的逻辑:

    1.      获得参考序列
    对于有参考基因组的物种,参考基因组直接下载和使用就ok了。
    但对于没有参考基因组的物种,则需要利用组录组的数据进行组装和注释,从头“原创”参考序列。这部分的内容在我们第18期的Omicshare在线交流课堂有详细解释:
    视频已更新 | 第18期在线交流 Trinity拼接原理与去冗余介绍
    2.      比对
    即将reads比对到参考序列上。在RNA-seq领域,使用最广泛的比对软件就是Bowtie2。哪怕Tophat这个比对软件,也是使用bowtie2作为比对引擎。

    3.      重构转录本
    如果我们使用参考基因组为参考序列。我们期望能够在比对结果中,找到一些新的转录本,新转录本包括:新的可变剪切,新的编码基因,新的lncRNA。尤其对于lncRNA分析,挖掘前人未报到lncRNA往往潜在有巨大的价值。
    重构转录组本(尤其构建新转录本)这个步骤,使用最普遍软件依然是cufflinks。

    4.      Reads count计算
    在比对的基础上,下一步要解决的问题就是计算每个基因(或转录组本)的对应的reads数(即 reads counts)。这个步骤,使用目前使用比较多的软件是cufflinks和RSEM。

    5.      Reads count 的归一化
    将reads count转化为RPKM、FPKM等标准化的表达量值。这个问题在我们13期的Omicshare在线交流课堂中有讨论。
    第13期“基因表达量计算与差异表达分析(上)”【视频】

    6.      差异表达分析
    从图1中,你可能注意到了5和6两个步骤是平行的。差异表达分析的输入数据是reads count,而不是RPKM值。关于差异表达分析的原理,我们在14期的Omicshare在线课堂已经有讨论:
    差异第14期“基因表达量计算和差异表达分析(下)”【视频】
    同时,在我们的OS-tools(http://www.omicshare.com/tools/)中,已经加入了差异分析工具,即使不会R语言,你也可以自己完成差异表达分析。

    7.      差异基因的功能富集分析
    差异基因的GO、KEGG功能富集分析,在我们的OS-tools中也有相应的工具,即时不会编程,你也可以自己完成相应的分析。

    如果掌握以上1~7所有步骤的原理和操作过程,那么你就可以自己完成RNA-seq标准的流程分析了。在图1中,步骤1、5、6、7我们在Omicshare在线课堂中都有讲解过,而2、3、4的过程还没有涉及。本期的在线课堂,就重点讲解这三个步骤涉及的方法、原理。
    我们以目前在有参考基因组的RNA-seq分析中,最主流的分析软件Tophat+ cufflinks为主线,讲解之前没有讲解的三部分内容,以及涉及的相关问题。

    本期课堂的主要内容包括:
    一、比对
    Bowtie2的比对原理是什么?其与普通的DNA比对软件(bwa、SOAP)的区别是什么?

    二、重构转录本
    Cufflinks重构转录本的过程是什么样的?

    三、reads counts的计算
    在reads 分配过程中,要解决的1个关键问题是:对于多重比对的reads,如何将其正确分配给不同的转录本。这里将会解释cufflinks 和 RSEM这两个软件解决这个问题的原理。

    交流时间:2016年6月29日(周三)下午4:00-5:30
    交流嘉宾:周老师

    交流QQ群:425346734

    交流PPT下载:

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    事在人为~
    回复

    使用道具 举报

  • TA的每日心情
    忙~
    2019.7.22 17:21
  • 签到天数: 217 天

    连续签到: 1 天

    [LV.7]常住居民III

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    125
    奥币
    8305
    积分
    3056
    注册时间
    2015.11.12
    在线时间
    738 小时

    推广达人宣传达人论坛元老


     楼主| 发表于 2016.6.22 17:15:44 | 显示全部楼层
    事在人为~
    回复 支持 3 反对 0

    使用道具 举报

  • TA的每日心情
    忙~
    2019.7.22 17:21
  • 签到天数: 217 天

    连续签到: 1 天

    [LV.7]常住居民III

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    125
    奥币
    8305
    积分
    3056
    注册时间
    2015.11.12
    在线时间
    738 小时

    推广达人宣传达人论坛元老


     楼主| 发表于 2016.6.22 17:15:56 | 显示全部楼层
    【在线交流问答整理】

    问1:无参物种能不能重构转录本?
    答:不能。无参物种的转录组序列来源拼接组装的结果,不能再比对的时候再重构转录本。所以无参物种不存在重构转录本问题。

    问2:如果不关心novel transcripts的话,是不是就不用cuffmerge了 ?
    答:可以不用cuffmerge。直接在cuffdiff 那一步使用原始的gtf文件。Cuffmerge是用于将重构完的转录本合并,构成新的gtf,如果完全不关心denovo,从网站上下载原始的gtf文件就可以。

    问3:EBseq 差异分析用的是什么原理?
    答:基本上所有差异分析的软件原理是一样的,一般都基于负二项模型来做差异分析。无论是edgR还是EBseq 等基本原理都是相似的,只是细节上做了一些调整。

    问4:EBseq跟edgeR 结果差很大,应该相信哪一个?
    答:可以选择更符合实验预期的结果。提醒一下,先确认下两个软件的参数是否是一致。

    问5:有参比对到基因组还是转录本?
    答:有参物种有两种选择,1)比对基因组2)比对到转录本,理论上这两种选择的分析结果应该是大同小异的。

    问6:对于参考基因组不好的情况下,选择无参还是有参?
    答:只要有参考基因组,优先推荐使用参考基因组来做分析。对于基因组拼接来说比较难的部分是重复区,基因组装质量不好主要是因为重复序列。基因组编码区的序列无论是杂合率或重复性都比较好,所以相对容易拼接。编码区的组装质量一般较好。所以请优先使用参考基因组。

    问7:通过转录组是否能做基因定位?
    答:不能。基因定位是属于基因DNA层面。根据分子标记做基因定位。而转录本主要做基因调控,为RNA层面的问题。

    问8:转录组找snp 或者编辑位点要去RNA 冗余(duplication)吗?
    答:不需要。重测序的话,的确需要去除PCR导致的冗余。但RNA-seq产生的read 冗余,可能是真实的冗余。这是因为RNA-seq的测序深度大大高于重测序。RNA-seq call SNP要解决的问题主要不是reads 冗余,其主要有2个问题会影响SNP 准确性:
    1)基因编辑,基因编辑的存在会导致很多SNP变异并不是DNA层面的,而是转录过程中修饰导致新的碱基,
    2)RNA-seq存在大量可变剪切,容易导致比对错误而产生很多大量假阳性SNP。如果RNA-seq要call SNP,需要把内含子及外显子边界周围(例如5bp以内)的SNP去除掉,因为这些区域的SNP假阳性比较高。

    问9:请问什么样的转录本分析需要做NR,NT,Swissprot等这些数据库的注释?
    答:注释分为两种情况
    1)一种是trinity拼接的结果,是无参考物种的拼接,所以需要做转录本的注释,做完做NR,NT数据库注释
    2)目前有参物种分析,如果是分析lncRNA,要做长链非编码RNA鉴定,将找到的新的转录本先比对NR等蛋白数据库,先排除找到的转录本是编码基因,有利于后续做lncRNA的鉴定。

    问10:重构转录本是基于基因组数据库中最完整的注释gtf文件做好?还是利用非编码基因和编码基因分开后的gtf文件好?两者的表达情况都想关注。
    答:如果是做定量分析,没有必要把两个gtf文件拆分,可以将两个gtf文件合并分析;如果是差异分析,最好把编码基因与非编码基因分开来做差异分析。
    原因:如果合并分析,基因数太多,意味着做多重检验矫正时,检测次数太多,最终结果会导致FDR校正过于严格,而降低了差异基因的数量,所以做定量的时候可以用合并的gtf,做差异的时候可以分开来做差异,这样会提高数据差异的显著性。

    问11:mapping率低有方法解决吗?
    答:具体情况具体分析,有可能是污染,有可能是参考基因组与测序样本差异过大。

    问12:无参也有可变剪切吗?可靠吗?
    答:目前trinity结果会做聚类,所以在同一聚类簇下面不同的Unigene认为是可变剪切。
    但无参RNA-seq 可变剪切是不可靠的。如果是无参物种,就没有必要关心可变剪切, 关心基因层面的表达量比较现实。

    问13:高倍体物种cuffdiff ,是否需要去除多处比对的序列呢?
    答:多倍体还是建议不要去除多重比对的reads,如果去除可能对结果影响会比较大。因为多重比对reads在多倍体物种中比较普遍,应该让软件来分配。另外,高倍体是指的同源四倍体还是异源多倍体,如果是异源多倍体,那么多重比对的序列还是比较少的。当然如果是同源多倍体也就不存在多重比对的问题了。

    问14:RIP测序reads长度可以选择29nt吗?
    答:当然可以。目前主要情况是一般不会做29nt测序,其实是做50nt数据,只是测完以后会从50nt数据中去掉接头序列。

    问15:转录组测序里面如果有污染的话怎么去除?是比对前可以去除还是注释后才能去,如果是注释后去除,原始reads文件怎么把这部分reads挑出来?
    答:比对病毒库或者细菌库,把潜在的污染或核糖体RNA去除后,再做分析。

    问16:用Rsem做mapping计算count和用HTseq从tophat mapping结果算count有什么区别吗?
    答:Rsem方法是会考虑多重比对的reads,而HTseq这个软件应该只用的是唯一比对的reads,所以两种方法从根本上是不一样的。两种方法计算的结果差距会比较大。尤其是计算不不同转录本的表达量,HTseq会过滤掉很多reads。

    问17:cuffdiff 参数-u -u/--multi-read-correct use 'rescue method' formulti-reads [ default:  FALSE ]这个方案是什么?
    答:在默认情况下,cuffdiff采用平均分配。只有这个参数选择TRUE的情况下,软件会根据不同转录本潜在表达量的高低重新分配多重比对的reads。

    问18:计算差异倍数的时候,一个基因的表达量为0,怎么计算差异倍数?
    答:可以将表达量低的基因赋一个极小值,再进行分析,这样不会影响后续分析。

    问19:拼接结果中出现了好多小于测序片段150bp的高丰度转录本基因(100bp左右),还有匹配到线粒体tRNA上的,这种情况可能吗?
    答:这是完全存在的。trinity拼接并不是用150bp的读长来做拼接,而是将读长拆成更小的kmer来做拼接,很有可能kmer拆掉以后就装不回去,所以是可能出现片段长度比reads更短,这是合理的。
    出现很多高丰度的小转录本,这个问题很难回答, 可以考虑将这些小转录本比对到NR 或NT库,看下这些小转录本是什么东西,再做判断。先排除下是否是污染,然后排除是不是核糖体RNA。

    问20:edgeR 和cuffdiff 差异基因数目差好多,cuffdiff较多一点。为什么?
    答:两个软件的模型不完全一样,而且可能是由于分析的时候,使用的软件参数不同,结果自然也不同。

    问21:在测序的时候可以不进行打断直接测序吗?会有差别吗?
    答:illumina的方法不能测超过1K的片段,所以必须打断后测序。

    问22:比对到基因组上,有选no-novel-transcripts的话,cufflinks算的FPKM会包括Intron的reads吗?
    答:gtf文件规定一个基因是哪些区域,那就回用gtf规定的区域来做比对,所以如果gtf区域中的Intron区,不会计入表达量。

    问23:lncRNA 测序结果显示几乎都是假基因,这样的结果可信吗?
    答:假基因其实是失活的编码基因,也是有调控功能的。比如人类基因组里面很有名的PTEN基因就有多个同源的假基因。假基因也是lncRNA的一部分,所以不存在不可信的问题。只是说假基因表达量比较高,存在怎样的生物学问题。比如假基因虽然不表达,但是依然可以结合microRNA,所以可以通过ceRNA作用来影响原来功能基因。所以假基因是有功能的,如果丰度高还是可以关注。

    问24:同一物种不同时期测的转录本定量结果需要满足什么条件才能进行它们之间的表达量比较?
    答:没有特别规定,不同时期的转录本理论上都是可以做差异表达,唯一问题,如果是不同组织或不通时期差异特别大的样本,对应的细胞中total RNA总量差别比较大,但是这个问题在edgeR或者EBseq里面是可以做校正的(一般使用中位数做校正)。所以即使不同组织样本总RNA差别比较大依然可以做差异分析,没有太多问题。

    问25:有没有什么好的方法来评价一个软件的转录本组装定量结果?不同的软件有时差异好大。
    答:目前没有特别好的方法评价转录本定量结果,建议还是做qPCR定量会比较好。

    问26:tophat 比对打断是随机打断的吗 有没有偏好性?片段大少是??
    答:是移动式打断的,没有偏好。比如100bp片段会从5’开始,先拆3bp,如果比对不上再拆3个,这样依次拆分,可以理解为随机打断或者遍历式打断。把所有可能的断裂位点都拆分,是没有偏好的。

    问27:关注的基因fpkm值很大,但是差异倍数接近但是不到2倍,看文章中一般筛选差异基因标准都是2倍,该怎么解决呢
    答:2倍只是一个经验值,不用抱教条。如果你的关注的基因只有1.5或1.8倍差异也是合理的,可以将阈值修改降低。

    问28:无参转录组可以确定哪些是多拷贝,哪些是单拷贝基因?
    答:可以分析,但结果并不十分可靠。例如,“单拷贝基因”可能是由于其他家族成员没有表达的多拷贝基因。而“多拷贝基因”也可能是多个可变剪切被重复组装的单拷贝基因。尽管如此,我们依然会使用无参转录组的结果进行基因拷贝数分析,进而进行比较转录组分析,只是误差会比较大。
    事在人为~
    回复 支持 2 反对 0

    使用道具 举报

  • TA的每日心情
    忙~
    2018.5.15 08:35
  • 签到天数: 150 天

    连续签到: 1 天

    [LV.7]常住居民III

    版主

    Rank: 10Rank: 10Rank: 10

    主题
    15
    奥币
    4814
    积分
    2760
    注册时间
    2016.4.20
    在线时间
    383 小时

    突出贡献优秀版主论坛元老


    发表于 2016.6.22 18:06:21 | 显示全部楼层
    报名报名
    回复

    使用道具 举报

  • TA的每日心情

    2017.2.26 13:29
  • 签到天数: 218 天

    连续签到: 1 天

    [LV.7]常住居民III

    迅猛龙

    Rank: 8Rank: 8

    主题
    10
    奥币
    2970
    积分
    1192
    注册时间
    2016.4.7
    在线时间
    213 小时

    活跃会员突出贡献论坛元老


    发表于 2016.6.22 19:52:29 来自手机 | 显示全部楼层
    我也要报名
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2017.2.26 13:29
  • 签到天数: 218 天

    连续签到: 1 天

    [LV.7]常住居民III

    迅猛龙

    Rank: 8Rank: 8

    主题
    10
    奥币
    2970
    积分
    1192
    注册时间
    2016.4.7
    在线时间
    213 小时

    活跃会员突出贡献论坛元老


    发表于 2016.6.22 19:52:51 来自手机 | 显示全部楼层
    什么时候讲啊?明天?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    yes!
    9 小时前
  • 签到天数: 788 天

    连续签到: 9 天

    [LV.10]以坛为家III

    中华鲟

    Rank: 5Rank: 5

    主题
    7
    奥币
    2802
    积分
    960
    注册时间
    2016.4.8
    在线时间
    332 小时

    最佳新人


    发表于 2016.6.22 20:17:36 | 显示全部楼层
    回复

    使用道具 举报

  • TA的每日心情

    2018.8.15 10:33
  • 签到天数: 245 天

    连续签到: 1 天

    [LV.8]以坛为家I

    中华鲟

    Rank: 5Rank: 5

    主题
    13
    奥币
    1657
    积分
    791
    注册时间
    2016.4.28
    在线时间
    134 小时

    发表于 2016.6.22 23:26:22 | 显示全部楼层
    看来 我们的 大基迪奥要出大招了
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    yes!
    5 天前
  • 签到天数: 48 天

    连续签到: 1 天

    [LV.5]常住居民I

    中华鲟

    Rank: 5Rank: 5

    主题
    3
    奥币
    788
    积分
    879
    注册时间
    2016.4.22
    在线时间
    35 小时

    发表于 2016.6.23 09:27:50 | 显示全部楼层
    回复

    使用道具 举报

  • TA的每日心情
    好棒
    2018.10.30 09:38
  • 签到天数: 193 天

    连续签到: 1 天

    [LV.7]常住居民III

    版主

    Rank: 10Rank: 10Rank: 10

    主题
    26
    奥币
    3357
    积分
    1566
    注册时间
    2016.1.13
    在线时间
    252 小时

    突出贡献优秀版主


    发表于 2016.6.23 10:30:19 | 显示全部楼层
    这是要把我们都培养成可以独当一面的!!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2016.8.8 09:06
  • 签到天数: 53 天

    连续签到: 1 天

    [LV.5]常住居民I

    帝王蝶

    Rank: 4

    主题
    13
    奥币
    1619
    积分
    492
    注册时间
    2016.1.14
    在线时间
    99 小时

    发表于 2016.6.23 14:29:39 | 显示全部楼层
    太赞了,万分期待,给基迪奥点赞!!
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    草履虫

    Rank: 2

    主题
    1
    奥币
    457
    积分
    12
    注册时间
    2016.1.15
    在线时间
    3 小时

    发表于 2016.6.23 15:43:45 | 显示全部楼层
    ting ting ha
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    吃饭
    10 小时前
  • 签到天数: 767 天

    连续签到: 1 天

    [LV.10]以坛为家III

    版主

    Rank: 10Rank: 10Rank: 10

    主题
    18
    奥币
    4118
    积分
    1277
    注册时间
    2016.5.11
    在线时间
    385 小时

    发表于 2016.6.24 08:54:45 | 显示全部楼层
    赞赞赞
    回复

    使用道具 举报

  • TA的每日心情
    yes!
    5 天前
  • 签到天数: 48 天

    连续签到: 1 天

    [LV.5]常住居民I

    中华鲟

    Rank: 5Rank: 5

    主题
    3
    奥币
    788
    积分
    879
    注册时间
    2016.4.22
    在线时间
    35 小时

    发表于 2016.6.24 17:59:08 | 显示全部楼层
    回复

    使用道具 举报

  • TA的每日心情
    忙~
    2019.8.2 18:21
  • 签到天数: 684 天

    连续签到: 1 天

    [LV.9]以坛为家II

    帝王蝶

    Rank: 4

    主题
    1
    奥币
    1737
    积分
    392
    注册时间
    2016.1.9
    在线时间
    186 小时

    发表于 2016.6.26 11:36:49 | 显示全部楼层
    大赞 期待大招
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    yes!
    5 天前
  • 签到天数: 48 天

    连续签到: 1 天

    [LV.5]常住居民I

    中华鲟

    Rank: 5Rank: 5

    主题
    3
    奥币
    788
    积分
    879
    注册时间
    2016.4.22
    在线时间
    35 小时

    发表于 2016.6.27 08:55:43 | 显示全部楼层
    回复

    使用道具 举报

  • TA的每日心情
    yes!
    2018.4.10 17:18
  • 签到天数: 55 天

    连续签到: 1 天

    [LV.5]常住居民I

    钵水母

    Rank: 3Rank: 3

    主题
    7
    奥币
    628
    积分
    150
    注册时间
    2016.5.5
    在线时间
    32 小时

    发表于 2016.6.28 13:34:53 | 显示全部楼层
    太赞了,万分期待,给基迪奥点赞!!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    yes!
    2018.11.7 18:19
  • 签到天数: 18 天

    连续签到: 2 天

    [LV.4]偶尔看看III

    草履虫

    Rank: 2

    主题
    2
    奥币
    686
    积分
    38
    注册时间
    2016.1.8
    在线时间
    8 小时

    发表于 2016.6.28 15:11:35 | 显示全部楼层
    期待ing
    回复

    使用道具 举报

  • TA的每日心情
    好棒
    2018.7.20 20:12
  • 签到天数: 116 天

    连续签到: 1 天

    [LV.6]常住居民II

    帝王蝶

    Rank: 4

    主题
    5
    奥币
    34
    积分
    294
    注册时间
    2016.1.6
    在线时间
    105 小时

    发表于 2016.6.28 15:13:59 | 显示全部楼层
    赞,赶快占楼~
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    yes!
    2018.4.11 20:06
  • 签到天数: 233 天

    连续签到: 1 天

    [LV.7]常住居民III

    帝王蝶

    Rank: 4

    主题
    0
    奥币
    1040
    积分
    262
    注册时间
    2016.5.26
    在线时间
    82 小时

    发表于 2016.6.28 15:33:29 | 显示全部楼层
    报名
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表