查看: 17666|回复: 46

第5期在线交流“转录组测序数据深度挖掘 ”回顾

  [复制链接]

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
422
注册时间
2015.11.23
在线时间
952 小时

宣传达人优秀版主


发表于 2016.1.4 09:58:11 | 显示全部楼层 |阅读模式
第5期在线交流“转录组测序数据深度挖掘”回顾


2015年9月29日,基迪奥在信息交流群(QQ群:67185986)举办了转录组测序数据深度挖掘主题交流,交流的问答整理如下:



交流PPT在此下载:


问1:做鸡的RNA-seq一般测序深度要达到多少呢?
答:RNA-seq 4G数据量足够了,不同物种的编码的基因的数量是很稳定的,一般4~5G数据量足够了。除非是多倍体。


问2:4G就够了,是指每个生物学重复都需要4G是吗?
答:每个生物学重复建议最低2.5 G。


问3:最近公司主推的项目是2.5G,那不是不能满足要求吗?
答:二倍体,对基因表达进行定量,也足够了。另外关于数据量,大家要有个概念:1个样本测7.5 G vs 3个重复,每个重复测 2.5G。 总数据量相同,到底哪个设计更准。 有很多文献报道,将相同的数据量分配到更多的生物重复,最终定量的准确性是更准的。


问4:油菜做RNA-seq做多大数据?
答:油菜4倍体,4~5G也足够,因为大部分项目有生物学重复。


问5:RNA文库构建选择的是什么载体?
答:文库构建没有载体。


问6:怎么去除rRNA?
答:反转为cDNA。

问7:请问合成第二链的时候用到rnase,如何保证不把所有rna酶解掉,只剩下一段作为第二链的引物合成第二链呢?
答:杂交去除rRNA,即使不是100%,只要量足够就可以。


问8:想要做假基因的话,RNA-seq的方法是一样的么?
答:假基因建议使用lncRNA测序。因为假基因可能没有ployA结构,属于 lncRNA范畴。


问9:我想问一下,如何选择测序深度?


问10:请问FPKM是什么?country,strand里面的正负号表示什么?如何计算基因的差异表达倍数?
答:FPKM的定义,可以百度一下;strand里面的正负号表示DNA的正负链;计算基因的差异表达倍数用100除以50 等于2

问11:计算基因的差异表达倍数用100除以50 等于2,不是用log2foldchange或foldchange表示吗?
答:2 取log2 = 1


问12:在注释的时候有注释的就能确定方向,但是不一定有CDS序列,是因为CDS序列要求满足100nt吗?
答:这是人为设定的标准。

问13:TPM和FPKM有什么区别呢?
答:TPM比较复杂,可以理解为tag和transcript,PM意思为每百万reads或fragment。一个是reads,一个是fragment。


问14:趋势分析的适用范围?
答:经典的时序性,有时间梯度或处理梯度的样本,适合趋势分析。如果没有这样的梯度,使用其他聚类方法也是ok的。例如 k-mean。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
有问题请发贴提问
回复

使用道具 举报

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
422
注册时间
2015.11.23
在线时间
952 小时

宣传达人优秀版主


 楼主| 发表于 2016.1.4 10:02:20 | 显示全部楼层
问15:单纯的两组数据对比的就用不了趋势分析了?
答:不能,可以考虑使用共表达,两组趋势,后期数据不好整理。

问16:共表达网络分析有样本数要求吗?
答:网络分析推荐8个样本以上。

问17:网络分析8个样品,包括生物学重复吗?
答:不包括,假如是生物学重复,建议15个样本。

问18:那两组,每组三个生物学重复,可以做网络分析吗?
答:不可以,样本不够。


问19:趋势分析中的富集,是怎么定义?以所有基因为背景数据?
答:是的。

问20:趋势分析要用什么数据呢?
答:趋势分析适用表达量数据,一般使用差异表达的基因。


问21:趋势分析是用差异表达基因的log2foldchange吗?
答:是用FPKM。


问22:趋势分析中的模块是指表达趋势一致的基因集?还是功能分类?
答:表达趋势一致,后面会对这些表达趋势一致的模块进行富集分析。

问23:每个模块多少基因比较好?
答:这不是人为设置的,通过构建网络的过程中,你只能控制大概多少模块。

问24:如果构建的模块有的基因多有的基因少,有利于后续分析吗?
答:模块有大有小,一般太小的模块(例如小于40个基因)会被丢弃。

问25:有上限基因个数吗?
答:并没有。


问26:WGCNA是用什么软件做的?
答:R 包。

问27:可以做蛋白互作吗?
答:不可以,蛋白质谱的表达量信息,不适合WGCNA分析。因为蛋白的表达定量不稳定。

问28:蛋白互作是什么做的?
答:Cytoscape。

问29:WGCNA在芯片中研究比较多吧,RNA-seq做WGCNA好像不太准?
答:那还因为样本数不够,RNA-seq本身定量比芯片准。
有问题请发贴提问
回复 支持 反对

使用道具 举报

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
422
注册时间
2015.11.23
在线时间
952 小时

宣传达人优秀版主


 楼主| 发表于 2016.1.4 10:05:59 | 显示全部楼层
问30:请问实验比对不同时期的转录组,以找差异基因。转录组测序每个样品有3个生学重复,这样不同时期比对的话,怎么比对比较科学?
答:如果是3~4个时期,建议趋势分析。如果5个以上的数据,考虑进行共表达网络分析。


问31:除了趋势分析,还有什么方法可以减少seq后的候选基因?
答:趋势分析一般不是用来减少候选基因。


问32:在使用cufflinks中cuffcompare时,输出的.tracking文件中的转录本好像比在combined.gtf中的转录本多,是为什么呢?
答:这个要看实际的结果,一般情况下仅用来展示两者的相似程度。

问33:但是通过转录本的ID来看,为什么track的文件会比combined.gtf的多呢?
答:track一般把全部的转录本进行比较,combined一般都是过滤后的。

问34:就是说应该以combined的文件为准是吧?
答:是的。

问35:他是以什么样的原则过滤掉的呢?
答:可以参考一下compare的文档。


问36:RNA-seq做平行重复,结果如何分析,一致性要达到多少,才算ok?如果取差异表达基因,是不是挑两次或三次重复中均有变化的?
答:重复的样本的处理,是组间差异分析。


问37:gap填充如果没有填完,还有碱基没有确定,拿这些N是直接在最终的序列中跳过了呢?还是用N表示了?
答:用N表示。


问38:DEseq的标准化方法是什么?
答:有几种。deseq 默认的为上四分位标准化,另外还有TMM 等等。


问39:找到的SNP怎么知道在基因的哪个位置,CDS 或者其他的?
答:做注释,一般都是自己写程序注释SNP的位置。


问40:如果对照和试验组都是取混合样去测序的,后来的验证取每个样验证,这样可以减少混合样测序所产生的没有生物学重复的质疑吗?
答:不能,审稿人会质疑的,关键基因都使用qPCR验证,可以减少质疑。这是统计学的问题,没有重复,你无法说服我,这个结果是否准则。

问41:验证基因如何选择更好?
答:验证你研究关键基因。


问42:转录组测序得到lncRNA的序列,并不是它的全长吗?那定量的时候怎么设计引物呢?能根据测序得到的序列进行设计吗?
答:应该是全长,但由于实验上,测序上各种误差导致有可能不是全长;我们一般会预测一段lncRNA,根据这段序列进行设计引物。


问43:亲本有三种类型,两两杂交得到六种F1类型,每个F1类型内选取不同的极端材料测RNA-seq,相应的亲本也测了,现在找差异基因怎么找?
答:这个问题比较开放。这个实验设计,需要了解生物学背景,具体的讨论,可以与基迪奥技术沟通。


问44:实验组与对照组的样本不是一个批次的,怎样去除批次效应?
答:实验条件要控制好,这很难去除。
有问题请发贴提问
回复 支持 1 反对 0

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
1
注册时间
2016.1.11
在线时间
35 小时

发表于 2016.1.12 20:06:40 | 显示全部楼层
回复

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2016.2.26
在线时间
10 小时

发表于 2016.3.1 11:05:42 | 显示全部楼层
没有视频吗

点评

Sorry,小编没找到这期的视频  发表于 2016.3.1 14:00
回复 支持 反对

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2016.3.1
在线时间
4 小时

发表于 2016.3.7 10:09:54 | 显示全部楼层
谢谢!但奥币就像澳元一样坚挺,我该怎么办?
回复 支持 反对

使用道具 举报

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
422
注册时间
2015.11.23
在线时间
952 小时

宣传达人优秀版主


 楼主| 发表于 2016.3.7 10:13:26 | 显示全部楼层
tom1234 发表于 2016.3.7 10:09
谢谢!但奥币就像澳元一样坚挺,我该怎么办?

勤签到、多回复、多发贴
有问题请发贴提问
回复 支持 反对

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2016.3.14
在线时间
86 小时

发表于 2016.3.15 22:43:28 | 显示全部楼层
RSEM计算完,会出现counts、TPM、FPKM值,我应该选择哪一个值多热图呢?为什么呢?
回复 支持 反对

使用道具 举报

版主

Rank: 10Rank: 10Rank: 10

主题
26
注册时间
2016.1.13
在线时间
255 小时

突出贡献优秀版主


发表于 2016.4.8 19:41:05 | 显示全部楼层
都好高深的!勉强看完了···
回复 支持 反对

使用道具 举报

帝王蝶

Rank: 4

主题
7
注册时间
2016.4.14
在线时间
107 小时

发表于 2016.4.21 22:04:37 | 显示全部楼层
学习了,但是有些还是不懂,继续学习!
回复 支持 反对

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
9
注册时间
2016.4.12
在线时间
62 小时

发表于 2016.4.22 10:19:34 | 显示全部楼层
再小小详细点就更好
加油
回复 支持 反对

使用道具 举报

帝王蝶

Rank: 4

主题
5
注册时间
2016.4.7
在线时间
51 小时

发表于 2016.4.25 08:24:15 | 显示全部楼层
NICE!非常棒,有助于理解相关生物信息问题!
回复 支持 反对

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2016.3.30
在线时间
9 小时

发表于 2016.5.1 18:44:32 | 显示全部楼层
高,深。努力修炼吧~
回复 支持 反对

使用道具 举报

草履虫

Rank: 2

主题
0
注册时间
2016.5.12
在线时间
1 小时

发表于 2016.5.12 12:56:51 | 显示全部楼层
感谢分享资料
回复 支持 反对

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2016.5.5
在线时间
12 小时

发表于 2016.5.13 21:21:53 | 显示全部楼层
感谢分享
回复

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2016.6.6
在线时间
26 小时

发表于 2016.6.7 11:54:32 | 显示全部楼层
谢谢分享
回复

使用道具 举报

草履虫

Rank: 2

主题
1
注册时间
2016.1.8
在线时间
21 小时

发表于 2016.6.7 18:08:10 | 显示全部楼层
谢谢分享~
回复

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
1
注册时间
2016.5.20
在线时间
187 小时

发表于 2016.6.8 10:45:13 | 显示全部楼层
好资源啊 顶起!
加油!中国!
回复 支持 反对

使用道具 举报

帝王蝶

Rank: 4

主题
1
注册时间
2016.6.13
在线时间
202 小时

发表于 2016.6.17 22:16:45 | 显示全部楼层
感谢分享
回复

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2016.6.18
在线时间
38 小时

发表于 2016.6.18 18:34:39 | 显示全部楼层
谢谢分享!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表