查看: 1183|回复: 6

一篇组学文章从设计到文章产出要经历哪些步骤

[复制链接]
  • TA的每日心情
    好棒
    2019.9.2 16:46
  • 签到天数: 99 天

    连续签到: 1 天

    [LV.6]常住居民II

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    378
    奥币
    1008
    积分
    5464
    注册时间
    2018.4.19
    在线时间
    864 小时

    推广达人宣传达人


    发表于 2018.11.26 09:20:56 | 显示全部楼层 |阅读模式
                                                                                                       


    图1 好的实验应该是干、湿结合的
    一篇组学文章,从设计到文章产出,到底要经历什么过程呢?从上面这张图,我们大概可以看出一篇理想文章的构成——既有基于组学大数据挖掘的推导,又有硬核的分子生物学实验验证。但有两点需要补充解释一下:
    (1)   组学挖掘与分子验证并非绝对的上下游关系,在一篇文章中可能是交错进行的,越好的文章结构越复杂,干湿实验可能交错进行。
    (2)   文章讲故事的逻辑,并不等于研究的顺序。在很多我们服务的项目里,科研人员已经找到分子并完成实验了,再补组学测序的数据,只是为了引出故事让文章逻辑更加合理和完整。 分子实验的3大要素,我们的omicshare课堂《转录组测序在临床机制研究中的应用》解析过。虽然用的是医学类研究作为例子,但功能实验的逻辑应该都所有物种都是通用的。

    课程链接:http://www.omicshare.com/class/h ... 6/chpid/18/id2/Mg== 今天,我们重点要讲的是,关于组学数据的部分。


    图2 干实验的3个步骤

    实验设计与组学测序

    先说说实验设计和组学测序。因为测序的下降,现在普通的转录组测序、重测序研究已经日益套路化。当然,第一次做测序的老师,可能对这些套路不是很熟悉。测序服务公司也会通常会给出推荐解决方案,做一些售前指导,所以这个阶段一般可以比较快迈过去。
    当然,一些复杂的实验设计(例如样本数非常多,涉及的组学较多),或者用的组学技术很新(例如,翻译组、10X单细胞),那么这个阶段多花费一些功夫去研究组学实验设计是非常有必要的。例如:
    (1)我该使用什么分析策略
    例如,3~5组时间点的转录组样本,可以采用趋势分析。6组以上,就可以考虑WGCNA分析了。
    (2)涉及组学多
    例如,DNA甲基化、小RNA测序、转录组测序的贯穿,最好一开始就要理解好如何进行贯穿,要绘制什么图形,这样后续拿到数据后不会一脸懵逼,不知道如何下手。
    (3)新技术
    虽然新技术更有利于文章产出,但用一个新技术前,还是要弄清楚目前我实验室的研究基础和实验条件是否与新技术有比较好的契合度。例如,研究翻译组,那么最好前期已有转录调控或蛋白研究的基础了,现在属于再次深入,否则一下子跨度太大,可能会导致难以hold住全新的技术,而发挥不出新技术的优势。
    如果进行10X单细胞研究,那么后期可能是需要进行对目标细胞的分选的,那么要先确定实验室是否有进行相关实验的条件。

    流程分析

    流程分析是一个很尴尬的存在。属于懂的人很简单,不懂的人学习成本极高。因为任何流程分析,都就涉及一些细节参数的调整,有些很专业的细节内容必须深入理解才能做出正确的判断。

    已经有不少云分析平台可以使用界面操作系统,可以使用一系列默认参数完成基础的流程分析,绕开了普通用户不懂命令行操作(例如,linux系统)的难点。
    类似16S多样性分析、普通转录组分析等这样易于实现标准化的流程,用默认参数可以保证95%以上的项目,可以产生正确的结果(例如,我们的omicsmart系统已经可以完成16S多样性自动化的流程分析了)。

    当然,一些异常的情况,例如样本中有污染等,这个时候可能还是专业的分析员来解决更高效一些。

    另外一些分析流程,可能就不适合完全自动化分析,因为需要中间暂停查看结果然后确定下一步的参数。

    例如,遗传图谱构建分群,带有半主观的成分,进行人为判断分选;WGCNA分析的β值需要根据经验人为选择;CHIP-seq进行peak calling的时候,需要根据蛋白结合模式(例如组蛋白或转录因子)选择不同的分析参数;转录组de novo拼接,需要根据组装结果调整k mer深度。
    类似以上的流程,很难完全一套参数通吃所有项目,需要根据经验不断调整。这也解释为什么公司的分析员一般会进行分工,一个人通常只熟悉一部分业务线,而做不到了解所有产品。
    所以流程分析,本质上一个纯生物信息的内容。对大部分不靠生信吃饭的人来说,掌握难度大而应用情境不多,属于学习性价比比较低的知识点。一般情况下,交给靠谱的公司解决就可以了。

    数据解读与个性挖掘

    现在物流、出行等领域流行一个概念“最后1公里”。因为配送、出行到了最后一个阶段,就处于高度个性化的阶段,距离最短却实现难度最大。那么,“数据解读与个性挖掘”在组学项目也属于“最后一公里”,评价一家生信服务公司是否靠谱,也还是看其提供综合的“最后一公里”服务的能力。因为到了这个阶段,需要公司与科研人员的通力合作,才可能会有更好的结果。

    如果纯粹科研人员自己努力,因为数据挖掘经验、代码能力等的欠缺,可能会无从下手。如果纯粹交给公司,因为公司技术人员大部分情况下不是很了解科研人员项目背景细致的生物学问题,不知道哪些东西是对科研人员有用的,哪些是没用的,也很难直接提供对文章直接有用的结论,提供重点突出的table和Figure。
    个性分析的需求点,核心来说是两个词语:准确、快速。

    准确

    方法应该是严谨的,输出的结果能够简洁、精确表述我们在文章期望阐明的论点。很显然,组学数据天然就不是“简洁”的,无论什么方法都会输出一堆结果。最简单的转录组差异分析那一堆差异基因和差异通路,肯定不能一股脑丢到文章里。必须通过一定的逻辑筛选,才可以变成适合在文章中展示的图表。WGCNA分析的结果,是一大堆看起来错综复杂的基因调控关系,必须经过人为的筛选和调整,才能变成对支持文章论点有用的论据。

    快速

    很显然,准确的结果是有用的结果。但大部分情况下,个性分析本身是去打开一个个密封的箱子。在箱子打开前,我们也不知道里面是空的,还是藏着宝藏。所以,试错是必不可少的。很多时候,我们并不知道那个方法,哪个参数会得出理想的结果,那么高效试错,就也越可能得到最优的结果。

    当然,在这一点,公司的诉求和科研人员的诉求就可能形成矛盾。公司当然期望试错越少越好(因为服务是需要成本的),科研人员当然期望试错越多越快(科研的确离不开试错,而发文章又需要赶时间)。如果一家测序公司,一味追求低价而不重视售后,自然是一家应该被唾弃的公司。

    但把测序公司当成保姆,把所有表格整理、修图等都推给测序公司显然也不现实。最好的平衡点,应该是双方通力配合,测序公司做专业擅长的事情,科研人员也力所能及地自己动手,这样才能达到最优、高效的互补性配合。例如常见的个性化分析,还是可以进一步分为两个步骤。

    第一部分可以认为还是流程分析的延伸,针对项目的特定生物学目标,进行整体性的分析。例如,进行eGWAS分析。结果还是生成一系列表和图,对研究可用的信息,将都隐藏在这些结果中。

    在第一部分的结果上,科研人员还需要通过与公司技术人员的交流,从中进一步筛选、挖掘对自己研究特定生物学问题相关的核心信息,进而整理为图表。在这个阶段,因为已经涉及了很具体的生物学问题,所以十分依赖科研人员的深度参与。


    图3 个性分析的两个阶段

    对应以上4种情况下,按照“准确、快速”的原则,也有对应四种最优模式。复杂的定制化分析,对于非生物信息背景的人来说,难以完成,自然需要公司的系统服务。
    而单纯的参数调整,目前已经慢慢有工具可以实现,例如omicsmart这样的在线云分析平台。而后面两个步骤,可以认为是真正的数据探索过程,并不需要很复杂的生信能力,科研人员对这个阶段的知识开展学习,将具有最高的“性价比”。
    例如,对关键数据的进一步解析,主要是一些表格数据。这个时候如果掌握一些R语言知识(R语言可以认为一种最容易上手的程序语言)和基础的数据探索知识,就可以实现快速对数据进行探索(例如,绘制频率直方图查看数据分布,进行统计检验比较差异等)。
    还例如,后期的某些图表,可能只有科研人员自己才能画出最理想的图形。最典型的是基因网络图,大部分情况下,只有科研人员自己才知道哪个基因最重要,应该摆放在图形中间的位置。这个时候,公司提供cytoscape的基础数据文件,科研人员掌握cytoscape的用法并绘图,显然才是最高效的合作方式。

    表1 不同个性分析类型对对应的最优模式


    在纵观回顾,组学数据挖掘的3个步骤,对大部分没有生信背景的科研人员来说,最需要也最值得着眼投入的是整个数据挖掘过程的第三个步骤——数据解读与个性挖掘。


    图4 step3非常依赖双方的配合

    针对这个阶段客户的潜在需求,我们基迪奥生物也在提供一系列便利的工具。例如,利用Omicshare平台提供知识分享(OS forum),在线培训(OS class)和生信小工具(OS tools);提供omicsmart系统,用户可以自己完成基础的参数调整和图形细节调整。当然,很多时候客户也需要线下培训班的面对面交流。

    例如,基迪奥生物马上就要在12月6-7日,广州举行的线下培训班, 《转录组常见图形解释与绘制技巧》,就属于一期面向“数据解读与个性挖掘”需求的现在培训班,在两天一晚高度浓缩的课程中,提供了参数调整(基于omicsmart平台)、R语言培训、网络图绘制(基于cytoscape软件)和后期图形美化等系统的内容。并且参加培训将赠送500元的omichare课堂代金券,便于学员后续可以继续在线上开展学习。

    目前还有培训名额,可以发送邮件到contact@genedenovo.com报名。
    主题:报名培训班;
    内容:姓名+单位+电话。
    咨询电话:020-39341079     18054271626 小圆

    往期培训班现场:



    课表详情:




    本文作者:周老师

                   

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    回复

    使用道具 举报

  • TA的每日心情
    忙~
    2019.7.22 17:21
  • 签到天数: 217 天

    连续签到: 1 天

    [LV.7]常住居民III

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    125
    奥币
    8453
    积分
    3061
    注册时间
    2015.11.12
    在线时间
    743 小时

    推广达人宣传达人论坛元老


    发表于 2018.11.26 11:40:28 | 显示全部楼层
    来撩~
    事在人为~
    回复

    使用道具 举报

  • TA的每日心情
    yes!
    3 小时前
  • 签到天数: 482 天

    连续签到: 1 天

    [LV.9]以坛为家II

    迅猛龙

    Rank: 8Rank: 8

    主题
    13
    奥币
    3203
    积分
    1062
    注册时间
    2016.9.7
    在线时间
    157 小时

    突出贡献


    发表于 2018.11.27 08:19:31 | 显示全部楼层
    回复

    使用道具 举报

  • TA的每日心情
    吃饭
    2019.9.8 16:16
  • 签到天数: 478 天

    连续签到: 1 天

    [LV.9]以坛为家II

    版主

    Rank: 10Rank: 10Rank: 10

    主题
    62
    奥币
    8380
    积分
    3224
    注册时间
    2017.9.21
    在线时间
    306 小时

    突出贡献优秀版主论坛元老


    发表于 2018.11.27 08:45:32 | 显示全部楼层
    优秀!
    回复

    使用道具 举报

  • TA的每日心情
    忙~
    3 小时前
  • 签到天数: 228 天

    连续签到: 5 天

    [LV.7]常住居民III

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    681
    积分
    189
    注册时间
    2018.10.6
    在线时间
    66 小时

    发表于 2018.11.27 09:11:22 | 显示全部楼层
    学习学习
    回复

    使用道具 举报

  • TA的每日心情
    好棒
    2019.9.2 16:46
  • 签到天数: 99 天

    连续签到: 1 天

    [LV.6]常住居民II

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    378
    奥币
    1008
    积分
    5464
    注册时间
    2018.4.19
    在线时间
    864 小时

    推广达人宣传达人


     楼主| 发表于 2018.11.27 09:28:37 | 显示全部楼层
    回复

    使用道具 举报

  • TA的每日心情
    yes!
    3 小时前
  • 签到天数: 255 天

    连续签到: 5 天

    [LV.8]以坛为家I

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    1168
    积分
    125
    注册时间
    2018.10.19
    在线时间
    50 小时

    发表于 2018.11.28 13:47:32 | 显示全部楼层
    学习……
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表