给大家推荐一篇周老师的文章,见下文:
在之前的一系列群体重测序文章中,我们提到了连锁分析方法的原理,但是,在进行连锁分析前,我们都需要构建作图群体。
这里我们再提出一些在具体构建作图群体的时候,我们可能面临的选择,例如: 该选择杂合亲本还是纯合亲本?亲本表型差异越大越好吗?群体杂交代数怎么选择?群体规模该多大?
… …
实际上,这些参数的确定,决定于我们的构建图谱的目的、物种特性、目标性状的特性以及研究所处的阶段。因为这些因素都是交叉的,无法完全分开来讨论,所以我们罗列一些常见的情况。
我们从构建图谱的目的入手讨论这些问题。一般而言,目前构建图谱的主要目的分为两种情况:
1)辅助将基因组组装到染色体水平;
2)为了进行QTL定位。
虽然,这两个目的也可以是同时进行的,但实际情况下,我们还是有所侧重。
1. 构建图谱为了辅助基因组拼接
对于基因组项目来说,构建遗传图谱的首要目的通常就是辅助基因组拼接,那么这种情况下,我们该注意哪些问题呢?
这类研究的最关键点是:
a. 速度要快——基因组项目等不起;
b. 图谱中标记排序要准;
c. QTL定位倒是一个附带的工作;
所以,对应在这种情况下,我们要选择的策略主要有以下几个。
1.1 确定亲本的时间
尽量在基因组项目启动时就开始确定亲本、构建群体,而不是等基因组完成了才做这个工作。通常在基因组项目项目启动时,会对若干候选品种进行测序评估(例如基因组survey测序或简化基因组测序),了解这些材料的杂合度,彼此间的差异度,预估基因组大小等。实际上这些信息对于挑选构建群体的亲本也非常有帮助。如果手头已经有群体最好不过了,可以节约不少时间。
1.2 选择构建杂交代数较少的群体类型
尽量选择构建杂交代数较少的群体类型,主要目的有两点:
a. 节约时间;
b. 减少偏分离,提高图谱的完整性和准确性。
偏分离主要指的是在作图群体中,染色某些区域的基因型比例偏离期望值。例如,常规的F2群体,任意一个位点的三种基因型应该符合1:2:1,但实际情况下有些位点基因型比例会有非常大的偏差。除了随机因素外,主要原因来自两个方面:
a. 有些位点有致死基因,所以某些基因型的个体无法发育,自然在群体中数量少;
b. 某些基因型对适应性有利,在育种过程中,被更多保留(通常是人为的无意识选择)。例如,我们在之前的玉米QTL分析文章中发现,群体中开花期提前的基因型频率显著高于期望值,这是由于早开花结果的个体更容易被成功收种 [1]。
而用于组装基因组的遗传图谱,我们期望其重组率的计算是准确而无偏的,自然要求采样也是随机而无偏的。但这种偏分离的本质是某些个体被淘汰,则会导致最终的重组率计算出现误差。而且,这种偏分离可能会随着杂交代数的增加会不断加剧。所以,选择F1拟测交或F2群体是更保险的选择。
图1 玉米3号染色体的偏分离情况
1.3 选择亲本的标准
亲本选择的标准,也和作图群体类型相关。上文我们提到,F1拟测交或F2群体产生的遗传图谱比较适合辅助基因组拼接。但这两种群体类型对亲本的要求也有所不同。我们可以比较一下它们的区别。
F2群体
所用到的标记基因型类型为AA(♀) × aa(♂),两个亲本均为纯合;因此,对亲本要求为尽可能纯合,且亲本间要有差异。
F1拟测交群体
所用到的标记基因型类型为AA(♀) × Aa(♂)、Aa(♀) × AA(♂)和Aa(♀) × Aa(♂),两个亲本之一至少有一个杂合。因此,对亲本要求为尽可能杂合。
从以上比较,我们不难发现必须根据群体类型挑选亲本。如果F2群体亲本杂合度太高,或F1拟测交群体亲本杂合度太低,都可能导致可用的分子标记变少,影响最终图谱的标记密度。
另外,两种群体也各有优缺点。F2群体更符合经典的遗传学的研究套路,群体可以继续自交(成为RIL群体)或回交(成为BC群体),为后续的研究达到更多可能。而F1拟测交群体只需要杂交1代,更加节约时间。所以F1拟测交群体一般用于遗传组成高度杂合、或时代间隔非常漫长的林木类、水产类。在实际研究过程中,我们需要根据亲本自身的特点(杂合度)、物种特点(时代间隔)、后续是否还会开展系列研究(精细定位)来选择作图群体的类型。
在此类研究中,遗传图谱在基因组拼接中的作用是辅助进行scaffolds排序。而一个质量较好的基因组,scaffolds N50 可以达到1Mb,那么要求遗传图谱的标记分辨率级别在几百kb的水平就足够了,对应遗传距离通常在1cM左右。要达到这个级别,通常要求作图群体的规模在100~300个个体就足够了(分辨率在0.3~1cM水平)。
2. 构建图谱为了进行QTL定位
如果以QTL定位本身有主要目的,那么我们选择作图群体类型的考虑因素则略有不同。QTL定位的主要原理是分子标记与功能基因的连锁。在《定位精度的决定因素》一节,我们也提到为了提高定位精度,我们期望所用的作图群体有重复的重组,从而提高定位精度,我们可以采取的措施包括:
a. 增加群体规模——当群体足够大,哪怕万分之一概率的重组事件也能发生;
b. 增加杂交世代数——即使杂交一代不重组,多代总是可以提高概率的;
c.减少其他信号的干扰。
群体大小
群体越大,群体中的重组越加充分,从而保证更高的定位精度以及对微效QTL的检测能力。一般认为500个个体是个分水岭。但群体大小低于500个个体的时候,由于Beavis 效应[2],微效QTL无法检测,而主效QTL的效应则被高估。当然,如果你只关心对主效QLT进行初步定位,也可以使用较小的群体(100~200个体),然后再使用回交等策略构建大样本的次级群体进行精细定位也是可行的。参考文章:《大牛是这样玩转遗传图谱的》
图2 作图群体大小与QTL检测功效
群体类型的选择
一般而言,传代越多的群体重组越充分,从而有更好的定位精度。例如RIL群体的定位精度理论上是F2群体的2倍。而回交策略,则可以降低遗传背景的差异度,利用这个原理构建次级群体是QLT精细定位的主要策略。当然,如果你要研究显性效应,那么依然要选择F2群体这样的杂合群体,而不能选择RIL群体这样的纯合群体。
对构建作图群体的介绍就到这里,下一期我们将讲解GWAS分析的方法,感兴趣的朋友可持续关注。
另外,往期群体重测序的文章可戳下面的题目查看:
群体重测序之适应性进化与功能基因定位
群体重测序之突变、分化与适应性选择
群体重测序之连锁分析的方法原理
群体重测序之基因定位精度的决定因素
参考文献:
[1] Liu H, Niu Y, Gonzalez-Portilla P J, et al. An ultra-high-density map as a community resource for discerning the genetic basis of quantitative traits in maize[J]. BMC genomics, 2015, 16(1): 1.[2] Beavis W D. The power and deceit of QTL experiments: lessons from comparative QTL studies[C]//Proceedings of the forty-ninth annual corn and sorghum industry research conference. 1994: 250-266.