问38:转录组文库构建时,插入片段大小重要吗?和PE125或PE150有关系吗? 答:这个影响应该不是特别大。目前来说差别不大,PE125与PE150如果你后期要做可变剪接的话可能会有影响,但如果你做转录组没有太大区别
问39:注释为unknown的是怎么回事?还有的注释为hypothesis? 答:因为本身做注释的话,我们把A 的cDNA比到数据库里面的某个蛋白,这个的话,我们只是做一个文本提取,可能别人数据库里注释出了这个蛋白,但是基因名称那里却写了个unknown,或写了个hypothesis,这只能说当时做注释那人当时就没把配置做好,所以导致的。
问40:无参转录组测序不同倍性的同一物种,可以放到一起进行建库还是不同倍性的单独建库吗? 答:一旦涉及到多倍体样本,这个问题就有些复杂。不同倍性的样本肯定是各自建库的,分析时是否要放在一起,需要依据实际情况而定。
问41:无参的单倍体、二倍体和三倍体的植物转录组测序,在拼接时是按倍性分别拼接好还是不同倍性都拼接到一起比较好?如果分开拼接的话对比是不是有问题? 答:不建议做多倍体的混拼在一起,因为问题可能会很大。本身转录祖拼接的话是希望把它拼成单倍体。有多种倍性的话,那么做拼接的时候是做成单倍体还是三倍体呢。因为后面还要涉及差异分析的问题。所以建议在做实验设计的时候,做倍性相同的,尽量规避开那种倍性不同的个体做分析。比如你做三倍体与四倍体的差异分析,最后的话就很大问题。严谨的角度来说很难解决。比如你装六倍体,装出来的基因到底是2个基因的等位基因还是6个基因的等位基因。特别是那种异源多倍体问题就更大了。 如果是这个项目非做不可的话,建议做单倍体拼接,拼出单倍体的基因型,然后以单倍体做参考来做差异分析,这样的话是比较合理。因为三倍体最后分析肯定会很多冗余。
问42:我们做质谱了但是数据不是很好,蛋白质谱所得数据不一定是我们转录组数据所得的蛋白,这个有没有可能? 答:理论上,无论质谱数据好不好,蛋白数据都是来自样品的蛋白,所以蛋白测的数据不可能会离开转录组的数据。就是蛋白的数据理论上应该跟你转录组的数据是一致的。但如果不一样,那么质谱数据可能是有误差的,当然转录组拼接有没有错误或者翻译有没有错误最后导致你的蛋白无法一一对应,这也有可能。这属于信号检测的问题,而不是生物学问题。所以这是完全是有可能的。
问43:如果测个新物种,应该从什么角度分析呢? 答:这个问题太大了,首先还是根据你的研究目的,比如做中草药,可以做次生代谢通路;如果是做适应性的,找一些热性蛋白等相关基因来讨论等等。
问44:同一个基因的多个转录本一般是聚类之后取最长的作为代表序列,计算表达量是不是还要看所有的转录本? 答:转录组组装一般都是去冗余之后保留最长的一个结果。算表达量的话是最长的转录本。
问45:请问blast结果里这种小写的部分是什么意思?
答:是短重复序列。
问46:公司转录组结果的那个SSR引物设计没有什么打分或者什么的么?设计引物都有几万对了,后期要验证,那怎么选呢? 答:这里不存在打分问题。只是这些SSR有没有多样性问题。如果要验证,建议挑选一些motif比较多的SSR,这样多样性比较好,结果会好一点。另外验证也需要注意一下,因为你做的是转录组,要做验证的话,建议挑选那些有意义的基因去做验证,这样比较好。
问47:除了SSR验证是不是PCR也可以啊? 答:SSR的验证本身就是PCR的过程,然后跑胶。所以这个是包含关系并不是“或”关系。
问48:验证基因个数有没有要求?至少要多少才比较有说服力? 答:验证基因个数一般老师选择为十来个左右,没有固定标准。
问49:PCA图能说明所测样本间的重复性好坏吗?就是如果重复样本在PCA图上离得比较远,反而和另一处理离得比较近,是不是能说明样本重复性不好? 答:是的,的确是重复性不好。首先要看下差异性分析结果好不好,如果差异性分析有很大问题,那么就要考虑做一下调整了,比如把异常样本剔除掉,或调整一些参数或污染问题。
问50:两个重复在PCA上离得很远,但是差异分析R平方值达到了93%以上,怎么解释? 答:不同的计算方法之间会存在偏差,但是一般规律还是一致的。所以建议老师关注下样本中有无特别高表达的基因贡献率较大导致样本PCA偏离。
问51:pca横坐标和纵坐标是指两个主要影响因素吗? 答:是两个最主要的成分。
问52:要确定是哪两个主要成分,是不是要根据样品来分析? 答:两个主要成分以及各自贡献率
问53:那能不能不管PCA了,就认为重复性是可以的? 答:一般情况用PCA,重复性和相关性不是一个概念。
问54:皮尔森系数是不是有很多种计算方法? 答:只有一种计算方法,因为皮尔森只是一个公式而已。如果说是相关系数的计算方法的话,那还有可能有其他方法比如斯皮尔曼相关。
|