1. 功能:解决数据表中量纲和数量级不同的问题,可将数据缩小到某一范围。
2. 输入:表格数据,待归一化/标准化的原始数据,格式为txt, xls, csv, xlsx。例如,可对转录组表达量数据或代谢组丰度数据进行归一化/标准化等。
3. 参数:
是否包含行名或者列名:选择数据是否包含行名或列名,还是都包含。保证数据可以准确计算。
处理方向:选择行或列,告诉计算机归一化/标准化的处理数据的方向。
处理方法:选择用哪种算法对数据处理。工具提供8种算法,分别是 Min-max归一化 / mean归一化 / z-score标准化 / Pareto归一化 / 中心值法 / log2(X) / log10(X) / log10(X-max)
(1)Min-max归一化
可将数据归一化在 [0, 1] 范围,在不涉及距离度量、协方差计算、数据不符合正态分布(高斯分布)的时候,可以使用该方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0, 255]的范围。
(2)mean归一化
可将数据归一化在 [-1, 1] 范围,应用场景与Min-max归一化相似。
(3)z-score标准化
μ指变量均值,σ指变量标准差,数据范围在实数内,在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候、或者数据符合近似正态分布的时候,该方法表现更好。
(4)帕莱托归一化
σ指变量标准差,数据范围在实数内,该方法相比于z-score方法更接近于原始数据,但缺点是对变化倍数大的变量更敏感,在代谢组数据分析中比较常见。
以上4种方式也可以叫做线性函数归一化,将他们化简为y=ax+b的形式后,a和b都是常数。
(5)中心值法
中心化就是数据平移的过程,平移后所有数据的中心是(0,0),均值为0,同时中心化后的数据对向量也容易描述,因为是以原点为基准的。该方法与标准化的区别就是中心化的目的是增加基向量的正交性,标准化的目的是消除特征之间的差异性。
(6)log变换
经常使用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。根据数据分布的情况,决定非线性函数的曲线。
什么时候用归一化?什么时候用标准化?
(1)如果对输出结果范围有要求,用归一化。
(2)如果数据较为稳定,不存在极端的最大最小值,用归一化。
(3)如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响。例如绘制热图,使用z-score标准化就可以了。
4. 输出:
两种后缀不同的格式:.txt / xls格式
Q1. 上传的数据需要保存成什么格式?文件名称和拓展名有没有要求?
OmicShare当前支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式,同样支持旧版Excel的xls(Excel 97-2003 )格式。如果是核酸、蛋白序列文件,必须为FASTA格式(本质是文本文件)。
文件名可由英文和数字构成,文件拓展名没有限制,可以是“.txt”、“.xlsx”、“.xls”、“.csv”“.fasta”等,例如 mydata01.txt,gene02.xlsx 。
Q2. 提交时报错常见问题:
1.提交时显示X行X列空行/无数据,请先自查表格中是否存在空格或空行,需要删掉。
2.提交时显示列数只有1列,但表格数据不止1列:列间需要用分隔符隔开,先行检查文件是否用了分隔符。
其它提示报错,请先自行根据提示修改;如果仍然无法提交,可通过左侧导航栏的“联系客服”选项咨询OmicShare客服。
Q3. 提交的任务完成后却不出图该怎么办?
主要原因是上传的数据文件存在特殊符号所致。可参考以下建议逐一排查出错原因:
(1)数据中含中文字符,把中文改成英文;
(2) 数据中含特殊符号,例如 %、NA、+、-、()、空格、科学计数、罗马字母等,去掉特殊符号,将空值用数字“0”替换;
(3)检查数据中是否有空列、空行、重复的行、重复的列,特别是行名(一般为gene id)、列名(一般为样本名)出现重复值,如果有删掉。
排查完之后,重新上传数据、提交任务。如果仍然不出图,可通过左侧导航栏的“联系客服”选项咨询OmicShare客服。
Q4.下载的结果文件用什么软件打开?
OmicShare云平台的结果文件(例如,下图为KEGG富集分析的结果文件)包括两种类型:图片文件和文本文件。
图片文件:
为了便于用户对图片进行后期编辑,OmicShare同时提供位图(png)和矢量图(pdf、svg)两种类型的图片。对于矢量图,最常见的是pdf和svg格式,常用Ai(Adobe illustrator)等进行编辑。其中,svg格式的图片可用网页浏览器打开,也可直接在word、ppt中使用。
文本文件:
文本文件的拓展名主要有4种类型:“.os”、“.xls”、“.log”和“.txt”。这些文件本质上都是制表符分隔的文本文件,使用记事本、Notepad++、EditPlus、Excel等文本编辑器直接打开即可。结果文件中,拓展名为“.os”文件为上传的原始数据;“.xls”文件一般为分析生成的数据表格;“.log”文件为任务运行日志文件,便于检查任务出错原因。
Q5. 提交的任务一直在排队怎么办?
提交任务后都需要排队,1分钟后,点击“任务状态刷新”按钮即可。除了可能需运行数天的注释工具,一般工具数十秒即可出结果,如果超出30分钟仍无结果,请联系OS客服,发送任务编号给OmicShare客服,会有专人为你处理任务问题。
Q6. 结果页面窗口有问题,图表加载不出来怎么办?
尝试用谷歌浏览器登录OmicShare查看结果文件,部分浏览器可能不兼容。