卡方检验


*
选择文件
*
选择文件示例文件
*ProVIP免费
*VIP免费
*当前账户剩余0次

1. 功能:

卡方检验是一种用途非常广泛的计数资料的假设检验方法,它属于非参数检验范畴,使用皮尔逊卡方检验算法进行计算,主要是比较两个及两个以上分组以及两个分类变量的关联性分析,其根本思想就是比较实际观测值与理论推断值的吻合程度或拟合优度问题。该工具可根据输入数据进行两个及两个以上分组的关联性分析。

 

2. 适用范围:

对计数资料进行关联性分析,如想要知道某性状基因在不同癌症中的表达情况是否有显著差异,再比如癌症患者术后复发比例是否与性别、年龄阶段、肿瘤部分、手术方式等因素有关联性等科学问题,面向个体计数进行统计检验。

 

3. 适用条件:

1)随机样本数据

2)卡方检验的理论频数不能太小,两个独立样本比较可以分以下3种情况:

① 所有的理论数T 5,并且总样本量n 40,用pearson卡方检验

② 如果理论数1 T 5,并且n 40,用连续性校正的卡方检验

③ 如果有理论数T 1,或n 40,则用Fisher’s检验

3R×C表的卡方检验应用条件(R 3C 3:

R×C表中理论数T 5的单元格不能超过1/5

② 不能有理论数T 1的单元格

 

4. 输入:

注意:行名为不同分组,列名为分类变量,主要检验某分类变量在不同分组中是否有显著差异。工具支持2×2表、2×c表、r×c表。

例如:

检验某性状基因在不同癌症中的表达情况是否有显著差异

  阳性 阴性
小细胞肺癌 12 24
非小细胞肺癌 56 18

 

如果有多个卡方检验要运行,可以点击“添加文件”,选择要检验的数据即可,本工具支持最多上传20个文件。同时文件上传错误,可以点击“减少文件”,即可删除错误文件。

 

5. 输出:

有两个输出文件,一个为每个检验文件的结果,另一个为所有检验结果的总表,命名为ChisqResults.txt的结果文件。输出文件共有5列,其中

第一列是表格名称

第二列是df,即自由度

第三列是卡方值

第四列是pvalue,它是假阳性的概率值,一般pvalue小于0.05则为显著

第五列是显著性标记,*表示显著(P < 0.05),**表示较显著(P < 0.01),***表示极显著(P < 0.001),---表示不显著(P > 0.05)

 

1. 示例数据

例一:

检验功能基因EPCAM在小细胞肺癌和非小细胞肺癌的基因表达是否有差异。

示例数据:

 

例二:

检验功能基因CEACAM6在小细胞肺癌和非小细胞肺癌的基因表达是否有差异。

示例数据:

 

2. 参数设置

 

3. 结果输出

ChisqResults.txt文件内容如下:

 

分析结果显示,EPCAM基因在两种癌症中的表达没有差异,Pvalue=0.49 > 0.05

CEACAM6基因在两种癌症中的表达有显著差异,Pvalue=1.79e-05 < 0.05.

 

 

Q1. 上传的数据需要保存成什么格式?文件名称和拓展名有没有要求?

 

OmicShare当前支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式,同样支持旧版Excel的xls(Excel 97-2003 )格式。如果是核酸、蛋白序列文件,必须为FASTA格式(本质是文本文件)。

 

文件名可由英文和数字构成,文件拓展名没有限制,可以是“.txt”、“.xlsx”、“.xls”、“.csv”“.fasta”等,例如 mydata01.txt,gene02.xlsx 。

 

Q2. 提交时报错常见问题:

 

1.提交时显示X行X列空行/无数据,请先自查表格中是否存在空格或空行,需要删掉。

2.提交时显示列数只有1列,但表格数据不止1列:列间需要用分隔符隔开,先行检查文件是否用了分隔符。

其它提示报错,请先自行根据提示修改;如果仍然无法提交,可通过左侧导航栏的“联系客服”选项咨询OmicShare客服。

 

Q3. 提交的任务完成后却不出图该怎么办?

 

主要原因是上传的数据文件存在特殊符号所致。可参考以下建议逐一排查出错原因:
(1)数据中含中文字符,把中文改成英文;
(2) 数据中含特殊符号,例如 %、NA、+、-、()、空格、科学计数、罗马字母等,去掉特殊符号,将空值用数字“0”替换;
(3)检查数据中是否有空列、空行、重复的行、重复的列,特别是行名(一般为gene id)、列名(一般为样本名)出现重复值,如果有删掉。
排查完之后,重新上传数据、提交任务。如果仍然不出图,可通过左侧导航栏的“联系客服”选项咨询OmicShare客服。

 

Q4.下载的结果文件用什么软件打开?

 

OmicShare云平台的结果文件(例如,下图为KEGG富集分析的结果文件)包括两种类型:图片文件和文本文件。

图片文件:

为了便于用户对图片进行后期编辑,OmicShare同时提供位图(png)和矢量图(pdf、svg)两种类型的图片。对于矢量图,最常见的是pdf和svg格式,常用Ai(Adobe illustrator)等进行编辑。其中,svg格式的图片可用网页浏览器打开,也可直接在word、ppt中使用。

 

文本文件:

文本文件的拓展名主要有4种类型:“.os”、“.xls”、“.log”和“.txt”。这些文件本质上都是制表符分隔的文本文件,使用记事本、Notepad++、EditPlus、Excel等文本编辑器直接打开即可。结果文件中,拓展名为“.os”文件为上传的原始数据;“.xls”文件一般为分析生成的数据表格;“.log”文件为任务运行日志文件,便于检查任务出错原因。

 

Q5. 提交的任务一直在排队怎么办?

 

提交任务后都需要排队,1分钟后,点击“任务状态刷新”按钮即可。除了可能需运行数天的注释工具,一般工具数十秒即可出结果,如果超出30分钟仍无结果,请联系OS客服,发送任务编号给OmicShare客服,会有专人为你处理任务问题。

 

Q6. 结果页面窗口有问题,图表加载不出来怎么办?

尝试用谷歌浏览器登录OmicShare查看结果文件,部分浏览器可能不兼容。