方差分析及其在Excel、SPSS中的应用
1.什么是方差分析?
方差分析(ANOVA)指通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
方差分析中,所要检验的对象称为因素或因子,因素的不同表现称为水平。如下图,行业即为因素,零售业、旅游业、航空公司和家电制造业是行业的4个水平。
例题1:以下为4个行业在一年中各自的投诉次数,一般而言,收到投诉的次数越多,说明服务质量越差。消费者协会想知道这几个行业之间的服务质量是否有显著差别。(α=0.05)
2.方差分析的基本原理
方差分析是通过对数据误差来源的分析来判断不同总体的均值是否相等,从而检验分类型自变量对数值型因变量的影响是否显著。即因变量的总误差中,除开随机误差以外,是否有分类型自变量造成的系统误差,这个误差有多大。
数据中的总误差=系统误差+随机误差。而在方差分析中,我们将其转变为:总误差(SST)=组内误差(SSE)+组间误差(SSA)。
组内误差即水平内部的误差,只包含随机抽样造成的随机误差;组间误差是不同水平之间的误差,既包括系统误差,也包括随机误差。
3.方差分析的分类
单因素方差分析:一个分类型自变量
双因素方差分析:两个分类型自变量。可分为:一、无重复双因素方差分析:只考虑主效应,而不考虑交互效应;二、可重复双因素方差分析:考虑主效应,也考虑交互效应。
交互效应指除自变量对因变量单独造成的影响外,还有可能是自变量的组合对因变量造成影响。例如图1-2,除了地区与品牌分别对销售量造成影响外,地区与品牌的搭配是否也会产生影响,此即交互效应。
4.方差分析的基本假定
①独立性:要求每个样本数据来自不同处理的独立样本
②正态性:要求每个处理对应的总体都应该服从正态总体分布。
检验方法:P-P图、Q-Q图、Shapiro-Wilk检验(适合3-50的小样本)、K-S检验
③方差齐性:各个处理的总体方差必须相等
检验方法:箱线图、残差图、Levene方差检验(原假设为各处理总体方差相等)
tips:方差分析对方差齐性要求实际较弱,略有不齐时,对分析的结果影响不是很大,尤其是当各处理的样本量相同时,方差分析对方差齐性是稳健的。
(此处引用:莫小艾莫家《方差分析以及如何用SPSS实现单因素、双因素方差分析》https://blog.csdn.net/Moxiaoaijing/article/details/81079990)
5.单因素方差分析在Excel中的应用
以例题1为例:
(1)提出假设
(2)EXCEL中的操作
步骤1:依次点击[数据]-[数据分析]-[方差分析:单因素方差分析]
步骤2:依次操作[输入区域]、[α值]、[输出区域]
步骤3:点击确定后得到以下输出结果:
6.单因素方差分析在SPSS中的应用
(1)方法一
步骤1:录入数据(行业中的1、2、3、4分别代表零售业、旅游业、航空公司和家电制造业)
步骤2:依次选择[分析]-[比较平均值]-[单因素ANOVA检验]
步骤3:将“数据”放入[因变量列表],分类型变量“行业”放入[因子]
步骤4:点击[选项],在对话框中勾选[描述]、[方差齐性检验]和【平均值图】
说明:【描述】输出因变量的描述统计内容,包括样本容量、平均数、标准差、均值的标准误差、最小值、最大值、95%的置信区间。
【方差齐性检验】输出分组方差齐性检验的Levene统计量,以检验各个总体的方差是否相等。
【固定与随机效应】显示标准离差和误差检验。
【平均值图】表示输出各水平下因变量均值的折线图。
步骤5:点击【事后比较】,在对话框中勾选【LSD】、【图基(Turkey HSD)】和【邓肯(Duncan)】
说明:【事后比较】对应方差分析中的多重比较。在方差分析结果中,若各均值不相等,但究竟是哪些均值不相等,还需进一步进行多重比较分析,以确定是哪些均值之间存在差异。
以下对SPSS中的【事后比较】选项(多重比较方法)中常用的三项作出简要说明:
【LSD】最小显著差异法,用t检验完成各组均值之间的两两比较,适用于研究者事先就已经计划好要对某对或某几对均值进行比较,不管方差分析的结果如何都要进行比较。
【图基】可靠显著差异法,用Student极差统计量对所有组间进行配对比较。适用于研究者并未事先计划进行多重比较,只是在方差分析拒绝原假设后,才需要对任意两个处理的均值进行比较。
【邓肯】修复极差法,使用SNK检验进行逐步配对比较。
说明:此外,在【对比】中,可根据需要勾选【多项式】,进行先验对比检验和趋势检验。
结果分析:
1.方差齐性检验
2.描述统计量
3.方差分析结果
4.均值多重比较分析结果
5.均值多重比较下的齐性子集结果
由图基和邓肯法的分析结果看,
第一栏列出四个行业,第二栏列出图基和邓肯取渐渐增大的Range值进行比较而分的子集。由于各组样本含量不等,计算均数用的是调和平均数的样本大小是5.638。从概率值看,p>0.05,说明各组方差具有齐次性。
观察各个行业两两比较后的数据,可以看出59(家电制造业)>49(零售业)>48(旅游业)>35(航空公司),说明家电制造业的被投诉次数最多,航空公司最少。
均值折线图也清晰地表现了这一点。如下图
7.双因素方差分析在Excel中的应用
以例题2为例:
1.无交互作用的双因素方差分析
步骤1:选择【数据】-【数据分析】-【方差分析:无重复双因素方差分析】,然后选择数据区域,点击确定输出结果。
结果分析:
由分析结果可知,行因素中F=7.20187>F crit=3.36287,所以拒绝原假设,认为超市位置对销售量有显著影响。列因素中F=10.3046>F crit=4.71805,所以拒绝原假设,认为竞争者数量对销售量有显著影响。
也可根据P-value的值进行判断,行因素中,因为P=7.4E-05<α=0.01,所以拒绝原假设;列因素中,因为P<0.01,所以拒绝原假设。
2.有交互作用的双因素方差分析
步骤1:
有交互作用的方差分析与无交互作用的操作类似,不同之处在于选择【方差分析:可重复双因素方差分析】,输出结果。
注意,此处的【每一样本的行数】表示每个样本有3条数据行作对照。在此例中表示每个超市位置有3条数据行进行对照,重复了3次试验。
注意:在EXCEL表格的输入时,应当将两个因素置于同一格子内,可依照左图进行输入,依照右图表格形式输入将会导致“每一样本行数”报错,无法进行分析。
结果分析:
依据上图数据结果,其中“样本”即“超市位置”,“列”即“竞争者数量”,“交互”表示超市位置和竞争者数量交互产生的影响。此处对应的F=3.315038<F crit=3.666717,P值=0.01605>0.01,所以,不拒绝原假设,认为竞争者数量和超市位置对销售额没有交互影响。
8.双因素方差分析在SPSS中的应用
同样以例题2为例:
首先录入数据,并将分类变量进行赋值。
步骤1:双因素分析方法和单因素方差分析的方法二步骤类似,选择【分析】-【一般线性模型】-【单变量】,将数据放入【因变量】,将超市位置和竞争者数量放入【固定因子】。
不同之处在于【模型】。单击【模型】,选择【构建项】,【类型】为“交互”,将“超市位置”和“竞争者数量”放入右侧模型,再按住“ctrl”同时点击“超市位置”和“竞争者数量”,得到右侧的“竞争者数量*超市位置”,表示二者的交互效应。
步骤2:选择【图】,将因子分别置入水平轴,并“添加”到下方“图”中。然后是【事后比较】和【选项】,具体不再做详细介绍,与单因素方法二一致。
结果分析:
此处只对主体间效应的结果作说明。其中,多了一条“超市位置*竞争者数量”的分析结果,其显著性P值=0.016>α=0.01,故接受原假设,认为超市位置和竞争者数量对销售额无交互影响。
PS:本文题目来源自贾俊平、何晓群、金勇进编著的《统计学》.中国人民大学出版社,仅为个人学习笔记,如有错误,敬请指正。