连续型变量的推断性分析方法主要有t检验和方差分析两种,这两种方法可以解决一些实际的分析问题,下面我们分别来介绍一下这两种方法
一、t检验(Student's t test)
t检验也称student t检验(Student's t test),由Gosset提出,主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。我们在介绍连续变量分布时讲过t分布,t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
介绍t检验之前,先说一下Z检验,假设我们已知一个样本的均值和总体均值,二者之间存在差异,仅凭差异值这一个数字,很难判断这种差异是否超出了抽样误差的概率范围,因此需要以某种方式对这个差值进行标准化。由中心极限定理得知当样本量足够大时,样本的均值分布近似正态分布,因此可以通过如下变换,就可以完成对差值的标准化,实际上就是将近似正态分布转换为标准正态分布,而变换的方法其实就是Z分数,因此也叫Z检验,标准正态分布也称为Z分布。国内普遍称为u分布和u检验,但个人认为Z检验更为确切。
Z检验在标准化过程中需要已知总体标准差,但是这点在实际工作中很难满足,因此Gosset提出使用样本标准差代替总体标准差进行计算,这样就构成了t统计量和t分布。t分布曲线形态与样本量n(确切地说是*度v)大小有关。与标准正态分布曲线相比,*度v越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;*度v愈大,t分布曲线愈接近正态分布曲线,当*度v=∞时,t分布曲线为标准正态分布曲线。对应于每一个*度ν,就有一条t分布曲线,每条曲线都有其曲线下统计量t的分布规律。t检验就是应用t分布特征,将t作为检验的统计量来进行检验。
在使用t检验和Z检验时,要注意一点:
在大样本条件下(n>50),Z检验和t检验的结果是一致的,当n<50时,需要使用t检验。我们在将样本均值和总体均值的差值进行标准化的过程时,是假定样本服从正态分布的,这是个前提条件,但是根据中心极限定理,即使原数据不服从正态分布,只要样本量足够大,其样本均数的抽样分布依然是正态的,因此在大样本情况下,我们很少考虑这个前提条件,只要数据不是强烈的偏态,均值一般都可以较好的代表数据的集中趋势,这时都可以使用t或Z检验。在小样本情况下,需要进行正态性检验,但研究表明t检验是比较稳健的,只要没有太极端的值,结果都是稳定的。
无论怎样,我个人都是习惯在分析前将数据做一个描述性分析,对数据整体情况做个全面了解,这样也会对后续结果的评估有个参考。
t检验可以在以下分析中使用
1.样本均数与总体均数的差异性分析(单样本t检验)
2.配对设计样本均数或两非独立两样本均数差异性分析(配对t检验)
3.两独立样本均数差异性分析(独立样本t检验)
下面分别介绍一下这三种使用方法
样本均数与总体均数的比较(单样本t检验)
单样本t检验主要针对于只有一个随机样本,推断这个随机样本所在的总体均数与这个总体的已知均值之间是否存在差异,这个总体的已知均值通常是根据以往调查或根据人为经验所得到。
首先建立假设:
H0:μ=μ0,即二者不存在差异
H1:μ≠μ0,即二者存在差异
α=0.05
在原假设成立的情况下,可认为样本均值和总体已知均值之间的差异是抽样误差引起的
按照t检验的差值标准化思想,单样本t检验公式为:
配对设计样本均数或两非独立两样本均数差异性分析(配对t检验)
配对设计可以减少实验误差、控制非处理因素,有效提高研究效率,被广泛应用在科学研究中。
配对样本要求两样本观察值数量相同且顺序固定,常见的配对设计有4种情况:
1.同一受试对象试验前和试验后的数据
2.同一受试对象不同受试部位的数据
3.同一受试对象用两种试验方法检验的结果
4.配对的两个受试对象分别接受进行两种处理后的数据
配对试验设计得出的数据可以是离散变量或连续变量,离散变量可以通过构造列联表使用卡方检验,连续变量可以使用配对t检验。
配对t检验的基本原理是:构建一个随机变量d,d的值来自于配对样本每对样本值的差,这里可将d看做一个变量样本,如果两种处理在效果上没有差异,那么这个样本差值d对应的总体均值应当为0,其样本均值应该在0附近波动。反之如果两种处理在效果上存在差异,那么样本差值d对应的总体均值就不为0,其样本均值也会远离0。这样一来,配对t检验就转换成了样本差值变量d的均值μ与已知其总体均值μd(μd=0)之间是否存在差异的单样本t检验。
建立假设
H0:μ=0,即两种处理不存在差异
H1:μ≠0,即两种处理存在差异 α=0.05
按照t检验的差值标准化思想,配对t统计量公式为:
实际上,配对t检验的本质就是单样本t检验,配对t检验的适用条件和单样本t检验一样,只是考察的数据是差值d而不是原始数据。
两独立样本均数差异性分析(独立样本t检验)
当两个独立样本进行均数比较时,可以使用独立样本t检验
独立样本t检验的基本原理是:假设两个独立样本来所代表的总体均值相同,即μ1=μ2或μ1-μ2=0,既然两总体均为正态分布,那么其样本之差也服从正态分布,我们希望用样本之差估计总体之差,从进而对差值进行检验。
在进行两独立样本t检验的时候,还要考虑两样本的方差齐性问题,也就是方差是否相等,不同情况下的t统计量公式不同,我们可以通过方差齐性检验来进行判断,方差齐性检验是根据F分布来进行的检验,在后面会单独介绍。
如果这两个总体的方差相等,则构建的t统计量公式为
其中
Sc2成为合并方差,我们可以把样本方差S1和S2带入合并方差公式,如下
如果两总体方差不相等,根据上式构建的t统计量并不服从相应的t分布,此时需要对t统计量和*度进行校正,t统计量校正公式为:
*度校正公式为
以上三种t检验的应用,都是以均值之差标准化为基础构建t统计量进行检验,他们有具有共同的使用条件:
1.样本正态性:以上三种t检验都是假设样本所在的总体服从正态分布,虽然t检验很稳健,但是还是要检查一下是否有极端值出现,因为均值是很容易受极端值影响的。
2.独立样本t检验和配对样本t检验本质上都是单样本t检验。
3.独立样本t检验要根据样本方差是否相等来决定统计量,而配对样本对方差是否相等不关注。
4.独立样本t检验样本间必须具有独立性,否则结果会偏差较大,但是通常来讲,我们在设计实验的时候,就会对样本间是否独立有个大致判断,也可以通过计算相关系数等
方法进行判断。