两种效应量量纲
在新的元分析中,发现不少实验是within-subject design,时隔一年多,不少计算细节已经记得不清楚,比如如何统一不同scaling下效应量的量纲,如何选择量纲,以及不同量纲之间sampling variance如何计算。回忆2021年4月15号的小组会议。
21点多开完会,想起老师下午给了我一袋零食,准备吃一口,一看生产日期….2019.10,保质期365天。原来老师是想毒死我。
晚上的会议一上来我就让小姚讲一讲d效应量的两种scaling,以及不同学者在面对paired t test时公式的等价性和假定。当然,简单看了看几篇统计论文后,我大概搞清楚了一件事情,几种效应量,重复测量与独立测量的方法,必须满足复合对称性(compound symmetry)才能在标度上等价。以及,我还清楚,Borenstein的重复测量效应量,基于方差齐性假定。另外,Morris和Borenstein的公式似乎是等价的,只不过差一个转换。
小姚同学上来就纠正我,两者定义似乎分母差了一个根式,于是我当场短路。小匡同学直接挪过黑板做了公式的推导,速度过快以至于我差点没看懂,全组8个同学只有我们三个在讨论,其他同学逐渐淡出背景。最后的结论是,Morris和Borenstein都假定了方差齐性,但是其相关系数的近似其实是严格从t效应量中推导得出,因此并不是近似,而是要求重复测量下要么知道前后测,要么知道相关和差值的标准差才能计算。后者不需要假定方差齐性,假定齐性时两者等价。
……
另外两个问题极为有趣,即partial eta square如何转换为Fisher’s Z, 我和小姚表示一脸懵逼。小匡说,直接对partial eta square开根号得到Pearson’s r,再转z。我反驳说,此时的eta square严格等价为partial correlation,开根后不严格等价,小姚学弟表示赞同。然后小匡推了一个partial correlation的公式,说现有论文信息不足,基本只能近似,许多在线网站的运算逻辑都是如此。我表示大家统计学得太好,不如开发个R包,吊打世界算了。
最后的问题是beta coefficient向z的转换,Peterson和Brown的模拟研究表明,r = β + 0.05λ。其中λ取决于β正负号。我提出,在一篇人类学期刊中,我用β近似的相关极大,而且β本身大于1很多,虽然在强烈的multicollinearity的情况下这是可能的。小匡立即给出了用β近似X和Y之间covariance的严格推导,并指出其不可行性。我则指出这就是为什么很多回归会有suppression effect,因为第一个β的效应被其他变量的系数所抵消。极端情况下,这种近似方法会有偏差。
首要明确的一点,现有心理学大部分元分析在method部分并没有强调效应量的scaling。实际上,大家都心照不宣地采用了Jacob Cohen定义的效应量,即Cohen’s d的scaling。这个scaling被定义为independent-groups effect size,即常见的被试间设计得到的效应量。这个scaling也同理拓展到r family效应量上,比如point-biserial correlation。
计算Cohen’s d的方法是,由给定的t统计量剥离样本量得到。一个简单的例子,假定homogeneity of variance以及balanced design,公式为:
t=d∗√n2
此时,效应量d的公式为:
ˉX1−ˉX2sp
但如果是前后侧的被试内设计,HOV假定下得到的t统计量(paired t)实际上分解为:
t=ˉX1−ˉX2s∗√n∗√12(1−r)
剥离样本量后,得到的d为:
d=ˉX1−ˉX2s∗√12(1−r)
注意这里为什么是去除√n而不是√n/2,因为paired t test和independent t test是两种不同的检验,前者本质上是单样本检验,而后者是双样本检验。对单样本检验,中心统计量δ和效应量的关系为:
δ=d∗√n
这里依然满足导出d时,效应量的含义是“两个总体均值相差的标准差的个数”。虽然看起来两种t统计量还原出的d都是均值之间差了几个标准差,但是由于单双侧检验在标准差的scaling上不同,导致了两个效应量scaling的不同。对independent t来说,其标准差是raw score的标准差,比如实验组因变量观测值的标准差。而paired t的标准差是分数差值的标准差:
tRM=ˉDSD√n
因此,对paired t得出的d,应该解释为:相对于0点,平均改变了d个标准差,即:
d=ˉX1−ˉX2s∗√12(1−r)=ˉX1−ˉX2SD
如果上述式子不明显,参考以下步骤,即可得知差值的标准差和raw score的标准差的关系:
tRM=ˉDSD√n=ˉD√s21+s22n−2×r×s1×s2n
如果HOV满足,则:
tRM=ˉD√s21+s22n−2r×s1×s2n=ˉD√2s2(1−r)n
从而得到两种标准差的转换公式:
SD=S√2(1−r)
同理,得到效应量两种量纲的转换公式:
dRM=dIG/√2(1−r)
效应量的计算
最常见的情况,由t统计量导出。
对independent t test,更一般的情况,如不平衡设计,那么可以得到:
d=t∗√n1+n2n1n2
对paired t test,如上部分所述,有:
d=t√n
另一种情况,已知两组的mean和sd,估计效应量。对independent t,可以假定HOV计算出t,再计算d,但对paired t而言,需要额外知道两次观测的相关系数。
根据paired t的公式,在已知前后侧标准差,差值的标准差时,可以严格计算相关系数:
r=SD2pre+SD2post−SD2D2SDpreSDpost
若前后侧不知道,那么假定前后侧方差齐性,用联合总体标准差估计即可,得到:
r=1−SD2D2SD2pooled
然而,研究往往不会报告差值的标准差,所以需要进行计算:
SD2D=n(Mpost−M2pre)t2
得到差值的标准差后,再代入上述的两个公式,即可得到r。但更常见的,如果前后侧标准差也没报告,往往需要元分析的作者假定一个相关系数,比如0.5,才能继续计算效应量。
效应量的抽样误差
效应量的sampling variance用于计算单个研究的权重,以此进行元分析的加权。对被试间设计,效应量的抽样误差取决于样本量和效应量本身,其近似公式为:
Vd=n1+n2n1n2+d22(n1+n2)
推导过程见cross validated.
而对配对样本,除了样本量,抽样误差还取决于匹配情况,如相关系数的大小。采用raw score作为效应量scaling时,可以用Morris和Deshon提出的通用转化公式:
σ2ei=A2˜ndfdf−2(1+˜nA2σ2∗)−δ2∗c2
其中df为对应设计的自由度,A代表两种效应量之间的转换公式,如果用raw score scaling,则A为:
A=√2(1−p)
而˜n为一个与样本量有关的系数,类似有效样本量。如果是被试间设计,则:
˜n=n1n2n1+n2
如果是匹配设计,则等于样本数:
˜n=n
此外,c为一个与自由度有关的函数,也是用来矫正d的大小的函数:
c(df)=1−34df−1
因此,假如一个研究是被试内设计,而元分析的scaling是raw score,那么首先计算出dRM并转换为raw score下的dIG,然后用以下公式计算抽样误差:
σ2ei=2(1−r)nn−1n−3(1+n2(1−r)d2IG)−d2IGc2
效应量标度的选择
效应量的scaling取决于研究者希望回答的问题。如果一个元分析希望知道一种实验处理的组间差异——处理效应的差异是否存在,用raw score metric更好。如果研究者关心的是在一系列successive trials间被试自身的变化,那么change score metric更好。