Processing math: 100%
Featured image of post 重复测量设计中的效应量

重复测量设计中的效应量

效应量的量纲之别

两种效应量量纲

在新的元分析中,发现不少实验是within-subject design,时隔一年多,不少计算细节已经记得不清楚,比如如何统一不同scaling下效应量的量纲,如何选择量纲,以及不同量纲之间sampling variance如何计算。回忆2021年4月15号的小组会议。

21点多开完会,想起老师下午给了我一袋零食,准备吃一口,一看生产日期….2019.10,保质期365天。原来老师是想毒死我。

晚上的会议一上来我就让小姚讲一讲d效应量的两种scaling,以及不同学者在面对paired t test时公式的等价性和假定。当然,简单看了看几篇统计论文后,我大概搞清楚了一件事情,几种效应量,重复测量与独立测量的方法,必须满足复合对称性(compound symmetry)才能在标度上等价。以及,我还清楚,Borenstein的重复测量效应量,基于方差齐性假定。另外,Morris和Borenstein的公式似乎是等价的,只不过差一个转换。

小姚同学上来就纠正我,两者定义似乎分母差了一个根式,于是我当场短路。小匡同学直接挪过黑板做了公式的推导,速度过快以至于我差点没看懂,全组8个同学只有我们三个在讨论,其他同学逐渐淡出背景。最后的结论是,Morris和Borenstein都假定了方差齐性,但是其相关系数的近似其实是严格从t效应量中推导得出,因此并不是近似,而是要求重复测量下要么知道前后测,要么知道相关和差值的标准差才能计算。后者不需要假定方差齐性,假定齐性时两者等价。

……

另外两个问题极为有趣,即partial eta square如何转换为Fisher’s Z, 我和小姚表示一脸懵逼。小匡说,直接对partial eta square开根号得到Pearson’s r,再转z。我反驳说,此时的eta square严格等价为partial correlation,开根后不严格等价,小姚学弟表示赞同。然后小匡推了一个partial correlation的公式,说现有论文信息不足,基本只能近似,许多在线网站的运算逻辑都是如此。我表示大家统计学得太好,不如开发个R包,吊打世界算了。

最后的问题是beta coefficient向z的转换,Peterson和Brown的模拟研究表明,r = β + 0.05λ。其中λ取决于β正负号。我提出,在一篇人类学期刊中,我用β近似的相关极大,而且β本身大于1很多,虽然在强烈的multicollinearity的情况下这是可能的。小匡立即给出了用β近似X和Y之间covariance的严格推导,并指出其不可行性。我则指出这就是为什么很多回归会有suppression effect,因为第一个β的效应被其他变量的系数所抵消。极端情况下,这种近似方法会有偏差。

首要明确的一点,现有心理学大部分元分析在method部分并没有强调效应量的scaling。实际上,大家都心照不宣地采用了Jacob Cohen定义的效应量,即Cohen’s d的scaling。这个scaling被定义为independent-groups effect size,即常见的被试间设计得到的效应量。这个scaling也同理拓展到r family效应量上,比如point-biserial correlation。

计算Cohen’s d的方法是,由给定的t统计量剥离样本量得到。一个简单的例子,假定homogeneity of variance以及balanced design,公式为:

t=dn2

此时,效应量d的公式为:

ˉX1ˉX2sp

但如果是前后侧的被试内设计,HOV假定下得到的t统计量(paired t)实际上分解为:

t=ˉX1ˉX2sn12(1r)

剥离样本量后,得到的d为:

d=ˉX1ˉX2s12(1r)

注意这里为什么是去除n而不是n/2,因为paired t test和independent t test是两种不同的检验,前者本质上是单样本检验,而后者是双样本检验。对单样本检验,中心统计量δ和效应量的关系为:

δ=dn

这里依然满足导出d时,效应量的含义是“两个总体均值相差的标准差的个数”。虽然看起来两种t统计量还原出的d都是均值之间差了几个标准差,但是由于单双侧检验在标准差的scaling上不同,导致了两个效应量scaling的不同。对independent t来说,其标准差是raw score的标准差,比如实验组因变量观测值的标准差。而paired t的标准差是分数差值的标准差:

tRM=ˉDSDn

因此,对paired t得出的d,应该解释为:相对于0点,平均改变了d个标准差,即:

d=ˉX1ˉX2s12(1r)=ˉX1ˉX2SD

如果上述式子不明显,参考以下步骤,即可得知差值的标准差和raw score的标准差的关系:

tRM=ˉDSDn=ˉDs21+s22n2×r×s1×s2n

如果HOV满足,则:

tRM=ˉDs21+s22n2r×s1×s2n=ˉD2s2(1r)n

从而得到两种标准差的转换公式:

SD=S2(1r)

同理,得到效应量两种量纲的转换公式:

dRM=dIG/2(1r)

效应量的计算

最常见的情况,由t统计量导出。

对independent t test,更一般的情况,如不平衡设计,那么可以得到:

d=tn1+n2n1n2

对paired t test,如上部分所述,有:

d=tn

另一种情况,已知两组的mean和sd,估计效应量。对independent t,可以假定HOV计算出t,再计算d,但对paired t而言,需要额外知道两次观测的相关系数。

根据paired t的公式,在已知前后侧标准差,差值的标准差时,可以严格计算相关系数:

r=SD2pre+SD2postSD2D2SDpreSDpost

若前后侧不知道,那么假定前后侧方差齐性,用联合总体标准差估计即可,得到:

r=1SD2D2SD2pooled

然而,研究往往不会报告差值的标准差,所以需要进行计算:

SD2D=n(MpostM2pre)t2

得到差值的标准差后,再代入上述的两个公式,即可得到r。但更常见的,如果前后侧标准差也没报告,往往需要元分析的作者假定一个相关系数,比如0.5,才能继续计算效应量。

效应量的抽样误差

效应量的sampling variance用于计算单个研究的权重,以此进行元分析的加权。对被试间设计,效应量的抽样误差取决于样本量和效应量本身,其近似公式为:

Vd=n1+n2n1n2+d22(n1+n2)

推导过程见cross validated.

而对配对样本,除了样本量,抽样误差还取决于匹配情况,如相关系数的大小。采用raw score作为效应量scaling时,可以用Morris和Deshon提出的通用转化公式:

σ2ei=A2˜ndfdf2(1+˜nA2σ2)δ2c2

其中df为对应设计的自由度,A代表两种效应量之间的转换公式,如果用raw score scaling,则A为:

A=2(1p)

˜n为一个与样本量有关的系数,类似有效样本量。如果是被试间设计,则:

˜n=n1n2n1+n2

如果是匹配设计,则等于样本数:

˜n=n

此外,c为一个与自由度有关的函数,也是用来矫正d的大小的函数:

c(df)=134df1

因此,假如一个研究是被试内设计,而元分析的scaling是raw score,那么首先计算出dRM并转换为raw score下的dIG,然后用以下公式计算抽样误差:

σ2ei=2(1r)nn1n3(1+n2(1r)d2IG)d2IGc2

效应量标度的选择

效应量的scaling取决于研究者希望回答的问题。如果一个元分析希望知道一种实验处理的组间差异——处理效应的差异是否存在,用raw score metric更好。如果研究者关心的是在一系列successive trials间被试自身的变化,那么change score metric更好。

Licensed under CC BY-NC-SA 4.0
Built with Hugo
Theme Stack designed by Jimmy