Featured image of post 重复测量设计中的效应量

重复测量设计中的效应量

效应量的量纲之别

两种效应量量纲

在新的元分析中,发现不少实验是within-subject design,时隔一年多,不少计算细节已经记得不清楚,比如如何统一不同scaling下效应量的量纲,如何选择量纲,以及不同量纲之间sampling variance如何计算。回忆2021年4月15号的小组会议。

21点多开完会,想起老师下午给了我一袋零食,准备吃一口,一看生产日期….2019.10,保质期365天。原来老师是想毒死我。

晚上的会议一上来我就让小姚讲一讲d效应量的两种scaling,以及不同学者在面对paired t test时公式的等价性和假定。当然,简单看了看几篇统计论文后,我大概搞清楚了一件事情,几种效应量,重复测量与独立测量的方法,必须满足复合对称性(compound symmetry)才能在标度上等价。以及,我还清楚,Borenstein的重复测量效应量,基于方差齐性假定。另外,Morris和Borenstein的公式似乎是等价的,只不过差一个转换。

小姚同学上来就纠正我,两者定义似乎分母差了一个根式,于是我当场短路。小匡同学直接挪过黑板做了公式的推导,速度过快以至于我差点没看懂,全组8个同学只有我们三个在讨论,其他同学逐渐淡出背景。最后的结论是,Morris和Borenstein都假定了方差齐性,但是其相关系数的近似其实是严格从t效应量中推导得出,因此并不是近似,而是要求重复测量下要么知道前后测,要么知道相关和差值的标准差才能计算。后者不需要假定方差齐性,假定齐性时两者等价。

……

另外两个问题极为有趣,即partial eta square如何转换为Fisher’s Z, 我和小姚表示一脸懵逼。小匡说,直接对partial eta square开根号得到Pearson’s r,再转z。我反驳说,此时的eta square严格等价为partial correlation,开根后不严格等价,小姚学弟表示赞同。然后小匡推了一个partial correlation的公式,说现有论文信息不足,基本只能近似,许多在线网站的运算逻辑都是如此。我表示大家统计学得太好,不如开发个R包,吊打世界算了。

最后的问题是beta coefficient向z的转换,Peterson和Brown的模拟研究表明,r = β + 0.05λ。其中λ取决于β正负号。我提出,在一篇人类学期刊中,我用β近似的相关极大,而且β本身大于1很多,虽然在强烈的multicollinearity的情况下这是可能的。小匡立即给出了用β近似X和Y之间covariance的严格推导,并指出其不可行性。我则指出这就是为什么很多回归会有suppression effect,因为第一个β的效应被其他变量的系数所抵消。极端情况下,这种近似方法会有偏差。

首要明确的一点,现有心理学大部分元分析在method部分并没有强调效应量的scaling。实际上,大家都心照不宣地采用了Jacob Cohen定义的效应量,即Cohen’s d的scaling。这个scaling被定义为independent-groups effect size,即常见的被试间设计得到的效应量。这个scaling也同理拓展到r family效应量上,比如point-biserial correlation。

计算Cohen’s d的方法是,由给定的t统计量剥离样本量得到。一个简单的例子,假定homogeneity of variance以及balanced design,公式为:

$t = d * \sqrt[]{\frac{n}{2}}$

此时,效应量$d$的公式为:

$\frac{\bar{X_1}-\bar{X_2}}{s_p}$

但如果是前后侧的被试内设计,HOV假定下得到的t统计量(paired t)实际上分解为:

$t=\frac{\bar{X_1}-\bar{X_2}}{s}*\sqrt{n} *\sqrt{\frac{1}{2(1-r)}}$

剥离样本量后,得到的$d$为:

$d=\frac{\bar{X_1}-\bar{X_2}}{s} *\sqrt{\frac{1}{2(1-r)}}$

注意这里为什么是去除$\sqrt{n}$而不是$\sqrt{n/2}$,因为paired t test和independent t test是两种不同的检验,前者本质上是单样本检验,而后者是双样本检验。对单样本检验,中心统计量$\delta$和效应量的关系为:

$\delta = d * \sqrt{n}$

这里依然满足导出$d$时,效应量的含义是“两个总体均值相差的标准差的个数”。虽然看起来两种t统计量还原出的$d$都是均值之间差了几个标准差,但是由于单双侧检验在标准差的scaling上不同,导致了两个效应量scaling的不同。对independent t来说,其标准差是raw score的标准差,比如实验组因变量观测值的标准差。而paired t的标准差是分数差值的标准差:

$t_{RM}=\frac{\bar{D}}{\frac{S_{D}}{\sqrt{n}}}$

因此,对paired t得出的$d$,应该解释为:相对于0点,平均改变了$d$个标准差,即:

$d=\frac{\bar{X_1}-\bar{X_2}}{s} *\sqrt{\frac{1}{2(1-r)}}=\frac{\bar{X_1}-\bar{X_2}}{S_{D}}$

如果上述式子不明显,参考以下步骤,即可得知差值的标准差和raw score的标准差的关系:

$t_{RM}=\frac{\bar{D}}{\frac{S_{D}}{\sqrt{n}}}=\frac{\bar{D}}{\sqrt{\frac{s_1^2+s_2^2}{n}-\frac{2 \times r \times s_1 \times s_2}{n}}}$

如果HOV满足,则:

$t_{RM}=\frac{\bar{D}}{\sqrt{\frac{s_1^2+s_2^2}{n}-\frac{2r \times s_1 \times s_2}{n}}}=\frac{\bar{D}}{\sqrt{\frac{2s^2(1-r)}{n}}}$

从而得到两种标准差的转换公式:

$S_{D}=S\sqrt{2(1-r)}$

同理,得到效应量两种量纲的转换公式:

$d_{RM}=d_{IG}/\sqrt{2(1-r)}$

效应量的计算

最常见的情况,由t统计量导出。

对independent t test,更一般的情况,如不平衡设计,那么可以得到:

$d = t * \sqrt[]{\frac{n_1+n_2}{n_1n_2}}$

对paired t test,如上部分所述,有:

$d = \frac{t} {\sqrt{n}}$

另一种情况,已知两组的mean和sd,估计效应量。对independent t,可以假定HOV计算出t,再计算$d$,但对paired t而言,需要额外知道两次观测的相关系数。

根据paired t的公式,在已知前后侧标准差,差值的标准差时,可以严格计算相关系数:

$r = \frac{SD_{pre}^2+SD_{post}^2-SD_{D}^2}{2SD_{pre}SD_{post}}$

若前后侧不知道,那么假定前后侧方差齐性,用联合总体标准差估计即可,得到:

$r = 1-\frac{SD_{D}^2}{2SD_{pooled}^2}$

然而,研究往往不会报告差值的标准差,所以需要进行计算:

$SD_{D}^2=\frac{n(M_{post}-M_{pre}^2)}{t^2}$

得到差值的标准差后,再代入上述的两个公式,即可得到r。但更常见的,如果前后侧标准差也没报告,往往需要元分析的作者假定一个相关系数,比如0.5,才能继续计算效应量。

效应量的抽样误差

效应量的sampling variance用于计算单个研究的权重,以此进行元分析的加权。对被试间设计,效应量的抽样误差取决于样本量和效应量本身,其近似公式为:

$V_d=\frac{n_1+n_2}{n_1n_2}+\frac{d^2}{2(n_1+n_2)}$

推导过程见cross validated.

而对配对样本,除了样本量,抽样误差还取决于匹配情况,如相关系数的大小。采用raw score作为效应量scaling时,可以用Morris和Deshon提出的通用转化公式:

$\sigma_{e_i}^2=\frac{A^2}{\tilde{n}}\frac{df}{df-2}(1+\frac{\tilde{n}}{A^2}\sigma_{\ast}^2)-\frac{\delta_{\ast}^2}{c^2}$

其中df为对应设计的自由度,A代表两种效应量之间的转换公式,如果用raw score scaling,则A为:

$A=\sqrt{2(1-p)}$

而$\tilde{n}$为一个与样本量有关的系数,类似有效样本量。如果是被试间设计,则:

$\tilde{n}=\frac{n_1n_2}{n_1+n_2}$

如果是匹配设计,则等于样本数:

$\tilde{n}=n$

此外,c为一个与自由度有关的函数,也是用来矫正$d$的大小的函数:

$c(df) = 1 - \frac{3}{4df-1}$

因此,假如一个研究是被试内设计,而元分析的scaling是raw score,那么首先计算出$d_{RM}$并转换为raw score下的$d_{IG}$,然后用以下公式计算抽样误差:

$\sigma_{e_i}^2=\frac{2(1-r)}{n}\frac{n-1}{n-3}(1+\frac{n}{2(1-r)}d_{IG}^2)-\frac{d_{IG}^2}{c^2}$

效应量标度的选择

效应量的scaling取决于研究者希望回答的问题。如果一个元分析希望知道一种实验处理的组间差异——处理效应的差异是否存在,用raw score metric更好。如果研究者关心的是在一系列successive trials间被试自身的变化,那么change score metric更好。

Licensed under CC BY-NC-SA 4.0
comments powered by Disqus
Built with Hugo
Theme Stack designed by Jimmy