重复测量设计中的效应量

两种效应量量纲

在新的元分析中，发现不少实验是within-subject design，时隔一年多，不少计算细节已经记得不清楚，比如如何统一不同scaling下效应量的量纲，如何选择量纲，以及不同量纲之间sampling variance如何计算。回忆2021年4月15号的小组会议。

21点多开完会，想起老师下午给了我一袋零食，准备吃一口，一看生产日期….2019.10，保质期365天。原来老师是想毒死我。

晚上的会议一上来我就让小姚讲一讲d效应量的两种scaling，以及不同学者在面对paired t test时公式的等价性和假定。当然，简单看了看几篇统计论文后，我大概搞清楚了一件事情，几种效应量，重复测量与独立测量的方法，必须满足复合对称性（compound symmetry）才能在标度上等价。以及，我还清楚，Borenstein的重复测量效应量，基于方差齐性假定。另外，Morris和Borenstein的公式似乎是等价的，只不过差一个转换。

小姚同学上来就纠正我，两者定义似乎分母差了一个根式，于是我当场短路。小匡同学直接挪过黑板做了公式的推导，速度过快以至于我差点没看懂，全组8个同学只有我们三个在讨论，其他同学逐渐淡出背景。最后的结论是，Morris和Borenstein都假定了方差齐性，但是其相关系数的近似其实是严格从t效应量中推导得出，因此并不是近似，而是要求重复测量下要么知道前后测，要么知道相关和差值的标准差才能计算。后者不需要假定方差齐性，假定齐性时两者等价。

……

另外两个问题极为有趣，即partial eta square如何转换为Fisher’s Z, 我和小姚表示一脸懵逼。小匡说，直接对partial eta square开根号得到Pearson’s r，再转z。我反驳说，此时的eta square严格等价为partial correlation，开根后不严格等价，小姚学弟表示赞同。然后小匡推了一个partial correlation的公式，说现有论文信息不足，基本只能近似，许多在线网站的运算逻辑都是如此。我表示大家统计学得太好，不如开发个R包，吊打世界算了。

最后的问题是beta coefficient向z的转换，Peterson和Brown的模拟研究表明，r = β + 0.05λ。其中λ取决于β正负号。我提出，在一篇人类学期刊中，我用β近似的相关极大，而且β本身大于1很多，虽然在强烈的multicollinearity的情况下这是可能的。小匡立即给出了用β近似X和Y之间covariance的严格推导，并指出其不可行性。我则指出这就是为什么很多回归会有suppression effect，因为第一个β的效应被其他变量的系数所抵消。极端情况下，这种近似方法会有偏差。

首要明确的一点，现有心理学大部分元分析在method部分并没有强调效应量的scaling。实际上，大家都心照不宣地采用了Jacob Cohen定义的效应量，即Cohen’s d的scaling。这个scaling被定义为independent-groups effect size，即常见的被试间设计得到的效应量。这个scaling也同理拓展到r family效应量上，比如point-biserial correlation。

计算Cohen’s d的方法是，由给定的t统计量剥离样本量得到。一个简单的例子，假定homogeneity of variance以及balanced design，公式为：

$t = d * \sqrt[]{\frac{n}{2}}$

此时，效应量$d$的公式为：

$\frac{\bar{X_1}-\bar{X_2}}{s_p}$

但如果是前后侧的被试内设计，HOV假定下得到的t统计量（paired t）实际上分解为：

$t=\frac{\bar{X_1}-\bar{X_2}}{s}*\sqrt{n} *\sqrt{\frac{1}{2(1-r)}}$

剥离样本量后，得到的$d$为：

$d=\frac{\bar{X_1}-\bar{X_2}}{s} *\sqrt{\frac{1}{2(1-r)}}$

注意这里为什么是去除$\sqrt{n}$而不是$\sqrt{n/2}$，因为paired t test和independent t test是两种不同的检验，前者本质上是单样本检验，而后者是双样本检验。对单样本检验，中心统计量$\delta$和效应量的关系为：

$\delta = d * \sqrt{n}$

这里依然满足导出$d$时，效应量的含义是“两个总体均值相差的标准差的个数”。虽然看起来两种t统计量还原出的$d$都是均值之间差了几个标准差，但是由于单双侧检验在标准差的scaling上不同，导致了两个效应量scaling的不同。对independent t来说，其标准差是raw score的标准差，比如实验组因变量观测值的标准差。而paired t的标准差是分数差值的标准差：

$t_{RM}=\frac{\bar{D}}{\frac{S_{D}}{\sqrt{n}}}$

因此，对paired t得出的$d$，应该解释为：相对于0点，平均改变了$d$个标准差，即：

$d=\frac{\bar{X_1}-\bar{X_2}}{s} *\sqrt{\frac{1}{2(1-r)}}=\frac{\bar{X_1}-\bar{X_2}}{S_{D}}$

如果上述式子不明显，参考以下步骤，即可得知差值的标准差和raw score的标准差的关系：

$t_{RM}=\frac{\bar{D}}{\frac{S_{D}}{\sqrt{n}}}=\frac{\bar{D}}{\sqrt{\frac{s_1^2+s_2^2}{n}-\frac{2 \times r \times s_1 \times s_2}{n}}}$

如果HOV满足，则：

$t_{RM}=\frac{\bar{D}}{\sqrt{\frac{s_1^2+s_2^2}{n}-\frac{2r \times s_1 \times s_2}{n}}}=\frac{\bar{D}}{\sqrt{\frac{2s^2(1-r)}{n}}}$

从而得到两种标准差的转换公式：

$S_{D}=S\sqrt{2(1-r)}$

同理，得到效应量两种量纲的转换公式：

$d_{RM}=d_{IG}/\sqrt{2(1-r)}$

效应量的计算

最常见的情况，由t统计量导出。

对independent t test，更一般的情况，如不平衡设计，那么可以得到：

$d = t * \sqrt[]{\frac{n_1+n_2}{n_1n_2}}$

对paired t test，如上部分所述，有：

$d = \frac{t} {\sqrt{n}}$

另一种情况，已知两组的mean和sd，估计效应量。对independent t，可以假定HOV计算出t，再计算$d$，但对paired t而言，需要额外知道两次观测的相关系数。

根据paired t的公式，在已知前后侧标准差，差值的标准差时，可以严格计算相关系数：

$r = \frac{SD_{pre}^2+SD_{post}^2-SD_{D}^2}{2SD_{pre}SD_{post}}$

若前后侧不知道，那么假定前后侧方差齐性，用联合总体标准差估计即可，得到：

$r = 1-\frac{SD_{D}^2}{2SD_{pooled}^2}$

然而，研究往往不会报告差值的标准差，所以需要进行计算：

$SD_{D}^2=\frac{n(M_{post}-M_{pre}^2)}{t^2}$

得到差值的标准差后，再代入上述的两个公式，即可得到r。但更常见的，如果前后侧标准差也没报告，往往需要元分析的作者假定一个相关系数，比如0.5，才能继续计算效应量。

效应量的抽样误差

效应量的sampling variance用于计算单个研究的权重，以此进行元分析的加权。对被试间设计，效应量的抽样误差取决于样本量和效应量本身，其近似公式为：

$V_d=\frac{n_1+n_2}{n_1n_2}+\frac{d^2}{2(n_1+n_2)}$

推导过程见cross validated.

而对配对样本，除了样本量，抽样误差还取决于匹配情况，如相关系数的大小。采用raw score作为效应量scaling时，可以用Morris和Deshon提出的通用转化公式：

$\sigma_{e_i}^2=\frac{A^2}{\tilde{n}}\frac{df}{df-2}(1+\frac{\tilde{n}}{A^2}\sigma_{\ast}^2)-\frac{\delta_{\ast}^2}{c^2}$

其中df为对应设计的自由度，A代表两种效应量之间的转换公式，如果用raw score scaling，则A为：

$A=\sqrt{2(1-p)}$

而$\tilde{n}$为一个与样本量有关的系数，类似有效样本量。如果是被试间设计，则：

$\tilde{n}=\frac{n_1n_2}{n_1+n_2}$

如果是匹配设计，则等于样本数：

$\tilde{n}=n$

此外，c为一个与自由度有关的函数，也是用来矫正$d$的大小的函数：

$c(df) = 1 - \frac{3}{4df-1}$

因此，假如一个研究是被试内设计，而元分析的scaling是raw score，那么首先计算出$d_{RM}$并转换为raw score下的$d_{IG}$，然后用以下公式计算抽样误差：

$\sigma_{e_i}^2=\frac{2(1-r)}{n}\frac{n-1}{n-3}(1+\frac{n}{2(1-r)}d_{IG}^2)-\frac{d_{IG}^2}{c^2}$

效应量标度的选择

效应量的scaling取决于研究者希望回答的问题。如果一个元分析希望知道一种实验处理的组间差异——处理效应的差异是否存在，用raw score metric更好。如果研究者关心的是在一系列successive trials间被试自身的变化，那么change score metric更好。