原始数据导入时我们所遇到的背景问题说到底是测定的系统误差,期望可以看作0。但有些影响是我们不希望看到但依旧存在的,例如你测定了100多份基于地区分布的人体样本中的感兴趣基因组,但由于采样原因不可能同时采集,而时间的差异会直接导致诸如温度等影响了样本的均质性,这种情况下进行统计推断就需要平衡掉这些因素的影响。那么,如何屏蔽呢?
首先我们要推广下t检验到线性回归。两组数据的差异比较可以构建如下模型:
$$Y = \alpha * X + \beta$$
Y是响应,假设有两组,我们给组A赋值1,组B赋值0,那么系数$\beta$就是组B的均值而系数$\alpha$则是组A与组B的差值。这个差值实际上就是t检验里的差异,对这个系数的估计出的t值就是t检验的t值。
下面运行下代码看看
# 模拟生成两组数据
set.seed(42)
group1 <- rnorm(100,100,10)
group2 <- …