我经常跟别人吹用caret包可以做到几百个模型的验证,做疾病模型很轻松,但实际没实操过。最近实际做了一批样品发现想跟做还真不是一回事,这里记录一下。
这里我们遇到的问题是测了血样里的几千个代谢物峰,当然我也不知道具体是哪些物质。因为把无关变量加到模型里会提高模型整体方差,所以第一步我做了个自下而上的筛选。也就是说,不同于将疾病作为响应,把代谢物作为预测变量,我首先做的是把代谢物作为响应,把疾病状态作为预测响应的一个变量,同时对那些可能造成代谢物响应的协变量进行控制。也就是如下模型:
代谢物响应 = f(疾病状态, BMI, 年龄, …