因果关系能否直接从数据中获取这个问题对很多人而言答案是否定的,相关不代表因果都成了说烂了的老梗。根源上人认识世界只能通过可感知的现象,背后的规律都是在抽象意义上自洽但现实表现都含有噪音。说夸张点普朗克尺度已经界定了测量手段的极限,有些理论可能就是永远无法实证但数学上自洽的。过去的一个世纪是实验与测量技术大突破的100年,无数现代仪器或仅仅就是传感器为各类科学研究提供了大量的现象数据,也营造了数据无所不能的幻象。说是幻象是因为数据背后不仅仅有规律,也有内生的噪音,很多研究痴迷于换用不同的数据模型来提高预测性,但却忽略数据信噪比,当信噪比很低时任何结论都会不靠谱,不同模型有矛盾的预测结果无法说明模型的优劣而仅仅就是现象本身方差太大,所谓的信号或者规律其实是内生噪音的随机性导致的。
不过因果推断就是尝试解决这个问题的。最近有一个暴露组学的数据<a …