|
- 2018
存在混杂时高维数据的随机森林分析Abstract: 目的:探讨存在混杂因素时高维数据中随机森林(random forest,RF)的分析方法。方法:通过模拟实验和实例数据分析对单纯随机森林分析、增加节点候选变量为最大值以及基于广义线性模型的残差校正混杂因素的结果进行比较,以重要变量的重要性评分排序情况进行评价。结果:模拟实验表明,增加节点候选变量的方法对混杂因素的校正效果不明显,而基于广义线性模型残差的方法能有效校正混杂效应;实际数据分析结果显示单纯随机森林分析rs3754686和rs2322660分别排在第一和第二位。增加节点候选变量后rs3754686排序变化较小,而基于残差的方法校正人群分层后这两个单核苷酸多态位点(SNPs)的排序大幅度降低,从而打破乳糖酶(LCT)基因与身高之间的虚假关联。结论:随机森林分析需要考虑混杂因素问题,基于广义线性模型的残差能有效校正混杂因素,适用于高维数据的变量筛选。
|