|
二分类变量缺失数据处理方法的比较研究
|
Abstract:
本文介绍了随机缺失模式下一些常用的插补方法,着重介绍了多重插补法和回归插补法两种方法,并且通过模拟实际案例中的响应变量不同的缺失率进一步探讨了这几种方法的插补效果。结果表明,在缺失率较低的情况下,基于逻辑回归的多重插补与回归插补效果差别不大,但基于逻辑回归的多重插补下,插补1次和插补5次后的模型个别参数系数及标准误与完整数据系数差别较大;然而在缺失率较大的情况下,基于逻辑回归的多重插补的效率明显低于回归插补,插补1次的效果与插补5次的效果差别不大,插补后参数系数及标准误与完整数据系数差别大。
This article introduces some commonly used imputation methods for random missing patterns, with a focus on two methods: multiple imputation and regression imputation. It further explores the imputation effectiveness of these methods by simulating different missing rates for the response variable in real-life cases. The results show that, at lower missing rates, there is not much difference in the effectiveness between multiple imputation based on logistic regression and regression imputation. However, under multiple imputation based on logistic regression, the estimated coefficients and standard errors of the model after 1 or 5 imputations differ significantly from those of the complete data set. On the other hand, at higher missing rates, multiple imputation based on logistic regression is noticeably less efficient than regression imputation. The effectiveness does not differ much between 1 and 5 imputations, but the estimated coefficients and standard errors after imputation differ greatly from those of the complete data set.
[1] | 岳勇, 田考聪. 数据缺失及其填补方法综述[J]. 预防医学情报杂志, 2005(6): 683-685. |
[2] | 庞新生. 缺失数据插补处理方法的比较研究[J]. 统计与决策, 2012(24): 18-22.
https://doi.org/10.13546/j.cnki.tjyjc.2012.24.003 |
[3] | 肖亚明, 陈永杰, 王玉鹏, 刘美娜. 分类变量缺失数据处理方法有效性的比较研究[J]. 中国卫生统计, 2016, 33(2): 186-189. |
[4] | 袁中萸. 多元线性回归模型中缺失数据填补方法的效果比较[D]: [硕士学位论文]. 长沙: 中南大学, 2008. |
[5] | 周敏. 多分类等级量表数据缺失填补方法的比较研究[D]: [硕士学位论文]. 沈阳: 中国医科大学, 2022.
https://doi.org/10.27652/d.cnki.gzyku.2022.000407 |
[6] | 于力超. 协变量数据缺失情形下的参数估计方法[J]. 统计与决策, 2018, 34(17): 9-13.
https://doi.org/10.13546/j.cnki.tjyjc.2018.17.002 |
[7] | 王曼, 施念, 花琳琳, 等. 成组删除法和多重填补法对随机缺失的二分类变量资料处理效果的比较[J]. 郑州大学学报(医学版), 2012, 47(5): 642-645. |
[8] | 解东方. 心血管病流行病调查中缺失数据填补方法的比较及模拟研究[D]: [博士学位论文]. 北京: 北京协和医学院, 2014. |
[9] | 戴明锋, 金勇进, 查奇芬, 等. 二分类Logistic回归插补法及其应用[J]. 数学的实践与认识, 2013, 43(21): 162-167. |
[10] | 肖亚明, 陈永杰, 王玉鹏, 等. 分类变量缺失数据处理方法有效性的比较研究[J]. 中国卫生统计, 2016, 33(2): 4. |
[11] | 熊中敏, 郭怀宇, 吴月欣. 缺失数据处理方法研究综述[J]. 计算机工程与应用, 2021, 57(14): 27-38. |
[12] | 鲍晓蕾, 高辉, 胡良平. 多种填补方法在纵向缺失数据中的比较研究[J]. 中国卫生统计, 2016, 33(1): 45-48. |