%0 Journal Article %T 单核苷酸多态性数据缺失值填补方法研究 %A 李昂 %A 温琪 %A 顾星博 %A 焦辛妮 %A 佟海龙 %A 袁重胜 %A 刘艳 %A 李康 %J 中国公共卫生 %P 1576-1582 %D 2014 %R 10.11847/zgggws2014-30-12-26 %X ?目的通过对单核苷酸多态性(SNPs)数据展开缺失值填补影响因素与填补效果的研究,为利用SNPs数据进行基因与疾病的关联研究提供科学依据。方法以国际人类基因组单体型图计划(HapMap计划)数据为原始数据,利用HAPGEN2软件,依据原始数据生成SNP基因型模拟数据,人为产生缺失数据并进行缺失值的填补,分析不同条件(4个水平的缺失比例、4个水平的参考数据样本量)的填补错误率。结果数据缺失比例越小、参考数据样本量越大,填补的错误率越低(样本量50、100、150和200的平均错误率分别为7.01%、5.92%、5.67%和5.26%);2种缺失模式在缺失比例较大时(r2=0.825),随机缺失填补(平均5.64%)较固定缺失填补(平均9.10%)填补错误率低,而当缺失比例较小时(r2=0.9),固定位点缺失模式的填补错误率较低(平均4.96%),在各种条件下IMPUTE2的填补错误率为3%~13%。结论缺失比例、参考数据样本量以及缺失模式对缺失数据填补的准确性有一定影响;对标签SNP数据进行缺失值填补,再进一步分析是一种有效的策略。 %K 单核苷酸多态性(SNPs) %K 数据模拟 %K 缺失值填补 %K 标签SNP %U http://manu40.magtech.com.cn/Jweb_zgggws/CN/abstract/abstract22604.shtml