|
软件学报 2013
超级计算环境容错机制, PP. 89-98 Keywords: 超级计算,容错框架,检查点设置/回卷恢复,容错开销 Abstract: 中国科学院超级计算环境是整合了包括总中心、分中心和所级中心计算资源的3层架构超级计算环境.为提升超级计算环境的可靠性,提供稳定、可靠的计算服务,其容错机制的研究成为超级计算环境的一个研究重点.在对容错基本思想及各类计算机容错技术进行充分调研的基础上,提出一种适用于超级计算环境的容错框架,依据该框架给出了不同层次的容错方案,并对不同层次的容错开销进行了分析和比较,验证了不同层次容错方案对应用程序所带来的影响.
|