Enhancing Reliability and Response Times via Replication in Computing Clusters---INFOCOM 2015

时间:2025-05-05 16:08:08

【标题】

Enhancing Reliability and Response Times via Replication in Computing Clusters

【作者】

Zhan Qiu and Juan F. Perez, Imperial College London

【来源】

INFOCOM 2015

【why】

计算集群中含有成千上万节点,request failure和server failure等因素影响服务可靠性,随着资源规模增大和复杂度增加,可靠性不断下降。

当前研究主要采用重调度和冗余策略,前者损失时间太长,后者成本代价太高。

当前集群的资源利用率并不高,大部分数据中心服务器平均利用率才18%,如何进行任务调度,提高系统可靠性的同时降低响应时间

【how】

提出concurrent replication with canceling方法,所有任务采用主备双执行,其中一份执行成果,立即取消另外一份执行

【不足】

assumption future work

【对本文评价】

【相关方法或论文】

【重点提示】

【其它】