我们实验室在纠删码存储系统中设计均匀数据布局以及高效故障修复算法的工作被计算机存储系统领域顶级期刊IEEE Transactions on Computers(TC,CCF A类)接收。向各位参与研究工作的老师、同学表示祝贺。
论文题目:A Data Layout and Fast Failure Recovery Scheme for Distributed Storage Systems with Mixed Erasure Codes.
论文摘要:纠删码在分布式存储系统(DSS)中变得越来越流行,以提供高可靠性和低存储开销。然而,传统的随机数据放置在故障修复过程中会导致大量的跨机架流量和严重的负载不平衡,这显着降低了修复性能。此外,在DSS中并存的各种纠删码加剧了上述问题。在本文中,我们提出了基于PBD的数据布局PDL,以优化DSS中的故障修复性能。PDL是基于Pairwise Balanced Design构建的,这是一种具有均匀数学特性的组合设计方案,从而为混合纠删码呈现统一的数据布局。接着我们提出了rPDL,一种基于PDL的故障修复方案。rPDL通过均匀地选择替换节点和检索确定的可用块来修复丢失的块,有效地减少了跨机架流量并提供了几乎均衡的跨机架流量分布。
我们在Hadoop 3.1.1中实现了PDL和rPDL。与HDFS中现有的数据布局和修复方案相比,rPDL实现了更高的修复吞吐量:单节点故障修复速率为6.27倍,多节点故障修复速率为5.14倍以及单机架故障修复速率为1.48倍。它还将退化读延迟平均降低了62.83%,并在节点故障的情况下为前端应用程序提供了更好的支持。