我们实验室在纠删码存储系统中设计修复流量调度算法的工作被计算机存储系统领域顶级期刊IEEE Transactions on Parallel and Distributed Systems(TPDS,CCF A类)接收。向各位参与研究工作的老师、同学表示祝贺。
论文题目:SelectiveEC:Towards Balanced Recovery Load on Erasure-coded Storage Systems.
纠删码(EC)以低存储成本提供高数据可靠性。当发生故障时,批量修复丢失的数据块。由于故障修复任务分批进行,一批内的修复数据分布不均衡,另外随机选择修复任务的源节点和替待节点,使得修复任务在一批内负载不均衡,这严重减慢了故障修复速度。为了解决这个问题,我们提出了SelectiveEC,这是一种新的修复任务调度模块,可为基于EC的大规模存储系统提供可证明的网络修复流量的负载平衡。它依赖于二部图来构造修复任务与幸存节点之间的图模型,然后使用完美或最大匹配等理论,并仔细确定地读取幸存块或存储修复块的节点,动态地选择任务以形成批处理。SelectiveEC支持单节点故障和多节点故障修复,可以部署在同构和异构网络环境中。我们在HDFS中实现SelectiveEC,并在18节点的本地集群和50个虚拟机实例的AWS EC2中评估其修复性能。与同类网络环境中的最先进方法相比,SelectiveEC将修复吞吐率提高了30.68%。由于均衡调度避免了重构时的掉队任务,它进一步实现了在异构网络环境中传统方法的1.32倍修复吞吐率。