论文题目:Optimal Data Placement for Stripe Merging in Locally Repairable Codes.
论文摘要:纠删码技术因具备优秀的存储性能而被广泛部署于当今集群存储系统中。纠删码将数据存储为数量众多的条带;每个条带包含数据块和校验块,并被放置于多个机架的多个物理节点上。在众多种纠删码策略中,局部可修复码(LRC)是一类被广泛采用的、具有高效修复性能的纠删码。为了有效响应业务负载的动态性能和可靠性需求,存储系统需要对纠删码数据进行容错转换,即改变纠删码的编码参数,以实现不同的访问性能和数据可靠性。因此,如何提高LRC码的容错转换性能,是一类非常重要的问题。
在本文中,我们采用条带合并的方式来实现LRC码的容错转换,即通过合并多个小的LRC条带,形成一个大的LRC条带。通过条带合并,系统可以实现更高的存储效率及更高的可靠性。然而,我们指出,多个小LRC条带的随机放置策略,会在容错转换时引起巨大的跨机架网络负载。因此,我们基于LRC码的节点与机架级别容错能力,通过仔细决定哪些小条带的数据需聚集于同一机架、哪些数据需分散于多个机架,进而为多个小LRC条带设计了一个最优放置方案。该放置方案在容错转换时可以实现最小化的跨机架网络传输开销,同时也维持了转换前后的修复效率。本文进一步设计实现了一个基于LRC码的集群存储系统原型,并验证了本文放置方案的有效性。实验表明,相较于随机放置策略,最优放置方案能将容错转换时间减小43.2%。