实验室一项成果 (Cuber) 被系统领域国际顶会 OSDI 2024 接收
Posted on 2024-04-04

北京时间2024322日,OSDI 2024 公布了论文入选结果,我实验室一篇论文“Cuber: Constraint-Guided Parallelization Plan Generation for Deep Learning Training”成功入选 OSDI 2024 会议!本届会议共收到282篇投稿,最终接受44篇,录用率15.6%。向各位参与研究工作的老师同学、合作者表示祝贺!

论文简介:

大模型的分布式计算越来越重要。为了做到高效的分布式计算,现有的搜索算法通过组合数据并行、算子并行和流水线并行的方式,在三种并行方式的组合空间(即3D并行空间)内搜索最优并行方案。然而,这样的组合空间是一个固化子空间,无法发现新的并行方案。

为了提升并行方案的性能,我们认为AI系统应该赋予系统专家自主定制搜索空间的能力。为此,我们提出了CuberCuber提出了 op-trans, op-assign op-order 三方面原语来灵活描述并行方案的算子切分和时间-空间调度,极大地扩展了并行空间。为了应对搜索空间过大的挑战, Cuber进一步在这些原语上提供了约束接口,让系统专家能通过约束的方式定制搜索空间。Cuber不仅能在已有的并行空间下搜索,更能在新的定制空间下探索出超越3D并行的方案,极大提升(3.5倍)了分布式大模型训练的性能。

该工作是由我实验室在读博士生林郅琦及导师李诚,联合微软研究院苗又山、张权路、朱翼,杨凡、杨懋、周礼栋等人共同完成。


地址:安徽省合肥市蜀山区复兴路 中国科学技术大学(高新校区)信智大楼 702 703 710室
电话:0551-63602430

Copyright © 2023 先进数据系统实验室 All Rights Reserved

网站制作与维护:卫来科技 提供