实验室一项成果 (Tetris) 被体系结构顶级会议 HPCA 2024 接收
Posted on 2023-10-24

北京时间20231023日,HPCA 2024 公布了论文入选结果,我实验室一篇论文“Tetris: Boosting Distributed DNN Execution with Flexible Schedule Search”成功入选 HPCA 2024 会议!本届会议共收到410篇投稿,最终接受75篇,录用率18.3%。向各位参与研究工作的老师同学、合作者表示祝贺!

 

论文简介:

大模型的分布式计算越来越重要。为了做到高效的分布式计算,现有的方案往往考虑如何在空间维度上切分和放置算子,并基于此,在时间维度上采用人工精心设计的调度算法(如1F1B)来提高设备利用率。然而,固定的调度算法反过来约束了空间维度上的算子摆放策略,在新兴模型上遇到了性能瓶颈。

为了做到更加灵活高效的分布式计算,我们提出了Tetris,能针对任意算子的摆放位置来寻找出高效的调度算法。Tetris的核心,在于观察到高效的调度算法往往包含有重复的、有规律的执行结构(repetend)。 Tetris在此观察上进行搜索和构造,来寻找最优的repetendTetris的出现能极大程度解除空间维度的算子摆放限制,并利用搜索出的高效调度算法,极大提升了(5.5倍)大模型分布式训练和推理的性能。

该工作是由我实验室在读博士生林郅琦、微软研究院苗又山、我实验室在读博士生许冠斌、李诚副教授、微软研究院Olli SaarikiviSaeed Maleki 和杨凡老师联合完成,李诚老师为通讯作者。


地址:安徽省合肥市蜀山区复兴路 中国科学技术大学(高新校区)信智大楼 702 703 710室
电话:0551-63602430

Copyright © 2023 先进数据系统实验室 All Rights Reserved

网站制作与维护:卫来科技 提供