北京时间2023年12月9日,FAST 2024 公布了论文入选结果,我实验室一篇论文“MinFlow: High-performance and Cost-efficient Data Passing for I/O-intensive Stateful Serverless Analytics”成功入选 FAST 2024 会议!本届会议共收到123篇投稿,最终接受22篇,录用率17.9%。向各位参与研究工作的老师同学、合作者表示祝贺!
论文简介:无服务器计算彻底改变了应用部署,免去了传统的基础设施管理,按需动态分配资源。一个重要的用例是I/O密集型应用程序,如数据分析,它广泛使用关键的”Shuffle”操作。遗憾的是,由于对远程存储的大量PUT/GET请求,特别是在高并行场景下,Shuffle操作带来了严峻的挑战,导致高性能下降和存储成本增加。现有的设计从多个方面优化数据传递性能,而它们以孤立的方式操作,因此仍然会引入不可预见的性能瓶颈,并绕过未开发的优化机会。
在本文中,我们开发了MinFlow,一个用于I/O密集型无服务器分析工作的整体数据传递框架。MinFlow首先快速生成大量可行的具有更少PUT/GET操作的多级数据传递拓扑,然后利用交错划分策略将拓扑DAG划分为小尺寸的完全二分子图,以优化函数调度,进一步减少一半以上到远程存储的传输数据。此外,MinFlow还开发了一个精确的模型来确定最佳配置,从而最大限度地减少实际函数部署下的数据传递时间。我们实现了一个MinFlow的原型,大量的实验表明,MinFlow在作业完成时间和存储成本方面显著优于最先进的系统FaaSFlow和Lambada,例如,对于200G Terasort应用,在600个mapper和600个reducer函数的高并行情况下,与Lambada和FaaSFlow,MinFlow分别减少了66.62% - 89.22%的Shuffle时间,并且存储成本分别降低了84% - 98.52%。
该项工作是由我实验室在读硕士生李涛、李永坤副教授、在读博士生朱文喆,许胤龙教授以及香港中文大学的 John C. S. Lui教授联合完成的。