实验室一项成果 (MinFlow) 被文件存储顶级会议 FAST 2024 接收
Posted on 2023-12-24

北京时间2023129日,FAST 2024 公布了论文入选结果,我实验室一篇论文“MinFlow: High-performance and Cost-efficient Data Passing for I/O-intensive Stateful Serverless Analytics”成功入选 FAST 2024 会议!本届会议共收到123篇投稿,最终接受22篇,录用率17.9%。向各位参与研究工作的老师同学、合作者表示祝贺    


论文简介:无服务器计算彻底改变了应用部署,免去了传统的基础设施管理,按需动态分配资源。一个重要的用例是I/O密集型应用程序,如数据分析,它广泛使用关键的”Shuffle”操作。遗憾的是,由于对远程存储的大量PUT/GET请求,特别是在高并行场景下,Shuffle操作带来了严峻的挑战,导致高性能下降和存储成本增加。现有的设计从多个方面优化数据传递性能,而它们以孤立的方式操作,因此仍然会引入不可预见的性能瓶颈,并绕过未开发的优化机会。

在本文中,我们开发了MinFlow,一个用于I/O密集型无服务器分析工作的整体数据传递框架。MinFlow首先快速生成大量可行的具有更少PUT/GET操作的多级数据传递拓扑,然后利用交错划分策略将拓扑DAG划分为小尺寸的完全二分子图,以优化函数调度,进一步减少一半以上到远程存储的传输数据。此外,MinFlow还开发了一个精确的模型来确定最佳配置,从而最大限度地减少实际函数部署下的数据传递时间。我们实现了一个MinFlow的原型,大量的实验表明,MinFlow在作业完成时间和存储成本方面显著优于最先进的系统FaaSFlowLambada,例如,对于200G Terasort应用,在600mapper600reducer函数的高并行情况下,与LambadaFaaSFlowMinFlow分别减少了66.62% - 89.22%Shuffle时间,并且存储成本分别降低了84% - 98.52%

该项工作是由我实验室在读硕士生李涛、李永坤副教授、在读博士生朱文喆,许胤龙教授以及香港中文大学的 John C. S. Lui教授联合完成的。


地址:安徽省合肥市蜀山区复兴路 中国科学技术大学(高新校区)信智大楼 702 703 710室
电话:0551-63602430

Copyright © 2023 先进数据系统实验室 All Rights Reserved

网站制作与维护:卫来科技 提供