近期动态

实验室李诚老师荣获安徽省第五届青年教师教学竞赛工科组一等奖

9月23日至26日,由安徽省总工会、安徽省教育厅主办的安徽省第五届普通高校青年教师教学竞赛在巢湖学院举行,实验室李诚老师获得工科组一等奖。

本次竞赛以“上好一门课”为理念,由教学设计、课堂教学两部分组成,设立文科、理科、工科、医科、思想政治课专项五个组别,每个组别各设置一等奖5名(医科组3名)、二等奖10名(医科组6名)、三等奖若干名。来自全省45所高校的181名青年教师代表参与了本次竞赛决赛。我校选拔来自人文与社会科学学院、化学与材料科学学院、马克思主义学院、附属第一医院和计算机科学与技术学院的6名教师组成代表队,由教务处处长曾长淦担任领队。比赛中,我院李诚老师精神饱满,教态自然大方,讲课深入浅出,语言生动有趣,思路清晰,重点突出,展现了我校青年教师良好的精神风貌。最终,获得工科组一等奖。李诚老师取得的优异成绩充分展示了计算机学院青年教师的教学能力和水平,展现了青年教师的教学风采,激发了广大青年教师积极投入课堂教学和教学改革的热情。

实验室第9届Reading Group正式开始

实验室第9届Reading Group于8月25日揭幕,组织老师为吴思老师,助教为余伟强同学。老师在当晚的揭幕仪式中,给同学们介绍了Reading Group的相关内容、Reading Group建议阅读的Paper范围、如何挑选好的Paper,以及如何高效地汇报等内容。随后,老师针对往届的Reading Group进行了总结,并给出了本届分享会的一些建议。
在分享完毕后,老师对上届获奖的同学们进行了颁奖仪式。获奖的小组如下:

第一组为李缙和高楚晴同学与5月5日汇报的FAST’ 21 D2FQ: Device-Direct Fair Queueing for NVMe SSDs

第二组为朱嘉安和毕超同学于4月14日汇报的Fast’ 21 ‘The Storage Hierarchy is Not a Hierarchy: Optimizing Caching on Modern Storage Devices with Orthus

第三组为陈浩与阮超逸同学于3月10日汇报的Fast21′ Evolution of Development Priorities in Key-value Stores Serving Large-scale Applications: The RocksDB Experience

最后是最佳服务奖,颁给了上届的助教火净泽同学,同学的付出和组织,使得Reading Group能够高效地进展并完成。

恭喜以上的获奖同学,获奖正是同学们辛苦准备的结果,Reading Group也正是有着各位同学们的辛苦努力和不断付出,才能够持续地发光发热。希望本届的同学们积极参与,阅读Paper的过程往往能够获得很多的知识和经验,分享的同时也能够锻炼自己演讲表达的能力和团队协作的能力。
最后,预祝本届的Reading Group圆满成功!

实验室一项成果(SpanDB)被存储领域顶级期刊(ACM TOS)接收

我们实验室在基于混合存储介质优化LSM-tree键值存储的工作被存储领域顶级期刊ACM TOS (CCF推荐A类)接收。向各位参与研究工作的老师、同学、合作者表示祝贺。

论文题目:Leveraging NVMe SSDs for Building A Fast, Cost-EffectiveLSM-tree Based KV Store

论文摘要:Key-Value (KV) stores support many crucial applications and services. They perform fast in-memory process-ing, but are still often limited by I/O performance. The recent emergence of high-speed commodity NVMeSSDs has propelled new KV system designs that take advantage of their ultra-low latency and high bandwidth.Meanwhile, to switch to entirely new data layouts and scale up entire databases to high-end SSDs requiresconsiderable investment.As a compromise, we propose SpanDB, an LSM-tree-based KV store that adapts the popular RocksDB sys-tem to utilizeselective deployment of high-speed SSDs. SpanDB allows users to host the bulk of their data oncheaper and larger SSDs (and even HDDs with certain workloads), while relocating write-ahead logs (WAL)and the top levels of the LSM-tree to a much smaller and faster NVMe SSD. To better utilize this fast disk,SpanDB provides high-speed, parallel WAL writes via SPDK, and enables asynchronous request processingto mitigate inter-thread synchronization overhead and work efficiently with polling-based I/O. To ease thelive data migration between fast and slow disks, we introduce TopFS, a stripped-down file system provid-ing familiar file interface wrappers on top of SPDK I/O. Our evaluation shows that SpanDB simultaneouslyimproves RocksDB’s throughput by up to 8.8×and reduces its latency by 9.5-58.3%. Compared with KVell, a system designed for high-end SSDs, SpanDB achieves 96-140% of its throughput, with a 2.3-21.6×lowerlatency, at a cheaper storage configuration.

实验室一项成果被SOSP2021收录

经过持续三年多的努力,我们ADSL实验室与美国内华达大学的颜枫教授(今年获得NSF CAREER Award)带领的IDS实验室、德国贝尔实验室陈瑞川博士合作完成的HiPress系统被计算机系统领域国际顶会——第28届“ACM操作系统原理大会”(SOSP: ACM Symposium on Operating Systems Principles)收录,向各位参与研究工作的老师、同学、合作者表示祝贺。

在此项研究中,我们关注深度神经网络模型大规模数据并行训练的可扩展性问题。我们通过高效GPU梯度压缩算法自动化生成、压缩感知的梯度聚合协议、代价模型驱动的梯度选择性压缩和分片机制等优化方法,搭建了支持各类梯度压缩算法的高性能数据并行训练框架,横向兼容MXNet、TensorFlow、PyTorch等主流深度学习系统。最终,在业界常用模型上的训练速度相较最新系统有较为明显的性能提升,具有较高的实际应用潜力。

SOSP与OSDI并称为计算机系统领域的最高水平学术会议,两年召开一次,已有54年的悠久历史。本次SOSP大会共有348篇论文投稿,54篇被接收,接收率为15.5%,竞争十分激烈。大会将于10月25日至28日召开,本实验室博士生白有辉将代表参研师生向国内外同行介绍相关成果。

近年来,在实验室负责人许胤龙教授的带领下,在李诚特任研究员、李永坤副教授、吕敏副教授、吴思特任副研究员和诸多实验室同学的共同努力下,ADSL实验室在并行与分布式机器学习系统方向有了深入的认识和长期稳定的积累,这项工作的发表,标志着我们在该领域的认识和积累被国际领域认可,标志着我们实验室的科研水平迈入更高的层次。

此项工作得到了国家自然科学基金重点项目、青年项目、科技部重点研发课题、双一流学科建设、111协同创新、合肥市留学回国人员创新计划的资助,得到了国家高性能计算中心(合肥)、安徽省高性能计算重点实验室、超算中心、亚马逊云计算的平台支持。

论文题目:Gradient Compression Supercharged High-Performance Data Parallel DNN Training

论文摘要:Gradient compression is a promising approach to alleviating the communication bottleneck in data parallel deep neural network (DNN) training by significantly reducing the data volume of gradients for synchronization. While gradient compression is being actively adopted by the industry (e.g., Facebook and AWS), our study reveals that there are two critical but often overlooked challenges: 1) inefficient coordination between compression and communication during gradient synchronization incurs substantial overheads, and 2) developing, optimizing, and integrating gradient compression algorithms into DNN systems imposes heavy burdens on DNN practitioners, and ad-hoc compression implementations often yield surprisingly poor system performance.

In this paper, we first propose a compression-aware gradient synchronization architecture, CaSync, which relies on a flexible composition of basic computing and communication primitives. It is general and compatible with any gradient compression algorithms and gradient synchronization strategies, and enables high-performance computation-communication pipelining. We further introduce a gradient compression toolkit, CompLL, to enable efficient development and automated integration of on-GPU compression algorithms into DNN systems with little programming burden. Lastly, we build a compression-aware DNN training framework HiPress with CaSync and CompLL. HiPress is open-sourced and runs on mainstream DNN systems such as MXNet, TensorFlow, and PyTorch. Evaluation in a 16-node cluster with 128 NVIDIA V100 GPUs and 100Gbps network shows that HiPress improves the training speed up to 106.4% over the state-of-the-art across six popular DNN models.

实验室一项成果被计算机存储领域期刊TC接收

我们实验室在纠删码存储系统中设计均匀数据布局以及高效故障修复算法的工作被计算机存储系统领域顶级期刊IEEE Transactions on Computers(TC, CCF A类)接收。向各位参与研究工作的老师、同学表示祝贺。

论文题目:A Data Layout and Fast Failure Recovery Scheme for Distributed Storage Systems with Mixed Erasure Codes.

论文摘要:纠删码在分布式存储系统(DSS)中变得越来越流行,以提供高可靠性和低存储开销。然而,传统的随机数据放置在故障修复过程中会导致大量的跨机架流量和严重的负载不平衡,这显着降低了修复性能。此外,在DSS中并存的各种纠删码加剧了上述问题。在本文中,我们提出了基于PBD的数据布局 PDL,以优化DSS中的故障修复性能。PDL是基于Pairwise Balanced Design构建的,这是一种具有均匀数学特性的组合设计方案,从而为混合纠删码呈现统一的数据布局。接着我们提出了rPDL,一种基于PDL的故障修复方案。rPDL通过均匀地选择替换节点和检索确定的可用块来修复丢失的块,有效地减少了跨机架流量并提供了几乎均衡的跨机架流量分布。
我们在 Hadoop 3.1.1中实现了PDL和rPDL。与HDFS中现有的数据布局和修复方案相比,rPDL实现了更高的修复吞吐量:单节点故障修复速率为6.27倍,多节点故障修复速率为5.14倍以及单机架故障修复速率为1.48倍。它还将退化读延迟平均降低了62.83%,并在节点故障的情况下为前端应用程序提供了更好的支持。