实验室李诚老师荣获安徽省第五届青年教师教学竞赛工科组一等奖

9月23日至26日,由安徽省总工会、安徽省教育厅主办的安徽省第五届普通高校青年教师教学竞赛在巢湖学院举行,实验室李诚老师获得工科组一等奖。

本次竞赛以“上好一门课”为理念,由教学设计、课堂教学两部分组成,设立文科、理科、工科、医科、思想政治课专项五个组别,每个组别各设置一等奖5名(医科组3名)、二等奖10名(医科组6名)、三等奖若干名。来自全省45所高校的181名青年教师代表参与了本次竞赛决赛。我校选拔来自人文与社会科学学院、化学与材料科学学院、马克思主义学院、附属第一医院和计算机科学与技术学院的6名教师组成代表队,由教务处处长曾长淦担任领队。比赛中,我院李诚老师精神饱满,教态自然大方,讲课深入浅出,语言生动有趣,思路清晰,重点突出,展现了我校青年教师良好的精神风貌。最终,获得工科组一等奖。李诚老师取得的优异成绩充分展示了计算机学院青年教师的教学能力和水平,展现了青年教师的教学风采,激发了广大青年教师积极投入课堂教学和教学改革的热情。

实验室第9届Reading Group正式开始

实验室第9届Reading Group于8月25日揭幕,组织老师为吴思老师,助教为余伟强同学。老师在当晚的揭幕仪式中,给同学们介绍了Reading Group的相关内容、Reading Group建议阅读的Paper范围、如何挑选好的Paper,以及如何高效地汇报等内容。随后,老师针对往届的Reading Group进行了总结,并给出了本届分享会的一些建议。
在分享完毕后,老师对上届获奖的同学们进行了颁奖仪式。获奖的小组如下:

第一组为李缙和高楚晴同学与5月5日汇报的FAST’ 21 D2FQ: Device-Direct Fair Queueing for NVMe SSDs

第二组为朱嘉安和毕超同学于4月14日汇报的Fast’ 21 ‘The Storage Hierarchy is Not a Hierarchy: Optimizing Caching on Modern Storage Devices with Orthus

第三组为陈浩与阮超逸同学于3月10日汇报的Fast21′ Evolution of Development Priorities in Key-value Stores Serving Large-scale Applications: The RocksDB Experience

最后是最佳服务奖,颁给了上届的助教火净泽同学,同学的付出和组织,使得Reading Group能够高效地进展并完成。

恭喜以上的获奖同学,获奖正是同学们辛苦准备的结果,Reading Group也正是有着各位同学们的辛苦努力和不断付出,才能够持续地发光发热。希望本届的同学们积极参与,阅读Paper的过程往往能够获得很多的知识和经验,分享的同时也能够锻炼自己演讲表达的能力和团队协作的能力。
最后,预祝本届的Reading Group圆满成功!

实验室一项成果(SpanDB)被存储领域顶级期刊(ACM TOS)接收

我们实验室在基于混合存储介质优化LSM-tree键值存储的工作被存储领域顶级期刊ACM TOS (CCF推荐A类)接收。向各位参与研究工作的老师、同学、合作者表示祝贺。

论文题目:Leveraging NVMe SSDs for Building A Fast, Cost-EffectiveLSM-tree Based KV Store

论文摘要:Key-Value (KV) stores support many crucial applications and services. They perform fast in-memory process-ing, but are still often limited by I/O performance. The recent emergence of high-speed commodity NVMeSSDs has propelled new KV system designs that take advantage of their ultra-low latency and high bandwidth.Meanwhile, to switch to entirely new data layouts and scale up entire databases to high-end SSDs requiresconsiderable investment.As a compromise, we propose SpanDB, an LSM-tree-based KV store that adapts the popular RocksDB sys-tem to utilizeselective deployment of high-speed SSDs. SpanDB allows users to host the bulk of their data oncheaper and larger SSDs (and even HDDs with certain workloads), while relocating write-ahead logs (WAL)and the top levels of the LSM-tree to a much smaller and faster NVMe SSD. To better utilize this fast disk,SpanDB provides high-speed, parallel WAL writes via SPDK, and enables asynchronous request processingto mitigate inter-thread synchronization overhead and work efficiently with polling-based I/O. To ease thelive data migration between fast and slow disks, we introduce TopFS, a stripped-down file system provid-ing familiar file interface wrappers on top of SPDK I/O. Our evaluation shows that SpanDB simultaneouslyimproves RocksDB’s throughput by up to 8.8×and reduces its latency by 9.5-58.3%. Compared with KVell, a system designed for high-end SSDs, SpanDB achieves 96-140% of its throughput, with a 2.3-21.6×lowerlatency, at a cheaper storage configuration.

实验室一项成果被SOSP2021收录

经过持续三年多的努力,我们ADSL实验室与美国内华达大学的颜枫教授(今年获得NSF CAREER Award)带领的IDS实验室、德国贝尔实验室陈瑞川博士合作完成的HiPress系统被计算机系统领域国际顶会——第28届“ACM操作系统原理大会”(SOSP: ACM Symposium on Operating Systems Principles)收录,向各位参与研究工作的老师、同学、合作者表示祝贺。

在此项研究中,我们关注深度神经网络模型大规模数据并行训练的可扩展性问题。我们通过高效GPU梯度压缩算法自动化生成、压缩感知的梯度聚合协议、代价模型驱动的梯度选择性压缩和分片机制等优化方法,搭建了支持各类梯度压缩算法的高性能数据并行训练框架,横向兼容MXNet、TensorFlow、PyTorch等主流深度学习系统。最终,在业界常用模型上的训练速度相较最新系统有较为明显的性能提升,具有较高的实际应用潜力。

SOSP与OSDI并称为计算机系统领域的最高水平学术会议,两年召开一次,已有54年的悠久历史。本次SOSP大会共有348篇论文投稿,54篇被接收,接收率为15.5%,竞争十分激烈。大会将于10月25日至28日召开,本实验室博士生白有辉将代表参研师生向国内外同行介绍相关成果。

近年来,在实验室负责人许胤龙教授的带领下,在李诚特任研究员、李永坤副教授、吕敏副教授、吴思特任副研究员和诸多实验室同学的共同努力下,ADSL实验室在并行与分布式机器学习系统方向有了深入的认识和长期稳定的积累,这项工作的发表,标志着我们在该领域的认识和积累被国际领域认可,标志着我们实验室的科研水平迈入更高的层次。

此项工作得到了国家自然科学基金重点项目、青年项目、科技部重点研发课题、双一流学科建设、111协同创新、合肥市留学回国人员创新计划的资助,得到了国家高性能计算中心(合肥)、安徽省高性能计算重点实验室、超算中心、亚马逊云计算的平台支持。

论文题目:Gradient Compression Supercharged High-Performance Data Parallel DNN Training

论文摘要:Gradient compression is a promising approach to alleviating the communication bottleneck in data parallel deep neural network (DNN) training by significantly reducing the data volume of gradients for synchronization. While gradient compression is being actively adopted by the industry (e.g., Facebook and AWS), our study reveals that there are two critical but often overlooked challenges: 1) inefficient coordination between compression and communication during gradient synchronization incurs substantial overheads, and 2) developing, optimizing, and integrating gradient compression algorithms into DNN systems imposes heavy burdens on DNN practitioners, and ad-hoc compression implementations often yield surprisingly poor system performance.

In this paper, we first propose a compression-aware gradient synchronization architecture, CaSync, which relies on a flexible composition of basic computing and communication primitives. It is general and compatible with any gradient compression algorithms and gradient synchronization strategies, and enables high-performance computation-communication pipelining. We further introduce a gradient compression toolkit, CompLL, to enable efficient development and automated integration of on-GPU compression algorithms into DNN systems with little programming burden. Lastly, we build a compression-aware DNN training framework HiPress with CaSync and CompLL. HiPress is open-sourced and runs on mainstream DNN systems such as MXNet, TensorFlow, and PyTorch. Evaluation in a 16-node cluster with 128 NVIDIA V100 GPUs and 100Gbps network shows that HiPress improves the training speed up to 106.4% over the state-of-the-art across six popular DNN models.

实验室一项成果被计算机存储领域期刊TC接收

我们实验室在纠删码存储系统中设计均匀数据布局以及高效故障修复算法的工作被计算机存储系统领域顶级期刊IEEE Transactions on Computers(TC, CCF A类)接收。向各位参与研究工作的老师、同学表示祝贺。

论文题目:A Data Layout and Fast Failure Recovery Scheme for Distributed Storage Systems with Mixed Erasure Codes.

论文摘要:纠删码在分布式存储系统(DSS)中变得越来越流行,以提供高可靠性和低存储开销。然而,传统的随机数据放置在故障修复过程中会导致大量的跨机架流量和严重的负载不平衡,这显着降低了修复性能。此外,在DSS中并存的各种纠删码加剧了上述问题。在本文中,我们提出了基于PBD的数据布局 PDL,以优化DSS中的故障修复性能。PDL是基于Pairwise Balanced Design构建的,这是一种具有均匀数学特性的组合设计方案,从而为混合纠删码呈现统一的数据布局。接着我们提出了rPDL,一种基于PDL的故障修复方案。rPDL通过均匀地选择替换节点和检索确定的可用块来修复丢失的块,有效地减少了跨机架流量并提供了几乎均衡的跨机架流量分布。
我们在 Hadoop 3.1.1中实现了PDL和rPDL。与HDFS中现有的数据布局和修复方案相比,rPDL实现了更高的修复吞吐量:单节点故障修复速率为6.27倍,多节点故障修复速率为5.14倍以及单机架故障修复速率为1.48倍。它还将退化读延迟平均降低了62.83%,并在节点故障的情况下为前端应用程序提供了更好的支持。

实验室一项成果(DR-RAID)被系统领域会议ICPP接收

我们实验室自主完成的基于RAID2.0的大规模磁盘阵列的快速修复算法被计算机系统领域会议ICPP(CCF B类)收录。向各位参与研究工作的老师、同学表示祝贺。

论文题目:Fast Reconstruction for Large Disk Enclosures Based on RAID2.0

论文摘要:
随着数据的爆炸式增长,越来越多的企业使用RAID2.0来提供大容量的数据存储。由于内存、CPU、磁盘带宽等资源的限制,当RAID2.0中发生磁盘故障时,数据重构一般是分批进行的。RAID2.0中随机数据布局和重构方案使得在每一批修复的IO负载在幸存磁盘上的分布是不均衡的。这种方式极大地降低了数据重构的速度。为了解决这个问题,我们提出了一种快速修复算法DR-RAID,能够有效地避免在重构过程中IO负载不均衡的情况。相比于在RAID2.0中顺序的执行待重构的任务,DR-RAID动态的从所有的待重构任务中选择一批有着均衡读负载的任务。同时,我们将重构数据分布到幸存磁盘的问题转换为一个二分图模型,并通过在二分图模型中找最大匹配的方式实现了写负载的均衡分布。此外,DR-RAID可以应用在同构和异构的重构带宽的场景中。与目前RAID2.0中的的重构方案进行实验相比,DR-RAID在离线修复中最大能够提升61.90%的重构吞吐量,在变化重构带宽的场景下最大能够提升59.28%的重构吞吐量。DR-RAID能够在不依赖数据布局的情况下有效地消除数据重构过程中局部的IO负载不均衡,极大地缩短了重构负载对用户请求的干扰时间。

实验室2篇Workshop论文被APSys’21与Cloud Intelligence’21接收

Workshop会议接收的论文一般较短,且缺少完整的实验与实现,旨在通过前期探索向业界寻求进一步宝贵的意见与反馈。APSys’21是其开展的第12次,由Heming Cui等大牛组织,成员来自不限于操作系统、虚拟化、存储系统、分布式系统、云计算系统等领域的专家。43篇有效提交中,有20篇被接收。Cloud Intelligence’21,由Jian Zhang等大牛组织,成员不乏来自于各大工业界与名校的云计算专家。

被APSys’21接收的论文题为Lessons Learned from Migrating Complex Stateful Applications onto Serverless Platforms,讲述的是将应用迁移到Serverless平台上的经验与展望,所选取的应用为4个基于微服务架构的开源的、复杂的、有状态的应用,涉及8种编程语言、5种应用框架和40个逻辑计算服务。将这些复杂的应用重构并迁移到Serverless平台上需要较大的开销,这影响了Serverless模式被更多应用采纳的脚步。在这篇论文中,作者根据手动迁移的经验,提炼出了一些编程模式,并总结出了一些帮助人们迁移的经验,以在保证实际性能的前提下尽可能减小代码修改的工作量。这篇论文也展示了迁移部分应用架构的自动化工具的可能。APSys’21将在8月24-25日举行。

被Cloud Intelligence’21接收的论文题为PerfEstimator: A Generic and Extensible PerformanceEstimator for Data Parallel DNN Training。内容旨在通过性能测量与网络模拟实现在单机上轻量化的对分布式数据并行的深度神经网络的性能预测。通过基于当前最常用的管道并行的建模,抽象了算子依赖图到计算-传输流水线的映射。规避了传统分析预测的不稳定性。作者通过PerfEstimator对常用网络(如VGG,resnet)进行了误差小于0.2-10.9%的准确预测。Cloud Intelligence’21已于5月29日举行。

实验室一项成果(PMA)被系统领域会议ICPP接收

我们实验室的自主完成的虚拟化环境中的动态内存调节原型系统被计算机系统领域会议ICPP(CCF B类)收录。向各位参与研究工作的老师、同学表示祝贺。

论文题目:Progressive Memory Adjustment with Performance Guarantee in Virtualized Systems

论文摘要:
在虚拟化环境中,多个虚拟机之间共享主机的各种资源(如内存、CPU等)。为了工作负载的动态变化,虚拟机中的应用程序通常申请比实际使用更多的内存来应对峰值内存需求,因此通过回收虚拟机中的非活跃内存来调整系统内存资源的分配是实现内存超卖的有效方法并且可以有效降低成本。然而,现有的方案是基于一次性调整设计的,可能在一次操作中会回收虚拟机较多的内存,并且现有方案不能感知应用程序的访存动态性以及内存敏感性,因此通常会导致过度回收虚拟机的内存并导致其性能严重下降。为了解决这个问题,我们提出了 PMA,一种渐进式内存调节方案,它同时考虑了虚拟机(包括其中的应用程序)的访存动态性和内存敏感性,并利用性能反馈逐步回收虚拟机的非活跃内存以尽量避免性能损失。此外,PMA 是基于ballooning(即balloon driver)设计的,因此它能够保证虚拟机和主机之间的隔离性。我们还在主机的用户空间实现了原型系统,实验表明 PMA 有效地限制了内存超卖情况下虚拟机的性能下降(例如,在内存超卖率高达 33%时每个虚拟机的性能损失在 10% 以内),这已经是非常接近最佳的效果(即每个虚拟机都拥有足够内存时的性能),因此 PMA 可以有效地在全虚拟化系统中兼顾内存超卖和虚拟机的性能。

北京趋动科技有限公司CEO王鲲博士来访并带来精彩报告

2021年6月19日,北京趋动科技有限公司CEO王鲲博士一行人来访ADSL实验室,并带来了《GPU虚拟化和资源池化技术赋能AI产业》的精彩报告。

自2012年以来,AI算力增长了超过30W倍,这其中一个重要的推动力,便是以GPU为代表的芯片提供的巨大算力。然而根据AWS等云服务提供商的数据,大部分用户的GPU利用率只有10%~30%,国内大部分用户是15%附近,原因是GPU算力的分配无法根据用户需求动态变化。
基于硬件的使用方式会造成资源的独占和闲置,而软件定义是所有硬件成熟使用的必然趋势。趋动科技提供了以OrionX计算平台为代表的GPU资源池化解决方案,致力于降低用户算力成本,推动AI算力平民化,为促进AI产业持续发展做出贡献。王鲲博士详细介绍了GPU虚拟化技术和其OrionX计算平台实现过程中遇到的挑战,并展望了未来潜在的市场规模。提问环节同学们踊跃发言,就相关技术细节展开了深入细致的探讨。

实验室一项成果(Lunule)被超算领域顶级会议SC接收

我们实验室在分布式文件系统元数据管理中负载均衡方面的工作被超算领域顶级会议SC (CCF推荐A类)接收。向各位参与研究工作的老师、同学、合作者表示祝贺。

论文题目:Lunule: An Agile and Judicious Metadata Load Balancer for CephFS

论文摘要:为了在海量元数据访问的场景下获得较好的可扩展性,CephFS采用了动态子树划分的方法,将命名空间拆分成多个子树从而在多个元数据服务器之间进行元数据划分。然而,由于这种方法无法准确地感知不均衡、无法区分不同类型的工作负载以及存在不必要/无效的迁移行为,最终导致了严重的负载不均衡与较差的性能。为了解决这个问题,我们提出了Lunule——一种为CephFS设计的新型元数据负载均衡器。Lunule提出了一种不均衡因子模型来准确地确定触发迁移与容忍不均衡的时机,并提出了一种可感知工作负载类型的迁移决策方案来恰当地选择所要迁移的子树。在与现有工作的对比实验中,Lunule在五种不同的工作负载及其混合上都获得了较好的负载均衡,从而分别在整体吞吐量上取得了最高315.8%的提升以及减少了最多64.6%的尾部工作完成时间。不仅如此,Lunule还能适应元数据服务器和工作负载的动态变化,并且在16个MDS的集群中能较为线性地扩展。