近期动态

华为-中国科大成功举办计算网络联合创新研讨会(2021春)

2021年3月31日,ADSL实验室联合信息学院信息网络实验室、网络信息中心与华为2012实验室-中央研究院-网络技术实验室在科大西区科技楼共同举办了“华为-中国科大计算网络联合创新研讨会”。研讨会上,联合创新实验室的各位专家领导介绍了实验室的运行情况、实验室成立至今取得的成果与进展,以及未来的工作规划。同时,与会人员围绕数据中心存储、网络的现有架构及未来发展趋势展开了深入的技术研讨。
此次研讨会由李永坤副教授主持,联合创新实验室主任、计算机学院许胤龙教授及其团队,香港中文大学吕自成教授(线上),网络信息中心主任李京教授团队,信息学院洪佩琳教授团队,华为网络技术实验室张小俊主任、付洁主任,韩磊首席技术专家、李峰首席技术专家、郑合文首席技术专家,以及多位技术专家,于翔等多位合作经理都参加了这次创新研讨会。


联合创新实验室主任、中科大计算机学院许胤龙教授向华为公司各位专家的到来表示热烈欢迎,并介绍了联合创新实验室的运行情况。许教授向各位专家对项目的支持与帮助表示感谢,并希望在未来合作中,华为继续从工业界的视角帮助提升中国科大的创新理念,提高科研质量,促进科研成果的转化与推广;中国科大从学术界的角度协同华为应对技术挑战,共同探索未来。

华为网络技术实验室张小俊主任对中国科大承办了这次研讨会表示衷心的感谢,并高度肯定了联合实验室目前的研究进展:联合实验室成果丰硕,项目推进很快,在华为公司内部获得了优异的考评成绩,以及较高的评价与认可。期望未来中科大继续帮助华为应对新一代的技术挑战,帮助华为打好关键性的“技术会战”。

中国科大许胤龙教授、李京教授、洪佩琳教授简要介绍了各自课题组的研究方向以及主要研究成果。



华为首席技术专家韩磊介绍了网络技术实验室在数据中心网络领域的技术规划,从工业界的视角深入探讨了主流场景对网络性能的需求差异、新一代存储介质对网络架构的影响、以及下一代数据中心网络面临的挑战,并展望未来,期望通过网络的高性能、确定性能力、协同创新架构突破存储天花板。

在研讨会上中科大李永坤副教授、网络信息中心沈瑜高级工程师就各自项目进展进行了汇报。

中国科大李诚特任研究员、网络信息中心沈瑜高级工程师、中国科大吕敏副教授、中国科大李永坤副教授、博士生姚路路、硕士生王航就各自工作做了汇报,并和与会人员展开了深入的技术研讨。在场专家和老师均给出了建设性的指导建议,为后续工作的开展指明了方向。

实验室一项成果(PaGraph)被计算机领域顶级期刊TPDS接收

我们实验室自主研究的大规模图的图神经网络训练原型系统PaGraph被计算机领域国际期刊TPDS(CCF推荐A类)接收。向各位参与研究工作的老师、同学、合作者表示祝贺。

论文题目:Efficient Data Loader for Fast Sampling-based GNN Training on Large Graphs

论文摘要:新兴的图神经网络(GNN)将针对图像和文本等数据集的深度学习技术的成功扩展到了更复杂的图结构数据。通过利用GPU加速器,现有框架将mini-batch和采样结合在一起,可以对大规模图进行有效的模型训练。但是,此设置面临可扩展性问题,因为通过带宽有限的链接将大量的图节点属性从CPU加载到GPU的时间开销通常在训练周期中占比很高。在本文中,我们提出了PaGraph,一个新颖的高效数据加载器,可在具有多GPU的单服务器上高效地支持基于采样的GNN训练。 PaGraph通过利用空闲的GPU显存资源来缓存被经常访问的图属性数据,从而大大减少了数据加载时间。它提出了一种轻量级但有效的缓存策略,该策略同时考虑了基于采样的GNN训练的图结构信息和属性数据地访问模式。此外,为了在多个GPU上进行扩展,PaGraph开发了一种快速的GNN计算感知的数据集切分算法,以避免在数据并行训练期间进行跨分区的数据访问,提高了多卡的缓存效率。最后,它将数据加载和GNN计算做流水化,以进一步隐藏数据加载开销。使用Neighbor和Layer-wise这两种采样方法对两个代表性GNN模型GCN和GraphSAGE进行的评估表明,PaGraph可以消除GNN训练中的数据加载时间,与最先进的基准比较,能达到4.8倍的性能提速。结合预处理优化,PaGraph获得了高达16倍的端到端训练加速。

IEEE TPDS

实验室一项成果(IMM-SAN)被数据库领域期刊TKDD接收

我们实验室自主研究的IMM-SAN被计算机数据库领域国际期刊 TKDD (CCF B类) 收录。向各位参与研究工作的老师、同学、合作者表示祝贺。

论文题目:On Modeling Influence Maximization in Social Activity Networks under General Setings

论文摘要:影响力最大化问题(IMP)的研究,即在在线社交网络(OSNs)中找到最具影响力的用户集合以触发最大的影响级联,在市场营销、谣言阻塞等方面具有广泛的应用场景。例如,公司可以通过给那些最有影响力的用户提供免费样品或折扣,然后利用“口碑”效应来触发最大的购买级联。在线社交网络中的影响最大化问题在过去的十年中备受关注并进行了广泛的研究,但是现有的研究工作几乎都只关注OSN中的用户之间的好友关系。考虑到OSN中的用户可能会参加各种在线活动,比如加入同一个讨论组、在同一页面或产品上发表评论等,这些在线活动也会对影响力的传播产生较大影响。因此,我们考虑同时包含好友关系和在线社交活动的社交活动网络(SAN)上的影响力最大化问题研究。首先,我们构建超图模型表示社交活动网络,用两种类型的加权边,即用户之间的边和用户与活动之间的边,分别表示用户之间的好友关系和用户参与的活动。其次,为了解决计算难题,我们通过随机游走定义了SAN上的影响力中心性来模拟SAN上影响力的传播。然后,我们设计了贪婪算法,以找到影响力中心性最大的用户集合进行节点推荐。最后,我们实现了算法并在现实世界数据集上进行了实验评估。实验结果表明,在不同的影响模型下,我们的算法对比最新的影响力最大化算法,在提升计算效率的同时,也能实现更大的影响力传播。

ACM TKDD

中国科大勇夺2020 CCF BDCI大赛openLooKeng赛题冠军

1月23-24日,由中国计算机学会CCF主办,由CCF大数据、高性能计算等七个专委以及教育部易班发展中心、长沙市科技局、长沙高新区管委会、湖南大学、数联众创共同承办的2020 CCF大数据与计算智能大赛决赛(简称CCF BDCI)在长沙举行颁奖仪式。国家高性能计算中心(合肥)先进数据系统实验室李诚特任研究员指导的,由计算机学院五名本科生组成的“中科大星辰队”参与比赛,在大数据系统openLooKeng性能优化赛道突出重围,斩获冠军。
CCF BDCI大赛是在教育部教学指导委员会、国家自然科学基金委员会指导下,由中国计算机学会于2013年创办,是全球大数据及人工智能领域算法、应用和系统挑战最具影响力的大型赛事之一。2020年,第八届CCF BDCI大赛共吸引来自全球25个国家、1247所高校、1873家企业的37994支队伍参赛,提交作品8万余件。大赛共分为14个赛道,其中,openLooKeng赛道希望汇聚海内外产学研用多方智慧提高国产开源大数据虚拟化分析引擎openLooKeng的系统性能,并扩大其开源社区的国际影响力。

在众多参赛队伍中,“中科大星辰队”是为数不多的本科生队伍,由计算机学院大四学生徐宇鸣、陈清源、大三学生刘逸菲、高楚晴、王章瀚组成。在近两个月的赛程中,从初赛到决赛,星辰队作品的性能评分一直位列排行榜第一,领跑来自清华大学等高校的632支队伍。在决赛中,队长徐宇鸣通过逻辑严密、亮点突出的答辩征服了全部评委,最终中科大星辰队以领先第二名20%的绝对优势,夺得了系统赛道openLooKeng赛题冠军,第二名和第三名均为研究生队伍。据了解,星辰队的表现获得了出题方——华为公司的高度肯定。经华为公司的邀请,该队伍已将两个主要技术方案通过Pull Request的形式提交到openLooKeng开源社区,经过严密的技术论证后有望并入主分支,惠及广大用户。

在学校各级部门和学院的大力支持下,先进数据系统实验室长期致力于解决基础核心系统软件中最具挑战的难题,研究成果在驱动大数据及人工智能应用创新方面发挥重要支撑作用,近几年在国内外的学术影响力不断提升。实验室为学生提供了计算机系统能力培养的宽广舞台,也促进了该实验室教师所承担的图论、操作系统、编译原理等重要课程的教学水平。2020年以来,该实验室师生已获得四项全国比赛冠军。未来,实验室将继续关注技术发展与人才培养,助力推动我国大数据技术及产业生态发展,为中科大争取更多荣誉。

实验室一项成果(SpanDB)被存储领域顶级会议 FAST 接收

经过持续两年的努力,我们实验室和卡塔尔QCRI马晓松老师合作的SpanDB被计算机存储系统领域顶级国际会议 FAST 2020 (CCF A类) 收录。向各位参与研究工作的老师、同学、合作者表示祝贺。

这项研究工作利用包括Intel Optane SSD在内的混合介质加速基于LSM-tree的主流健值存储系统。与以往工作不同,我们选择了比非持久性内存NVRAM更便宜且应用更广泛的NVMe SSD,目标是把此类SSD的全部潜力都释放出来,做到物尽其用。最终,加速效果在尾延迟、平均延迟、吞吐率等方面相较业界最新的成果有较为明显的提升。

近年来,在实验室负责人许胤龙教授的带领下,我们实验室在计算机系统特别是在健值数据库方向有了长期稳定的积累,这项工作的发表标志着我们已经突破了“成熟度壁垒”,科研实力向着更高水平迈进。

此项工作得到了国家自然科学基金重点项目、科技部重点研发课题、双一流学科建设、111协同创新、合肥市创新计划的资助,得到了国家高性能计算中心(合肥)、安徽省高性能计算重点实验室、超算中心的平台支持!

论文题目:SpanDB: A Fast, Cost-Effective LSM-tree Based KV Store on Hybrid Storage

论文摘要:键值(KV)存储广泛地应用在许多关键的应用程序和服务中。它们可以进行快速的内存处理,但是仍然经常受到 I/O 性能的限制。高速商用 NVMe SSD 的出现推动了基于超低延迟和高带宽SSD的新型KV系统的设计。但是,要切换到全新的数据结构并将整个数据库扩展到高端SSD,需要大量的资金投入。作为一种折衷方案,基于LSM树的 SpanDB,利用包括 fast NVMe SSD的混合介质加速基于LSM-tree的主流健值存储系统。与以往工作不同,SpanDB选择了比NVRAM便宜且应用更广泛的NVMe SSD,且目标是把此类SSD的全部潜能都释放出来。 SpanDB允许用户将大量数据托管在更便宜和更大的SSD(甚至HDD)上,同时将预写日志(WAL)和LSM树的顶层重新定位到更小,更快的高端 NVMe SSD 。为了更好地利用此NVMe SSD,SpanDB通过SPDK提供了高速并行WAL写入,并启用了异步请求处理以减轻线程间同步开销,并有效地使用基于轮询的I/O。最终,加速效果在尾延迟、平均延迟、吞吐率等方面相较业界最新的成果有较为明显的提升。