实验室介绍

主要研究方向
  • 分布式文件系统

  • 分布式灾备系统

  • 深度学习系统

  • 对象存储系统

  • 虚拟化平台

  • 图分析技术

实验平台
分布式系统集群

目前本分布式存储系统提供两种存储模式,数据分别存储到分布式文件系统和分布式数据库系统中。其中分布式文件系统支撑Ceph,HDFS和基于内存的Alluxio。分布式数据库系统为HBase和Cassandra。结合数据分布、数据冗余和一致性策略,保证数据的一致性和可靠性。并且还支持基于新介质(如SSD和PCM)的本地文件系统,加速数据的存取。目前本分布式存储系统可支持Openstack、Spark、Apache Web Server、MySQL和Oracle VirtualBox等多种应用。具体系统架构如图所示。

固态硬盘阵列系统

RAID(Redundant Array of Independent Disk 独立冗余磁盘阵列)是一种由多块廉价磁盘构成的冗余阵列,RAID阵列系统可以充分发挥多块硬盘的优势,提升I/O访问速度,增大存储容量,同时提供容错功能,能够确保数据安全性,并且易于管理。此外,系统不会受到损坏硬盘的影响而停止工作。

根据RAID中数据组织结构的不同,RAID可以被分为不同的类型,如RAID-0,RAID-1,RAID-5,RAID-6。这些不同类型的RAID具有各自的优缺点,并适合不同的应用场景。

图计算与分析系统

本研究方向的主要内容是大型图上的计算与分析,其中大型图是对大规模社交网络的一种抽象描述。为了支持对大型图的存储与计算,我们使用了四台刀片式服务器。每一台服务器的内存容量为64G,拥有两块主频为2.6GHz的物理CPU,每块CPU包含8个核。为了允许多用户使用,本实验组成员在服务器上安装了14.04版本的Ubuntu系统,并在该系统上配置了不同的编程环境,支持C、C++、Python等开发语言。同时基于SSH实现了该机器的远程连接功能,使得组内人员可随时随地进行相关实验的推进与监督。

借助已配置的刀片式服务器,本组先后完成了不同的学术实验,如社交活动网络中影响力最大化问题的研究、基于随机游走的大型图采样加速研究以及社交网络中graphlet的快速计算研究等。在此期间,大型图的规模最大达到了千万节点,亿万条边。未来,我们将会尝试更大规模的图,并在其上进行更为宽泛的相关课题研究。

大内存管理系统

在内存管理系统中,我们主要致力于操作系统中内存管理问题的研究,其中包括虚拟机内存管理优化、高性能内存计算系统的设计与优化、GPU虚拟化技术及显存管理优化、Docker的I/O性能优化和缓存管理等问题。

该系统包含4个众核、大内存结点,内存总容量达2TB,磁盘规模为20TB。基于该平台,我们设计并实现了一套高性能混合页内存管理系统,该成果已发表在ATC’2017上。此外,我们还研究了Spark、Docker、GPU系统中的内存管理问题。同时,面对当前的云计算潮流,我们积极与阿里云、华为进行了项目合作,将学术成果运用在工业界。