欢迎访问中国科学院重庆绿色智能技术研究院!

支撑平台

高性能计算机集群系统

 

仪器型号:曙光5000计算机集群

购置年月:20119

仪器简介:

曙光5000高效能计算机力求在体系结构、多处理机芯片组、高性能节点操作系统、高可扩展互连网络、高吞吐率通信软件、多线程分割全局地址空间编程模型及编译器等核心技术上实现较大突破;并提供高效能计算机的高密度节点、可靠的系统结构、虚拟化软件、高效能海量存储、并行文件系统、大规模系统的管理软件、系统级鲁棒性技术、超大规模并行算法等产品及技术,从而实现系统的高性能、可编程性、可移植性和稳定性,并服务于未来超算中心能力计算(Capability Computing)和容量计算(Capacity Computing)两类应用。

曙光5000A基于高密服务器构成的“超并行”体系结构(Hyper Parallel Processing,简称HPP);

峰值运算能力20Tflops CPU计算性能+50Tflops GPU计算性能,存储能力96TB并行存储系统+20TB备份存储系统。

应用范围:

1. 高性能计算应用范围:先进制造、电子信息、环境工程、装备制造、通信工程、光电工程、土木工程、软件工程、流体力学计算、生物工程和农学、基因工程、电子信息工程、基因工程、生物医学、车辆工程、化学工程、数字城市、数字工程、影视动画设计、三维动画、特效制作、游戏引擎开发等、天气预报、气象灾害评估、地理信息系统、海量遥感数据处理等;

高性能计算技术作为基础工具,为各个学科行业以多种方式提供支持,提高生产力和创新能力,包括:

1)基础学科中深入的知识发现,问题规模的扩大和求解精度的增加需要更高性能的计算资源。例如,计算流体力学、计算材料学、计算电磁学。

2)多学科综合设计领域中,大量的多部门协同计算需要构建高性能的综合平台。例如,汽车设计、船舶设计。

3)基于仿真的工程科学结合传统工程领域的知识技术与高性能计算,提供经济高效地设计与实践方法。例如,基于仿真的医学实践、数字城市模拟、核电、油田仿真工具、新材料开发、碰撞仿真技术、数字风洞。

4)高性能计算提升众多行业服务、决策的时效性,提高经济效益。例如,实时天气预报、城市交通控制、视频点播服务、动漫设计、网络游戏、基于RFID的货物跟踪、智能电子商务。

5)数据密集型应用需要高性能数据处理,以应对数据爆炸式增长带来的难题。例如,高能物理实验数据处理、遥感数据处理、商业智能、生物信息学、RFID数据挖掘、金融业分析抵押借贷、移动电话流量分析。

2. 云计算应用范围:IAAS硬件虚拟化云服务、云灾备、云存储、云安全、云融合等标准化云服务和研究。
技术参数:

 

曙光高性能计算集群系统配置清单

序号

名称

技术规格

单位

数量

1

硬件部分

1.1

计算子系统

1.1.1

高性能计算分区

刀片平台

曙光TC3600

10U机架式刀片机箱,可以支持10个计算刀片;
2*
管理模块,集成远程KVM和远程虚拟媒体;
1*
千兆网络交换模块,提供10RJ45千兆接口;
1*40Gb/s QDR Infiniband
交换模块,提供18QSFP接口;
4*
双冗余热插拔散热风扇;
3*2000W
电源(2+1冗余热拔插);

7

计算刀片

曙光CB65-G

2*AMD Opteron 6172 12核处理器 (2.1GHz)
8*4GB DDR3 1333MHz
四通道
ECC Register内存;
1*146GB SAS
热插拔硬盘;

2*1000M
以太网卡;

1*
40Gb Infiniband 子卡;

64

SMP胖节点

曙光A840-G

4*AMD Opteron 6172 12核处理器 (2.1GHz)
128GB DDR3 1333MHz 
四通道ECC Register内存; 
4*300GB SAS
热插拔硬盘(1块装系统,3raid5); 
2*
千兆以太网卡;
1*40Gb Infiniband HCA
卡;
1*16GB PCI-E I/0
加速模块;
1000W
冗余电源; 

4

科学计算加速器(GPGPU)

第一性原理计算

4U标准机架式设备
4*Nvidia Tesla C2050
448个计算核心,1.15Ghz
24GB DDR3 Cache
12GB GDDR5 cache
1
个管理网络端口,21Gb接入端口,140Gb QDR IB高速接入端口,冗余电源,内嵌第一性原理计算模块(支持TeraChem)、支持GPU监控/管理/作业调度

6

分子动力学计算

4U标准机架式设备
4*Nvidia Tesla C2050
448个计算核心,1.15Ghz
24GB DDR3 Cache
12GB GDDR5 cache
1
个管理网络端口,21Gb接入端口,140Gb QDR IB高速接入端口,冗余电源,内嵌分子动力学计算模块(支持NAMD/Gromacs)、支持GPU监控/管理/作业调度

10

计算容错模块

曙光CluSnap

4U标准机架式设备;
基于硬件的系统级检查点功能;
16GB
高速系统缓存;
1*40Gb Infiniband 
接口;
2*1000M
以太网接口;

2

1.1.2

云服务分区

云服务节点

曙光A840-G

4*AMD Opteron 6172 12核处理器 (2.1GHz)
128GB DDR3 1333MHz 
四通道ECC Register内存; 
4*300GB SAS
热插拔硬盘(1块装系统,3raid5); 
5*
千兆以太网卡;
2*8Gb HBA
卡;
1*16GB PCI-E I/0
加速模块;
1000W
冗余电源; 

8

1.1.3

协同设计分区

工作站节点

曙光W580I

4U机塔互换式;
2*Intel Xeon E5620 
四核处理器(2.4GHz)
24GB DDR3 1333MHz

2*500GB
 7200转 SATA企业级硬盘;
2*1000M
以太网卡;
1*Nvidia Quadro FX4000 2GB
显存;
3*Nvidia Tesla C2050 3GB
显存
1*
冗余静音电源;
1*
超薄DVD-RW
1*
上架导轨;

10

1.1.4

安全隔离分区

刀片平台

曙光TC3600

10U机架式刀片机箱,可以支持10个计算刀片;
2*
管理模块,集成远程KVM和远程虚拟媒体;
1*
千兆网络交换模块,提供10RJ45千兆接口;
1*40Gb/s QDR Infiniband
交换模块,提供18QSFP接口;
4*
双冗余热插拔散热风扇;
3*2000W
电源(2+1冗余热拔插);

1

计算刀片

曙光CB65-G

2*AMD Opteron 6172 12核处理器 (2.1GHz)
8*4GB DDR3 1333MHz
四通道
ECC Register内存;
1*146GB 2.5
寸 
SAS热插拔硬盘;
2*1000M
以太网卡;

1*
40Gb Infiniband 子卡;

10

SMP胖节点

曙光A840-G

4*AMD Opteron 6172 12核处理器 (2.1GHz)
128GB DDR3 1333MHz 
四通道ECC Register内存; 
4*300GB SAS
热插拔硬盘(1块装系统,3raid5); 
3*
千兆以太网卡;
1*40Gb Infiniband HCA
卡;
1*16GB PCI-E I/0
加速模块;
1000W
冗余电源; 

1

1.2

管理控制子系统

集群管理/监控节点

曙光CB65-G

2*AMD Opteron 6128 8核处理器 (2.0GHz)
8*4GB DDR3 1333MHz
四通道
ECC Register内存;
1*146GB SAS
热插拔硬盘;

2*1000M
以太网卡;

1*
40Gb Infiniband 子卡;

1

IB子网管理节点

曙光CB65-G

2*AMD Opteron 6128 8核处理 (2.0GHz)
8*4GB DDR3 1333MHz
四通道
ECC Register内存;
1*146GB SAS
热插拔硬盘;

2*1000M
以太网卡;
1*40Gb Infiniband 子卡;

1

功能节点(NISNTPFTP、作业调度、License

曙光CB65-G

2*AMD Opteron 6128 8核处理器 (2.0GHz)
8*4GB DDR3 1333MHz
四通道
ECC Register内存;
1*146GB SAS
热插拔硬盘;

2*1000M
以太网卡;

1*
40Gb Infiniband 子卡;

2

登录节点(分区)

曙光CB65-G

2*AMD Opteron 6128 8核处理器 (2.0GHz)
8*4GB DDR3 1333MHz
四通道
ECC Register内存;
1*146GB SAS
热插拔硬盘;

2*1000M
以太网卡;

1*
40Gb Infiniband 子卡;

2

登录节点(分区)

曙光A620r-G

2U机架式;
2*AMD Opteron 6128 8
核处器 (2.0GHz)
8*4GB DDR3 1333MHz

1*146GB 2.5
寸 SAS热插拔硬盘;
2*1000M
以太网卡;
1*40Gb Infiniband HCA
卡;
1*
冗余电源;
1*
超薄DVD-RW
1*
上架导轨;

2

1.3

安全控制子系统

安全认证服务器

曙光SecServer750

5U机塔互换设计,1Xeon E5506处理器,2G DDR3内存,500G SATA 2硬盘,DVD-ROM,专用高性能加密卡,加密认证软件光盘,具有CA认证、签名、单机登录等功能,与Nikey结合组成身份认证解决方案,拥有国家密码管理局认证。

1

网络审计设备

曙光NetFirm-A1600

6个千兆口,4个光口,2U机架,冗余电源,实现网络内容与行为审计,支持网站过滤、聊天监控、邮件监控、行为管理、日志审计等功能,并发连接数250万,吞吐量4.5G,用户数5000

1

网络防火墙

龙芯防火墙C10TLFW-1000L

并发连接数100万,吞吐量1GVPN隧道数600

2

智能密钥

曙光NiKey100

曙光NiKey100智能密码钥匙,保证身份认证安全。与曙光GridView、防火墙VPN配合使用。

100

1.4

存储子系统

并行存储系统Parastor(高性能计算分区)

P100-MDC(数据索引控制器)

高性能64位处理器,24GB Cache1个管理网络端口,21Gb接入端口,140Gb QDR IB高速接入端口,冗余电源,内嵌高性能数据索引引擎,实现单一全局命名空间,管理多客户端的并行访问,支持双机热备

2

P100-IOM(数据存取模块)

高性能64位处理器,24GB Cache1个管理网络端口,21Gb存取端口,140Gb QDR IB高速存取端口,冗余电源,内嵌高性能数据存取引擎,并行处理所有客户端的数据访问请求,自动负载均衡,支持按需动态扩展,支持双机热备

4

P100-SSU(智能存储单元:64TB

高性能64位处理器,全冗余架构,1个管理网络端口,支持多个RAID5RAID6RAID级别,支持SASSATASSD三种存储介质,提供海量存储空间,最大可扩展到1EB,支持多副本容错,支持按需动态在线扩展;实际配置裸容量64TB企业级SATA硬盘作为大容量存储空间

1

管理软件

内嵌曙光并行存储管理软件系统,中文界面,图形化显示,实时监控并行存储系统各组成模块的运行状态以及并行存储系统的I/O性能

1

并行存储系统Parastor(安全隔离分区)

P100-MDC(数据索引控制器)

高性能64位处理器,24GB Cache1个管理网络端口,21Gb接入端口,140Gb QDR IB高速接入端口,冗余电源,内嵌高性能数据索引引擎,实现单一全局命名空间,管理多客户端的并行访问,支持双机热备

2

P100-IOM(数据存取模块)

高性能64位处理器,24GB Cache1个管理网络端口,21Gb存取端口,140Gb QDR IB高速存取端口,冗余电源,内嵌高性能数据存取引擎,并行处理所有客户端的数据访问请求,自动负载均衡,支持按需动态扩展,支持双机热备

4

P100-SSU(智能存储单元:32TB

高性能64位处理器,全冗余架构,1个管理网络端口,支持多个RAID5RAID6RAID级别,支持SASSATASSD三种存储介质,提供海量存储空间,最大可扩展到1EB,支持多副本容错,支持按需动态在线扩展;实际配置裸容量32TB企业级SATA硬盘作为大容量存储空间

1

管理软件

内嵌曙光并行存储管理软件系统,中文界面,图形化显示,实时监控并行存储系统各组成模块的运行状态以及并行存储系统的I/O性能

1

备份存储系统

曙光Dbstor备份存储系统

4U机架式,2个千兆网口,8GB缓存,20TB智能磁盘,含重复数据删除,企业版备份软件,20个异构客户端,840W 2+1冗余电源

1

光纤交换机

博科24端口光纤交换机

BR-360-0008-A24端口交换机,24端口激活,单电源(固定),含248Gb短波SFP,含Web toolsZoning软件授权,支持级联,1年原厂保修(非现场)

1

1.5

网络子系统

高速计算网络

Mellanox MIS5100Q-3DNC QDR IB交换机

标配机箱:6U模块化交换机机箱、最大可支持108口(6个页板),机箱内包括3个内部交换模块、3个自适应110/220V AC电源模块(2+1冗余)、管理模块、热插拔风扇模块、上架套件

1

Mellanox MIS5001QC 18QSFP 40Gb/s IB页板

18+18端口QSFP 40Gb/s IB页板,芯片采用InfiniScale? IV,用于MIS5XXX系列交换机

6

Infiniband线缆

FreePort QSFP(QDR) IB线缆(QDR 4X QSFP-QSFP IB线缆)

108

千兆以太网络

Force10 C150交换机

配置9610/100/1000baseT铜接口,包括:1个标配机箱(含1AC电源,1个路由交换模块),2481Gb RJ-45口以太网卡板,1份操作系统

1

1.6

基础架构子系统

曙光C1000散热系统

空调室内机

曙光云座C1000氟冷水平送风空调室内机模块,最大显冷量35KW,最大风量7000m3/h,尺寸600*1200*2000mm

3

空调室外机

GMVL-Rm600W/D,制冷量60KW

3

除尘除湿一体机

曙光云座除尘除湿一体机,除湿量5kg/h,过滤等级亚高效

1

机柜

曙光云座C1000封闭机柜,尺寸600*1200*2000mm,有效空间42U,静载1000kg

12

监控系统

C1000监控采集器

空调及机柜内部传感器数据采集及上传功能

1

C1000温度探头

测量机柜内部温度

C1000温湿一体探测器

测量机柜排冷、热通道内微环境的温度及湿度

C1000烟雾探测器

测量机柜冷、热通道内微环境的烟雾浓度,预防火灾隐患

C1000漏水探测器

测量空调室内机下部冷凝水漏水,防止漏水水灾隐患

控制台

曙光集群控制台

1U手动伸缩控制台(曙光17”液晶显示器、鼠标、键盘、8口切换器等)

1

视频切换系统

SKVM

SKVM IV Over IP(包含键盘鼠标),CIM节点控制模块

1

2

软件部分

操作系统

Linux

SuSE Linux 企业版 11.1

1

GPU编程环境

Nvidia GPU开发环境

nvcc C语言编译器

1

用于GPU(图形处理器)的CUDA FFT以及BLAS

分析器(Profiler

用于GPU(图形处理器)的gdb调试程序

CUDA运行时驱动程序

云管理系统

曙光Cloudview

曙光Cloudview云管理平台,支持项目组织管理、计费管理、虚拟化管理、云安全管理等功能

1

集群管理系统

曙光GridView 2.5

GridView HPC版,支持系统部署、系统监控、集群管理、数据报表、统一告警、作业调度

1

GridView应用Portal8个基本应用Portal,支持AnsysLsdynaAbaqusFluentVaspGaussianNAMDGromacs4个定制应用Portal,根据用户需求开发

1

GridView集群节能模块PowerConf 2.0

1

应用开发环境

编译器

GNU 编译器,支持C/C++ Fortran77/90
Intel
编译器,支持C/C++ Fortran

1

数学库

BLASLAPACKScaLAPACKFFTW

1

MPI并行环境

OpenMPI(支持Infiniband和以太网的MPI环境)

1

MPICH(支持千兆以太网的MPI环境)

1

CPU峰值(Tflops

20.16

 

 

 

GPU峰值(Tflops

50.43