加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 云计算 > 正文

你见过这个版本的龙生九子吗?

发布时间:2017-02-05 04:19:40 所属栏目:云计算 来源:至顶网
导读:副标题#e# --> 在《这届超算大会展示了哪些黑科技?》一文中,提到过专门用于GPU/协处理器(下文中简称GPU或者加速器)计算的DellPowerEdge C4130服务器平台。戴尔C4130可以保证在1U空间内支持4块全尺寸GPU卡,大大提升了系统的计算密度比。中国有句话叫做
副标题[/!--empirenews.page--]

-->

在《这届超算大会展示了哪些黑科技?》一文中,提到过专门用于GPU/协处理器(下文中简称GPU或者加速器)计算的DellPowerEdge C4130服务器平台。戴尔C4130可以保证在1U空间内支持4块全尺寸GPU卡,大大提升了系统的计算密度比。中国有句话叫做,龙生九子,各有不同,这句话放在C4130身上特别的贴切。这款产品拥有九种形态,可以适应不同的应用需求。

你见过这个版本的龙生九子吗?

同样我也提到过C4130中可选96 lane PCIe 3.0Switch,引入它之后该平台的GPU/协处理器卡连接方案达到9种之多。这样设计的目的,或者说对用户的价值是什么呢?

我们先列出一些值得关注的方面,下文中将围绕它们进行衡量:

1、CPU to GPU/协处理器带宽;

2、GPU to GPU直连访问(GPUDirect),

池化or拆分;

3、网络I/O带宽限制;

4、散热、功耗和成本。

Xeon CPU PCIe

通道限制及解决方案

你见过这个版本的龙生九子吗?

蓝色标注部分包括“GPU switchboard”和电源功率,注意只有1600W和2000W电源模块可以支持4个GPU/协处理器卡。

上图引用自《Dell PowerEdge C4130 Owner's Manual》,里面明确标出了CPU、GPU等组件在机箱中的位置,以及从A到I共9种连接方案,除了CPU和GPU的数量、有没有PCIe Switch板之外,还有一点受影响的就是服务器PCIe扩展槽。

你见过这个版本的龙生九子吗?

这个示意图是GPU卡的安装。用于高密度服务器的GPU都是被动散热方案,系统风扇和风道设计就很重要了。

你见过这个版本的龙生九子吗?

GPU switch board

6个插槽的作用我会在后面讲

你见过这个版本的龙生九子吗?

这个转接板的金手指不是标准的PCIe定义,下面我们来看看它的连接示意:

你见过这个版本的龙生九子吗?

PowerEdge C4130主板上有4个PCIe x16连接器,它们都不是直接插设备的。中间2个可以选择选向后连接其它PCIe扩展卡,位于两侧的我在这个示意图里用蓝色标出。

我们知道每颗Xeon E5 CPU提供40 lane PCIe 3.0通道,如果提供2个x16用于全速连接GPU,不做专门设计的话,位于PCIe扩展卡的位置只能提供x8的带宽。由于C4130的HPC用途和计算密度,有时需要配置双端口56Gb/s Infiniband,以及100Gb/s EDR IB和Intel Omni-Path高速网卡。因此才会有上面的连接选项。

在这种情况下CPU自身的PCIe控制器信道数开始不够用,PCIe Switch被引入,同时GPU之间的直接通信效率更高。

配置A&B;:GPU点对点,重加速器轻I/O

你见过这个版本的龙生九子吗?

如上图,配置A是将单Xeon E5 CPU的一个PCIe x16连接到GPU switch board,然后再用后者连接4个GPU,同时CPU 1的另一个PCIe x16插槽用于提升其它扩展卡的带宽。在同等密度下经济性最好,每个GPU/协处理器到CPU之间的平均带宽虽然不算高,但GPU之间可以通过GPUDIRECT技术直接高效通信。

配置B是在这个基础上增加了一颗CPU,保持PCIe Switch和GPU的池化连接方式,与配置A相比提高了CPU计算能力和内存支持。

你见过这个版本的龙生九子吗?

这张示意图是PowerEdge C4130的GPU供电连接,四条线缆都是从电源与主板连接的位置附近引出。如果是没有GPU switch board的配置,那条浅绿色的就不需要了。

配置C:最大加速器&CPU;密度,高度均衡架构

你见过这个版本的龙生九子吗?

配置C也是一种比较常用的方案。不需要增加GPU switch board,而且CPU与GPU之间还都是PCIe x16全速连接。它对4个GPU的支持为拆分(split)模式,如果说尚有缺憾之处,就是必须配2颗CPU,并且后面2个常规PCIe扩展槽位都只有x8带宽。正是因为每种方案各有取舍而非十全十美,所以C4130才提供了这么多选择。

配置D:平衡加速器密度和高性能I/O

你见过这个版本的龙生九子吗?

配置D只安装了2个GPU/协处理器卡,所以每CPU都剩下1个PCIe x16,这样在不用GPU switch board的情况下后面的2个扩展卡就都可以跑到全速。能够充分发挥InfiniBand EDR高速网卡的带宽。

配置E/F:低密度Scale-out电源散热需求放松

你见过这个版本的龙生九子吗?

配置E针对入门级GPU密度环境,单一CPU不用switch board PCIe x16直连两块GPU卡。因为没有插第二个CPU,这时PCIe扩展卡只能支持1块x8带宽的。该配置以相对较低的功耗换来了良好的Scale-out能力,因为每台PowerEdge C4130的供电和散热需求降低了,单位机架空间内就可以多放几台。

配置F是在配置E基础上增加第二颗CPU,除了前面提到过的好处之外,就是第二个x8 PCIe扩展槽也可以使用了。这里CPU2上的PCIe也没有使用x16宽度连线,估计是为了保持其入门级定位。

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读