ExpressFabric:打破陈规、开拓思维

Broadcom PEX9700 系列 PCIe 新一代交换机
使用 ExpressFabric® 技术转换机架
 
Broadcom PEX9700 系列交换机芯片提供行业首屈一指的新功能系列,能够显著提升性能,同时降低电源消耗,将成本降低 50%,打造需求最高的超融合、NVMe 和机架扩展系统。
 
PEX9700 系列利用 ExpressFabric 技术能够实现高性能、低延迟性、可扩展、经济高效的光纤能力。基于 Gen3 PCI Express®,技术目前可赋予与标准 SR-IOV 或多功能设备共享 I/O, 让多个主机位于基于使用标准 PCIe 列举之网络的单一 PCIe® 的能力。主机通过 DMA (NIC DMA) 这类使用标准主机、终端和应用软件的以太网进行沟通。还可使用短数据包,称之为隧道窗口连接 (TWC) 的延迟性异常低的主机到主机的沟通能力。
PCIe-centric_datacenter-rack

ed(Id:1211130633576;Type:AVG_Image_C)]

降低成本,功耗和延迟性
ExpressFabric 技术旨在替换在云/数据中心机架内运行的“架桥”和转换设备。事实上所有组件构成数据中心的基础——CPU、存储设备和沟通设备——PCIe 至少是其其中一个连接,因此此种情形是有可能存在的。使用 PCIe 作为主光纤,所有组件可直接交互操作。移除将 PCIe(组件上)转换为以太网或无限宽带(作为两种普通替代品)的需求,机架成本和功耗将大幅度下降。除此之外,组件之间的直接沟通也会降低延迟性。
 
融合光纤
机架中拥有多个光纤,这在数据中心内很常见。以太网通常用于沟通,光纤渠道用于存储,无线宽带则常用于 HPC 流量。ExpressFabric 技术能够处理所有不同的数据类型,并且以与基于 PCIe 的单一光纤一致的速度运行。此能力消除了使用不同协议区分不同数据类型的需求,其考虑到可按照需求跨机架分配处理器和端点的真正融合的光纤。除此之外,它们都将在低延迟性、高宽带 PCIe 路径中进行有效通信。
 
直接连接至 SSD
企业级别的 SSD 正在快速规范 PCIe,使其成为主要互连至高性能闪存。存储子系统可基于此方法直接连接至 ExpressFabric 技术,考虑到将整入可扩展中光纤的高性能、低延迟性闪存元素。
pex9700_shared_io
 
共享 I/O 使用标准
基于 ExpressFabric 的系统可让多个主机通过标准 SR-IOV 设备与终端共享数据。通常,SR-IOV 设备允许单一主机内的多个虚拟机器 (VM) 共享一个终端。ExpressFabric 技术通过延伸,允许多个主机内的 VM 具备相同的能力。除此之外,此功能还可通过标准、供应商供应的 SR-IOV 驱动运行,维护现有的所安装的硬件和软件。
pex9700_host_to_host
 
多用途主机到主机 DMA
数据中心内运行的大多数应用使用以太网作为光纤,出于此目的已部署大量现有的应用。ExpressFabric 技术通过使用各主机端口的虚拟以太网 NIC,实现应用软件无差别运行。
 
低延迟性主机到主机 NIC DMA
性能对聚集应用很关键时,NIC DMA 被用来排除大多数软件重复复制数据的开销。ExpressFabric 已指定 NIC DMA 硬件来处理此功能,提供高性能无需专门的硬件。

pex9700_management_cpu

软件定义光纤
基于 ExpressFabric 的解决方案以混合硬件/软件平台为基础。关键路径具备硬件的直接支持,其可让光纤能够提供无拦截、具备共享或 DMA 特征的线速度性能。
 
此解决方案提供一创新方式进行设置和控制,充分利用芯片外管理 CPU (mCPU) 来预制光纤、配置路由表、处理错误和热插拔活动,并使解决方案能够扩展能力,无需改良硬件。
 
mCPU 启用的一个关键特征是能够允许多个主机位于 PCIe 网络,但使用标准主机列举方式予以实现。该性能直至今天仍无法通过基于 PCIe 的系统实现。mCPU 通过为各主机综合一个层级执行此项任务。由于此项合成,主机“看到”普通的 PCIe 层级,但实际上,其只看到 mCPU 认可的内容。主机在光纤内无直接连接,因此能够运行标准列举和软件。
 
隧道窗口连接 (TWC)
作为整个解决方案的一部分,主机能够以两种不同方式进行通信。数据中心中通常使用 DMA,ExpressFabric 解决方案支持其顺畅实现扩大信息规模。
 
简短信息需要在主机之间进行传达时,可使用称作 TWC 的方法。TWC 允许信息以非常低的延迟性方式从一个主机传达至另一主机,并且无有关 DMA 的开销。
 
下游端口控制 (DPC/eDPC)
多数服务器难以处理严重错误,尤其是终端由于断开连接而从系统中消失。问题趋向于通过系统急剧增加,直至无法修复。DPC/eDPC 允许在出现不可挽回的错误之后禁用下游链接。此性能实现错误可通过合适的软件得到修复,尤其在存储系统中很关键,因为移除驱动必须通过控制和强健的方式。
 
除了提供 PCI-SIG ECN,ExpressFabric 设备追踪下游端口未解决的读数,它们合成一个最终结果,从而如果移除终端,主机不会收到超时的结果。
 
灵活的光纤拓扑
ExpressFabric 技术排出了 PCIe 的拓扑限制。PCIe 网络通常必须以阶层式拓朴进行安排,其中单一路径从一端到达另一端。ExpressFabric 技术认可其他拓扑,如网状、胖树形等其他拓扑;同时允许组件保留结构性以及软件与标准 PCIe 兼容时予以认可。
fat_tree_topology
改善的 SSC 隔离
ExpressFabric 设备提供多个机制,支持多个时钟域,其中包括传输时钟序列,其消除了跨越底板传递普通时钟的需求。除了问题的标准 Broadcom 解决方法——公司融入其多代产品的机制——Broadcom 还添加了新 PCI-SIG 方法,即 SRIS(单独 Refclk 独立 SSC 架构)。
 
通过 SSC 隔离的标准方法,不同供应商的设备科提供此好处,其赋予系统设计者更多灵活性。
 
建立在夯实的基础之上
Broadcom ExpressFabric 设备建立在相同基本交换元素基础之上,作为当前高道数设备系列。同样,它们支持 Broadcom 的标准设备提供的一组功效相同的特征,其中包括:
  • 单程 ~150 ns (x16 to x16) 的低延迟性
  • 高度灵活的端口配置
  • 灵活的注册配置
  • SerDes 功耗和信号管理
  • 灵活的内部缓冲分布和包留控制
  • 直接热插拔能力,在最大设备上最高可用于六个端口,序列热插拔用于所有端口
  • Broadcom performancePAK 和 visionPAK 套件
设备
基于 ExpressFabric 技术的产品能够提供出色的解决方案,用于设计异构系统,该系统需要灵活处理器、存储元件和通信设备。
 
存储应用
设备是一个具有特定能力的专用功能盒子,通过标准接口——通常是以太网与余下的系统连接。此方法通常用于存储,因为其相对简单,只需将其纳入网络之中,即可增加更多存储空间。
 
大多数现代高速存储子系统均搭配使用旋转媒体和 SSD 以平衡性能和成本,纳入一些流程以及管理系统。可采用 ExpressFabric 对这些系统进行高效部署,因为存储子系统均直接 (SSD) 或者间接(SAS 或 SATA 控制器)连接至 PCIe,并且能够与处理器和通信芯片直接通信。
 
高性能运算 (HPC) 集群
HPC 集群由高性能处理元件构成。这些高性能处理元件通过高带宽、低延迟路径通信,以执行应用,例如医疗影像、金融交易、数据仓库等。
 
基于 ExpressFabric 的解决方案能够提供同样的能力——高带宽、低延迟和开关光纤。处理子系统能够直接连接至 PCIe 光纤并且运行同样的应用软件,由于无需桥接设备,所需的成本和功率更低。此外,如有需要,可在集群系统内设置 I/O 共享作为附加的本地功能,如果 InfiniBand 中置入了传统集群系统,则通常不用提供。
blade_based_server
基于机架和刀片的服务器
创建现代云和企业数据中心的一般服务器盒包括含有模块化子系统的机架通过背板或者电缆互相通信。机架内部的连接可从使用 ExpressFabric 技术中获益。不再将每个子系统作为一个单独的服务器节点(带有一些预先测定或者有限的处理、存储和通信量),取而代之的是基于 ExpressFabric 解决方案上的刀片能够与专用的刀片结合,执行特定功能。
 
这种分散的方法能够根据应用的特定需求,能够正确混合各种功能。因为它们都通过 PCIe 连接相互直接连接,子系统之间的延迟非常低、而且从软件的角度看,整个系统的构架像是一个大的系统。
microserver
 
微服务器 (MicroServer)
微服务器 (MicroServer) 是一种设计带有大量较低功率和较低成本处理引擎而非更大(因而功率和成本更高)高端服务器处理器的系统。当应用需要大量集中处理时,但是应用能够在许多更小的引擎间分散时,它们能够提供显著的优势。一些典型应用为 Web 服务器和 Hadoop 数据分析。
 
当今许多微服务器 (MicroServer) 元件由具有处理、存储和通信功能的系统芯片 (SoC) 构成,这些元件与专有或者低速以太网连接共同连接。由于相似的处理元件上带有 PCIe,一般来说,ExpressFabric 是微服务器 (MicroServer) 系统的理想连接体。
 
现有的系统芯片 (SoC) 可针对标准、低延迟、高性能解决方案共同连接,或者不同的元件可以同标准服务器一样进行分解。
 
开发工具
Broadcom 提供一个基于 ExpressFabric 且同时包含硬件和软件工具的开发平台。硬件基准平台实施全机架水平柜顶交换机盒,这是一个能够让光纤交换机运行的全功能固件封装,以及完善封装的主机驱动。
 
ExpressFabric 基准平台
为实现系统开发和展示,Broadcom 提供 PXF 55033——一种 32 端口、1U orm 因素可安装机架柜顶光纤交换机盒。该系统通过可选基于讯号中继器的 PCIe 插入卡:PXF 51003。适配器卡和 ToR 交换机之间通过行业标准 QSFP+ 连接器使用铜或者光纤电缆连接。