英特尔Ponte Vecchio性能：最高为A100两倍_雷竞技须安全稳定

【雷竞技须安全稳定 DIY硬件频道】在HotChips 34大会前夕，英特尔公布了未来几代处理器的微架构细节。作为英特尔芯片业务的另一核心，英特尔同样在HotChips上公布更多面向专业领域的Ponte Vecchio GPU细节，并详细介绍Sapphire Rapids HBM处理器和Ponte Vecchio(2-Stack)GPU平台的潜力。

英特尔首席GPU计算架构师Hong Jiang在演讲中指出，Ponte Vecchio具有三种配置，分别是Ponte Vecchio OAM、Xe Links的x4子系统和部署在Sapphire Rapids双路服务器平台。

Ponte Vecchio OAM支持4GPU和8GPU平台的all-to-all拓扑，配合英特尔零级(Level Zero)API，可为跨架构编程支持提供低层级的硬件接口。oneAPI能够提供面向其它工具和加速器设备的接口;支持精细的增益控制、以及低延迟的加速器特性;具有多线程设计;将GPU作为驱动程序的一部分而提供。

性能指标方面，2-Stack Ponte Vecchio GPU配置可提供52TFLOP的FP64/FP32算力，另有419TFLOP的TF32(XMX Float 32)、839TFLOP的BF16/FP16以及1678TFLOPs的INT8算力。

英特尔还详细说明Ponte Vecchio缓存设计，GPU上的寄存器64MB，提供419TB/s的带宽;L1缓存64MB，带宽达105TB/s;L2缓存408MB，带宽13TB/s;HBM内存池高达128GB，带宽也高达4.2 TB/s。需要注意的是，Ponte Vecchio支持L1和(或)L2缓存的软件预取;支持到L2获取指令和数据的Command Streamer预取。

英特尔表示，更大的L2缓存可为2D-FFT和DNN等工作负载带来巨大的效益，并且分享完整Ponte Vecchio GPU和80/32MB模块间的一些性能比较。

性能对比上，英特尔Ponte Vecchio与英伟达Ampere A100进行比较。在miniBUDE(一种可预测配体与目标结合能的计算工作负载)中，Ponte Vecchio GPU模拟测试结果的速度是Ampere A100的2倍。在ExaSMR核反应堆设计仿真设计中，英特尔Ponte Vecchio GPU也以1.5倍领先于英伟达竞品方案。只是英特尔对比的是两年前发布的产品，英特尔并没有直接对比已经上市的Hopper H100，所以英特尔的性能领先有些胜之不武。

英特尔还介绍了Ponte Vecchio旗舰数据中心GPU的部分关键特性，例如128个Xe内核、128个光追(RT)单元、HBM2e显存以及连接到一起的8个Xe-HPC GPU。芯片在两个独立的堆栈中提供高达408MB的L2缓存，两个独立的堆栈通过EMIB互连，各部分芯片混用Intel7和台积电N7/N5等多个工艺节点。由两块(2Tiles)组成的每个堆栈有16裸片，最大的active die尺寸为41 m㎡、Compute Tile则是650m㎡。

英特尔Ponte Vecchio芯片由47块(Tiles)组成，分别是16个Xe HPC(内/外部)、8个Rambo Cache(内部)、2个Xe Base(内部)、11个EMIB(内部)、2个Xe Link(外部)、8个HBM(外部)组成，由11个EMIB进行互连，完整封装尺寸为4843.75m㎡。

编辑点评：虽然Ponte Vecchio GPU并非针对消费市场的产品，但通过这款芯片也能明确看到英特尔小芯片战略。虽然今年的消费级产品不会采用相关的技术，但14代酷睿、下代游戏GPU或将使用Foveros 3D、EMIB封装技术，将各种工艺、不同功能的Chip封装起来，实现性能最大化和成本。