Radeon R9 290X
位于 AMD Radeon R9 290X 显卡核心的全新 Hawaii 图形芯片基于我们已知的 Graphics Core Next (GCN) 架构,针对计算能力进行了轻微修改并完全支持所有 DirectX 11.2 功能,如以前在芯片 Bonaire (Radeon HD 7790) 中完成,这也成为 Radeon R7 260X 的基础。 Bonaire 和 Hawaii 的架构变化与计算能力的改进(支持更多并发执行的线程)和新版本的 AMD PowerTune 技术有关,我们将在下面详细讨论。

DirectX 11.2 中的新功能包括利用 Hawaii 硬件虚拟内存管理功能的平铺资源。 GPU,称为部分驻留纹理(PRT)。使用虚拟视频内存,可以轻松获得对算法的高效硬件支持,从而允许在应用程序中使用大量纹理并将其流入视频内存。 PRT 可以提高在这些任务中使用视频内存的效率,并且类似的技术已经在一些游戏引擎中使用。
虽然 GCN 功能已经得到扩展,但 AMD 设计新款高端产品的主要目标 GPU 由于塔希提岛的功耗已经过大,而夏威夷的计算单元数量又较多,因此该芯片的能效有所提高。让我们看看 AMD 工程师如何将具有竞争力的产品推向市场:

新的图形处理器在逻辑上分为四个部分(Shader Engine),每个部分包含11个放大的计算单元(Compute Unit),包括纹理模块、一个几何处理器和一个光栅器,以及几个ROP单元。 换句话说,最现代的 AMD 芯片的框图已经变得更加类似于 NVIDIA 芯片的框图,它们也有类似的组织结构。
总的来说,Hawaii 显卡芯片包括:44 个计算单元,包含 2816 个流处理器、64 个 ROP 和 176 个 TMU。正在考虑 GPU 具有由八个 512 位控制器组成的 64 位内存总线,以及 1 MB 的 L28 缓存。它采用与Tahiti相同的6.2纳米工艺技术制造,但包含4.3亿个晶体管(Tahiti有XNUMX亿个)。
考虑构成夏威夷 GPU 的着色器引擎的框图。 这是芯片的一个大块部分,它包含四个这样的引擎:
每个着色器引擎包含一个几何处理器和光栅化器,每个时钟周期能够处理一个几何图元。看起来夏威夷的几何性能不仅有所改善,而且与之前的版本相比也应该相当平衡。 GPU AMD 公司。

一个 GCN 架构着色器引擎最多可以包含四个放大的渲染后端 (RB) 块,每个块包括四个 ROP 块。 着色器引擎中的计算单元的数量也可以不同,但在这种情况下有 11 个,尽管指令和常量的缓存被划分为每四个计算单元。 也就是说,Shader Engine 中不包含 11 个,而是包含 12 个计算单元会更符合逻辑,但这样的数字似乎不再包含在夏威夷的功耗限制中。
GCN架构的计算单元包括各种功能单元:纹理提取模块(16个)、纹理过滤模块(16个)、分支预测单元、调度器、计算单元(四个向量和一个标量)、一级缓存内存(每个计算单元 64 KB)、用于向量和标量寄存器的内存以及共享内存(每个计算单元 XNUMX KB)。
由于 Hawaii GPU 中有四个着色器引擎,因此它总共有四个几何处理单元和光栅化引擎。因此,新的顶部 GPU AMD 每个时钟周期最多可以处理四个几何图元。此外,夏威夷还改进了几何数据的缓冲,并为几何基本参数提供了更大的缓存。总之,通过几何着色器中的大量计算和积极使用曲面细分,这显著提高了性能。
此外,新处理器的计算能力也发生了一些变化,虽然是图形处理器,但仍然是处理器。 该芯片包括两个 DMA 引擎,可充分利用 PCI Express 3.0 总线功能,宣称双向带宽为 16 GB/s。 使用八个(在夏威夷芯片的情况下)异步计算引擎(ACE)执行的异步计算的可能性也可以称为相对较新。

ACE 单元与图形命令处理器并行运行,每个单元能够管理八个命令流。该组织提供多任务环境中的独立调度和操作、对全局内存和 L2 缓存中的数据的访问以及快速的上下文切换。这在计算任务以及游戏应用中尤其重要,因为使用 GPU 用于图形计算和通用计算。从理论上讲,当使用低级访问功能时,这种创新也可能是一种优势。 GPU 使用诸如 Mantle 之类的 API。
让我们回到适用于图形计算的夏威夷特征。 由于许可证要求的上升以及预期的价差 Ultra高清显示器,有必要增加光栅操作单元 - ROP 的计算能力。 夏威夷芯片包括 16 个渲染后端 (RBE) 块,是塔希提岛的两倍。 十六个 RBE 包含 64 个 ROP,每个时钟能够处理多达 64 个像素,这在某些情况下非常有用。
至于内存子系统,夏威夷有 1 兆字节的二级缓存,分为 16 个 64 KB 的部分。 声称缓存内存增加了 33%,内部吞吐量增加了三分之一。 L2 / L1 缓存的总吞吐量被声明为等于 1 TB / s。
内存通过 64 个 512 位控制器访问,它们共同构成 9 位总线。 Radeon R290 5.0X 中的内存芯片主频为 320 GHz,总内存带宽为 20 GB/s,比 Radeon HD 7970 GHz 高出 20% 以上。 同时,内存控制器占用的芯片面积相比大溪地的384位控制器减少了XNUMX%。
Radeon R9 290X 规格
| 名称 | Radeon R9 290X |
| 核心 | 夏威夷 |
| 工艺技术 (µm) | 0.028 |
| 晶体管(百万) | 6200 |
| 核心频率 | 1000 |
| 内存频率 (DDR) | 5000 |
| 总线和内存类型 | GDDR5 512 位 |
| 带宽 (Gb/s) | 320 |
| 统一着色器块 | 2816 |
| 统一着色器单元的频率 | 1000 |
| 每个传送带的 TMU | 176 |
| ROP | 64 |
| 填充率 (Mpix/s) | 64600 |
| 填充率 (Mtex/s) | 176400 |
| 的DirectX | 11.2 |
| 内存容量 | 4096 |
| 接口 | PCI-E 3.0 x16 |
与其前身 Radeon HD 7970 相比,夏威夷性能 面对Radeon R9 290X会提升40-60%左右。




