为什么 AMD 在光线追踪方面表现较差?

为什么 AMD 在光线追踪方面表现较差?

对于我们来说,显卡的主要功能是让我们能够轻松、高效地玩游戏,同时如果您需要它来执行更专业的任务,例如视频编辑或创建 3D车型,绰绰有余。 与他的工作。 当我们说 AMD 在光线追踪方面表现不佳时,我们并不是在夸大 NVIDIA,而是作为我们的用户,我们很遗憾地看到 Radeons 中的某些东西可能会更好,但事实并非如此。

光线追踪算法

要了解 AMD 卡在光线追踪方面的糟糕表现,我们必须了解这实际上是一种生成完整场景的递归算法,其最简单的版本可以概括如下:

对于场景中的每个像素

计算可视化射线

如果闪电击中了一个物体,评估物体的颜色。

如果不是,则该像素具有背景色。

光线只不过是从“记录”场景的相机移动并穿过点矩阵或网格的矢量,其中每个点都是一个像素。 每次都会对场景进行一次检查效果。 好吧,如果我们有一个全高清场景,这意味着必须执行 2 万次检查,如果游戏的帧率为 60 FPS,则为每秒 120 亿次检查。

在数学上,检查它的最常用公式不是简单的运算,而是带有向量的复杂方程,这需要一些幂。 如此之多以至于没有并行单元负责执行此任务的简单事实可以将性能百分比降低到个位数。

硬件交集单元

这就是为什么 NVIDIA 拥有 RT 核心而 AMD 拥有光线加速器单元,它们是相同的,因为它们是同一类型的单元并且用于相同的任务。 然而,在上一代中,RX 6000 有一个限制,幸运的是 RTG 在 RDNA 3 中解决了,因此在 RX 7000 范围内。

那问题是什么?

好事,因此也是积极的,是现在 RDNA 2 中缺少的内容已包含在 RDNA 3 中。

坏事和让我们在 AMD 上光线追踪表现不佳的原因是 光线-三角形相互作用的数量 它可以计算。 当你的竞争对手从一代到另一代的性能翻了一番时,仅仅 50% 的跳跃是非常糟糕的。

我们不要忘记,市场上出现的第一批 3D 卡负责越来越多地加速三角形光栅化的操作,这在这方面是最常见的。 这部分在光线追踪中也是如此。 因此,AMD 在这方面取得如此小的飞跃这一事实令人失望。

它如何影响整体性能?

虽然光线的交集是集合的一部分,但它是所有场景中必不可少的共同元素。 我们不要忘记,这是一个分阶段进行的过程,其中一个进程比正常进程慢的事实最终会影响后续进程的性能。

因此,如果我们设法加速一个阶段,我们将获得更短的时间来生成相同的帧,也就是说,它需要更少的毫秒数,这是每秒更多的帧数。 需要明确的是,Ray Tracing 中的相交过程是递归连续的,因此,这部分有必要具有良好的性能。

另一个问题:浮点性能

GPU 通常协同处理数据块,对它们应用相同的指令。 这就是为什么它的典型单元类型是我们所说的 SIMD 单元,顾名思义,它同时将相同的指令应用于多个不同的数据。 好吧,RTX 30 中的 NVIDIA 进行了一项相当奇怪的改进,使其能够在每个时钟周期和内核中计算两倍的 32 位浮点运算。

诀窍是在每个子核上添加第二个 16 元素 SIMD 单元,使每个子核内的每个单元总共有 64 个额外的操作。 GPU. 但是,它们并没有增加记录或访问的数量,因为它们是以整数为单位进行交换的。 这意味着什么? RTX 30 和 RTX 40 都在某些条件下(并非总是如此)实现双浮点性能。

另一方面,AMD 寻求另一种解决方案,他们称之为 Dual Issue,但在他们的技术规范中他们说浮点单元的数量没有增加,但在某些条件下他们可以同时打包 2 条指令. 但是,每个核心或计算单元的单元数仍然最多为 64 个,而不是 NVIDIA 的 128 个。

AMD 在 RDNA 3 中所说的“双重发行”是什么意思?

但是,如果你计算 AMD 给出的浮点运算次数,通常是理论上给出的最大值,那么 100% 的时间执行 FMA 运算或用浮点乘法进行加法,这是不现实的,因为它没有考虑到考虑内存访问和程序并不总是使用所述指令的事实,但它确实考虑到它在生成图形时最常用。 事实上,该指令是 2 个操作。

好吧,AMD 所做的是,某些指令可以在计算单元中两个两个地打包,从而在某些条件下使用 RDNA 2 可以实现两倍的浮点运算能力。 这与 NVIDIA GPU 的情况相同。 额外的浮点运算能力一般不会加倍,只是在特定条件下才会加倍。 所以这是一个普遍的问题。 无论如何,以 TFLOPS 为单位的测量在今天仍然是一种营销技巧。

那么为什么它对 AMD 的光线追踪性能很重要呢? 好吧,因为它可以帮助我们测量在光线追踪的其余阶段(不是光线相交)中使用的单位的计算能力。 无论如何,AMD 自己声称在相同主频下代际提升是 18%。

光线追踪中的 AMD GPU 性能:数字

如果我们比较 NVIDIA 和 AMD 不同代显卡上不同交叉单元的性能,我们就会看到问题所在。

图形处理器

交点/秒(百万)

颜色

兆赫

交叉点(核心和 MHz)

RTX 2080Ti

105600

68

1545

一种

RTX 3090Ti

312480

84

1860

2

RTX 4090

1290240

144

2520

3.6

RX 6950 XT

184800

80

2310

一种

RX7900XTX

360000

96

2500

1.5

乍一看,这方面的原始功率高于 RTX 3090 Ti,是的,我们看第二列。 然而,后者很重要,因为它告诉我们在 GPU 上每个内核和时钟周期计算了多少截距。 而令人失望的是,虽然没有要求AMD给RTX 3.6给出40的成绩,但要求RTX 2至少要达到30。这也是AMD显卡性能不佳的主要原因在光线追踪中。 以及我们认为他们可以做得更好的原因。

它更多,并且已经完成,因为射线加速器单元本身是一个黑盒子,可以在不影响架构其余部分的情况下进行更换。 AMD 可以在来年选择并制造 RX 7×50 系列,它保留了当前 RDNA 3 的所有优点,但随着 RAU 的改进,游戏性能在帧速率方面的百分比提高了两位数。

在 RDNA 3 中使用光线追踪的 AMD 游戏性能如何?

现在结束我们的蛋糕上的樱桃并讨论它在游戏中的表现。 由于 AMD 公开声称性能提升了 50%,因此我们应该期待同样大的飞跃。 然而,我们后来发现它们指的是每瓦特性能,指的是一定数量的这些和特定的游戏,尚未指定。 因此,重要的是要知道在这方面与上一代相比有何改进,特别是因为它们从 RX 6000 的光线追踪性能相当差开始。

// 相关文章

巴西世界杯大赛时间 世界杯巴西队比赛时间
365beat网页怎么打不开

巴西世界杯大赛时间 世界杯巴西队比赛时间

⌛ 08-10 ⚠️ 9465
国产3D结构光手机梳理,它是目前唯一无刘海还能做到人脸解锁的手机
男篮球员为假期添堵道歉,姚明:我知道大家叫我226