英伟达RTX40系列显卡分析：卓越工艺造就卓越表现，DLSS3是其王牌

2022-09-26 11:09来源:VOA在线

　　9月20日深夜，英伟达主题演讲正式发布RTX40系列显卡，包括卡皇RTX4090以及RTX408016GB以及RTX408012GB，它们是基于新设计的AdaLovelaceGPU除了全面提升显卡规格外，英伟达还为40系显卡带来了新的DLSS3和光追计算单元，两个重要的渲染引擎，使渲染性能更加突出。

　　然而，随之而来的是全面提价，尤其是80显卡。与30系列显卡相比，价格上涨非常明显。40系列显卡给我们带来了什么新功能？这些功能值得消费者付费吗？

　　首先，我们来谈谈第一位女性程序员AdaLovelace名字的结构。作为卡皇，RTX4090显卡的核心就是这个AD102核心，整个核心的面积为604.2平方毫米，相比RTX30系显卡仍在减少，但晶体管数量大幅增加，达到763亿。

　　就整体结构而言，AdaLovelace似乎和安培没有太大区别。计算单元包括FP32计算单元，FP32与INT32共享计算单元和第四代TensorCore，还包括第三代RT计算单元，使深度学习和光追更有效率。

　　总体规模，AdaLovelace与安培相比，有突飞猛进的进步。比如图形处理集群从7个增加到12个，使得计算单元从84个增加到144个，也就是一个完整的Ada核心，它可以提供最高的18432颗流处理器，远远超过18432颗，GA10752个102个。此外，光追单元也从84个增加到144个，深度学习单元从336个增加到576个，频率也从1个增加到14个。.9GHz提升至2.5GHz。Ada芯片能有如此大的参数提升的主要原因是制造过程的进步。在安培制程中，英伟达采用三星8nm制程，而到了Ada时代，台积电4采用定制版nm在制造过程中，晶体管密度的增加极为明显，也使得晶体管的数量在减少芯片面积的情况下可以增加如此凶猛。

　　此外，英伟达还表示AdaGPU能耗比是安培的两倍，着色器的渲染能力达到83TFLOPS，也是上一代的两倍，光追计算力飙升至191TFLOPS，是上一代的2.8倍。与深度学习相关的FP8张量的计算达到了恐怖的1张.32PFLOPS，已经是上一代核心的五倍了。就游戏而言，英伟达也被称为Ada光栅性能是安培的两倍，光追性能是后者的四倍。

　　对玩家来说，RTX40系列图形卡也大大提高了运行过程中的功耗性能，运行更加稳定，不会出现大规模的瞬时功耗增加，这对于想要增加高功率的玩家来说尤为重要。毕竟，高端电源，超过1W预算可能需要1.2甚至1.5元的电源。也正是因为如此强大的计算性能，才能让AdaGPU实现更多的工作，例如DLSS老黄认为这是革命性的AI帧生成技术。

　　DLSS借助英伟达的深度学习抗锯齿技术，是英伟达的深度学习AI神经网络减少GPU从图灵架构开始，提升游戏画面，提升游戏画面，DLSS开始被消费者认可。以这种方式提高图像质量的黑色技术也经历了三代人的变化。最初的一代，DLSS借助显卡本身AI驱动器和神经网络渲染图片，但由于计算能力的限制，实际效果并不理想。虽然帧速率有所提高，但图片非常模糊，特别是在一些动态图片中。

　　第二代是目前最主流的DLSS2.在0时代，英伟达选择了类似的DSR同样的技术，先让显卡以较低的分辨率渲染，然后借助AI计算力使图片以高分辨率输出。当然，与第一代相比，DLSS，第二代DLSS无论是效果还是厂家的接受度，都有了质的提升，消费者越来越接受这种技术。此外，在朋友和商人的帮助下，FSR以及XeSS实现与DLSS类似的效果DLSS在3的时代，不满足于传统图形渲染的英伟达开始在传统图形渲染的帮助下AI通过插入两个渲染图像来创建自己的渲染图像，进一步减少渲染图像GPU渲染压力。

　　先英伟达在AdaGPU添加一个叫做光流加速器的硬件，它也是为了实现DLSS3的核心。首先使用光流加速器，GPU分析图片中移动物体的矢量数据，然后根据卷积神经网络让AI游戏屏幕的自动渲染和插入到正常的游戏屏幕中，可以有效地提高游戏帧率。此外，这种渲染方法也是游戏渲染领域的第一个应用，前提自然是40系列TensorCore计算集群。

　　英伟达说，DLSS3可以借助AI最高渲染7/8显示像素，在帧速率上不使用DLSS与游戏相比，整整增加了4倍。对于开启光追特效的游戏尤其有效。

　　比如新闻发布会上公布的《赛博朋克2077》，从22帧左右跃升到90多帧，甚至因为所有的图像帧都在GPU进行，不经过CPU，所以即使你没有强大的性能CPU，同样可以使游戏帧率有显著提高。

　　但是有些人会担心，因为采用了AI在两个正常渲染帧之间插入渲染帧，会导致画面延迟上升吗？A对于大作玩家来说，延迟可能不是问题，但对于大作玩家来说，延迟可能不是问题FPS对于玩家来说，延迟更为重要。在这方面，英伟达表示，游戏开发者和玩家可以使用它NVIDIAReflex，有效减少游戏的传输延迟，从而使游戏即使打开也能开启DLSS特效玩家也可以享受理想的延迟。

　　当然DLSS3并非所有的RTX由于缺少光流加速器，可以享用显卡，RTX20以及RTX30系列显卡直接跟它说再见了。此外，英伟达还提供了一张关于它的信息DLSS特效表，其中AI渲染和插帧技术RTX40系显卡独享，而且RTX40/30/20系列显卡都支持原来的图片缩放功能，至于NVIDIAReflex，从GTX900系列显卡可以支持这个特效。目前有35多款游戏支持DLSS3、十月将陆续与您见面。

　　伴随着RTX显卡性能提升，特别是24GB庞大显存的RTX出现4090显卡及NVIDIAStudio随着驱动力的到来，越来越多的工作室开始购买GeForce游戏显卡被用作图像渲染卡，英伟达不断将新的渲染引擎插入游戏显卡，使这些专业工作者能够拥有更高效的图形和图形渲染。

　　这次添加的引擎是OpacityMicromask引擎以及Micro-Mesh引擎，前者用于光追渲染，借助这个引擎，光追中的光追Alpha-Test几何性能增加了两倍。后者是在不损失存储资源的情况下使用简单的资源BVH在提高渲染画面丰富度的前提下，与过去相比，图像的建模速度也有了很大的提高，这个功能也获得了Adobe认可专业应用厂商。

　　另外，老黄还在RTX40系列显卡支持着色器重排序CPU就像无序执行一样，可以根据实际需要更换渲染任务队列，从而大大提高图像的渲染效率和渲染效率GPU在游戏中转换利用率，即提高游戏性能25%左右，光追性能提升最高达3倍。

　　目前伴随着NvidiaStudio在驱动应用程序中，游戏卡和专业卡之间的界限变得越来越模糊。在最新技术的帮助下，专业用户还可以享受新一代GPU毕竟带来了卓越的工作效率，RTX4090不仅仅是玩家独有的显卡。

　　目前直播和视频制作的兴起也让GPU应该有更多的编解码性能，而英伟达这次在RTX双重增加了40系显卡NVIDIA编码器可以将视频的输出时间视频输出时间，同时也支持AV1编解码，而是一样OBS，BlackmagicDesignDaVinciResolve还增加了设计和直播软件NVENCAV1编码器，可以让RTX40系显卡有发挥的空间。

　　NVIDIABroadcast软件开发工具包增加了三个功能:面部表情预测、眼部跟踪、虚拟绿幕质量提升，让直播直播UP主直播更有沉浸感，当然对会议用户也是有益的。

　　最后还是绕不开这次RTX40系列图形卡的核心争议点是价格。由于晶圆制造成本和汇率较高，英伟达RTX与建议的零售价相比，40系列显卡RTX预计30系会有所提升，但出乎意料的是，没想到这次显卡的价格涨幅真的让消费者难以接受，RTX408012GB售价是7199元，RTX408016GB售价为9499元，相比较RTX建议的30805499元的零售价实在是太凶了。而作为卡皇的RTX相反，4090是三款显卡中性价比最高的一款。原因是12999元的建议零售价比上一代提高了1000元。当然，性能范围的提升显然值得卡皇的价格。

　　而另外两款则不一定，RTX408016GB采用9728个CUDA核心，搭载16GBGDDR6X性能相当于显存的两倍RTX3080Ti，而RTX408012GB则采用7680个CUDA核心，搭载12GB的GDDR6X性能也超过了显存RTX3090Ti。在官方游戏表演中，在光栅游戏下，RTX408012GB与RTX3090Ti不相上下，有些游戏略输，而RTX408016GB则比RTX3090Ti提高20%左右。

　　显然需要英伟达RTX4080系列显卡表现强劲，让消费者接受这两款显卡。毕竟经过两年的矿潮，消费者的热情已经到了谷底，恢复起来也不容易。

(责任编辑:xp)

最新新闻

推荐阅读

相关文章