9月20日深夜,英伟达主题演讲正式发布RTX40系列显卡,包括卡皇RTX4090以及RTX408016GB以及RTX408012GB,它们是基于新设计的AdaLovelaceGPU除了全面提升显卡规格外,英伟达还为40系显卡带来了新的DLSS3和光追计算单元,两个重要的渲染引擎,使渲染性能更加突出。
然而,随之而来的是全面提价,尤其是80显卡。与30系列显卡相比,价格上涨非常明显。40系列显卡给我们带来了什么新功能?这些功能值得消费者付费吗?
首先,我们来谈谈第一位女性程序员AdaLovelace名字的结构。作为卡皇,RTX4090显卡的核心就是这个AD102核心,整个核心的面积为604.2平方毫米,相比RTX30系显卡仍在减少,但晶体管数量大幅增加,达到763亿。
就整体结构而言,AdaLovelace似乎和安培没有太大区别。计算单元包括FP32计算单元,FP32与INT32共享计算单元和第四代TensorCore,还包括第三代RT计算单元,使深度学习和光追更有效率。
总体规模,AdaLovelace与安培相比,有突飞猛进的进步。比如图形处理集群从7个增加到12个,使得计算单元从84个增加到144个,也就是一个完整的Ada核心,它可以提供最高的18432颗流处理器,远远超过18432颗,GA10752个102个。此外,光追单元也从84个增加到144个,深度学习单元从336个增加到576个,频率也从1个增加到14个。.9GHz提升至2.5GHz。Ada芯片能有如此大的参数提升的主要原因是制造过程的进步。在安培制程中,英伟达采用三星8nm制程,而到了Ada时代,台积电4采用定制版nm在制造过程中,晶体管密度的增加极为明显,也使得晶体管的数量在减少芯片面积的情况下可以增加如此凶猛。
此外,英伟达还表示AdaGPU能耗比是安培的两倍,着色器的渲染能力达到83TFLOPS,也是上一代的两倍,光追计算力飙升至191TFLOPS,是上一代的2.8倍。与深度学习相关的FP8张量的计算达到了恐怖的1张.32PFLOPS,已经是上一代核心的五倍了。就游戏而言,英伟达也被称为Ada光栅性能是安培的两倍,光追性能是后者的四倍。
对玩家来说,RTX40系列图形卡也大大提高了运行过程中的功耗性能,运行更加稳定,不会出现大规模的瞬时功耗增加,这对于想要增加高功率的玩家来说尤为重要。毕竟,高端电源,超过1W预算可能需要1.2甚至1.5元的电源。也正是因为如此强大的计算性能,才能让AdaGPU实现更多的工作,例如DLSS老黄认为这是革命性的AI帧生成技术。
DLSS借助英伟达的深度学习抗锯齿技术,是英伟达的深度学习AI神经网络减少GPU从图灵架构开始,提升游戏画面,提升游戏画面,DLSS开始被消费者认可。以这种方式提高图像质量的黑色技术也经历了三代人的变化。最初的一代,DLSS借助显卡本身AI驱动器和神经网络渲染图片,但由于计算能力的限制,实际效果并不理想。虽然帧速率有所提高,但图片非常模糊,特别是在一些动态图片中。
第二代是目前最主流的DLSS2.在0时代,英伟达选择了类似的DSR同样的技术,先让显卡以较低的分辨率渲染,然后借助AI计算力使图片以高分辨率输出。当然,与第一代相比,DLSS,第二代DLSS无论是效果还是厂家的接受度,都有了质的提升,消费者越来越接受这种技术。此外,在朋友和商人的帮助下,FSR以及XeSS实现与DLSS类似的效果DLSS在3的时代,不满足于传统图形渲染的英伟达开始在传统图形渲染的帮助下AI通过插入两个渲染图像来创建自己的渲染图像,进一步减少渲染图像GPU渲染压力。
先英伟达在AdaGPU添加一个叫做光流加速器的硬件,它也是为了实现DLSS3的核心。首先使用光流加速器,GPU分析图片中移动物体的矢量数据,然后根据卷积神经网络让AI游戏屏幕的自动渲染和插入到正常的游戏屏幕中,可以有效地提高游戏帧率。此外,这种渲染方法也是游戏渲染领域的第一个应用,前提自然是40系列TensorCore计算集群。
英伟达说,DLSS3可以借助AI最高渲染7/8显示像素,在帧速率上不使用DLSS与游戏相比,整整增加了4倍。对于开启光追特效的游戏尤其有效。
比如新闻发布会上公布的《赛博朋克2077》,从22帧左右跃升到90多帧,甚至因为所有的图像帧都在GPU进行,不经过CPU,所以即使你没有强大的性能CPU,同样可以使游戏帧率有显著提高。
但是有些人会担心,因为采用了AI在两个正常渲染帧之间插入渲染帧,会导致画面延迟上升吗?A对于大作玩家来说,延迟可能不是问题,但对于大作玩家来说,延迟可能不是问题FPS对于玩家来说,延迟更为重要。在这方面,英伟达表示,游戏开发者和玩家可以使用它NVIDIAReflex,有效减少游戏的传输延迟,从而使游戏即使打开也能开启DLSS特效玩家也可以享受理想的延迟。
当然DLSS3并非所有的RTX由于缺少光流加速器,可以享用显卡,RTX20以及RTX30系列显卡直接跟它说再见了。此外,英伟达还提供了一张关于它的信息DLSS特效表,其中AI渲染和插帧技术RTX40系显卡独享,而且RTX40/30/20系列显卡都支持原来的图片缩放功能,至于NVIDIAReflex,从GTX900系列显卡可以支持这个特效。目前有35多款游戏支持DLSS3、十月将陆续与您见面。
伴随着RTX显卡性能提升,特别是24GB庞大显存的RTX出现4090显卡及NVIDIAStudio随着驱动力的到来,越来越多的工作室开始购买GeForce游戏显卡被用作图像渲染卡,英伟达不断将新的渲染引擎插入游戏显卡,使这些专业工作者能够拥有更高效的图形和图形渲染。
这次添加的引擎是OpacityMicromask引擎以及Micro-Mesh引擎,前者用于光追渲染,借助这个引擎,光追中的光追Alpha-Test几何性能增加了两倍。后者是在不损失存储资源的情况下使用简单的资源BVH在提高渲染画面丰富度的前提下,与过去相比,图像的建模速度也有了很大的提高,这个功能也获得了Adobe认可专业应用厂商。
另外,老黄还在RTX40系列显卡支持着色器重排序CPU就像无序执行一样,可以根据实际需要更换渲染任务队列,从而大大提高图像的渲染效率和渲染效率GPU在游戏中转换利用率,即提高游戏性能25%左右,光追性能提升最高达3倍。
目前伴随着NvidiaStudio在驱动应用程序中,游戏卡和专业卡之间的界限变得越来越模糊。在最新技术的帮助下,专业用户还可以享受新一代GPU毕竟带来了卓越的工作效率,RTX4090不仅仅是玩家独有的显卡。
目前直播和视频制作的兴起也让GPU应该有更多的编解码性能,而英伟达这次在RTX双重增加了40系显卡NVIDIA编码器可以将视频的输出时间视频输出时间,同时也支持AV1编解码,而是一样OBS,BlackmagicDesignDaVinciResolve还增加了设计和直播软件NVENCAV1编码器,可以让RTX40系显卡有发挥的空间。
NVIDIABroadcast软件开发工具包增加了三个功能:面部表情预测、眼部跟踪、虚拟绿幕质量提升,让直播直播UP主直播更有沉浸感,当然对会议用户也是有益的。
最后还是绕不开这次RTX40系列图形卡的核心争议点是价格。由于晶圆制造成本和汇率较高,英伟达RTX与建议的零售价相比,40系列显卡RTX预计30系会有所提升,但出乎意料的是,没想到这次显卡的价格涨幅真的让消费者难以接受,RTX408012GB售价是7199元,RTX408016GB售价为9499元,相比较RTX建议的30805499元的零售价实在是太凶了。而作为卡皇的RTX相反,4090是三款显卡中性价比最高的一款。原因是12999元的建议零售价比上一代提高了1000元。当然,性能范围的提升显然值得卡皇的价格。
而另外两款则不一定,RTX408016GB采用9728个CUDA核心,搭载16GBGDDR6X性能相当于显存的两倍RTX3080Ti,而RTX408012GB则采用7680个CUDA核心,搭载12GB的GDDR6X性能也超过了显存RTX3090Ti。在官方游戏表演中,在光栅游戏下,RTX408012GB与RTX3090Ti不相上下,有些游戏略输,而RTX408016GB则比RTX3090Ti提高20%左右。
显然需要英伟达RTX4080系列显卡表现强劲,让消费者接受这两款显卡。毕竟经过两年的矿潮,消费者的热情已经到了谷底,恢复起来也不容易。