人工智能
显卡大幅降价了但是还可以再等等,新的40系列显卡也要发售了,所以我们先看看目前上市的显卡的性能对比,这样也可以估算下40显卡的性能,在以后购买时作为参考。
但是在本文之前一定要说下的是:本文并不推荐现在就买显卡,除非必须,现在一定不要买显卡,谁买谁吃亏,目前的情况是,“等”就对了
回到正题,在这篇文章中我整理了几个在NVIDIAGeForceRTX3090GPU进行的深度学习性能基准测试。
一般的情况下我们都会使用TensorFlowgithub中的“tf_cnn_benchmarks.py”脚本来进行深度学习的评测。因为大多数的测试都是基于这个脚本,代码在这里(https://github.com/tensorflow...),如果你是pytorch也可以参考,显卡的基准测试与使用的框架无关,差别不会超过5%。
首先使用1、2和4个GPU配置(针对2xRTX3090与4x2080Ti部分)运行了相同的测试。确定的批量大小是可以容纳可用GPU内存的最大批量。
然后还会比较2022年最流行的深度学习GPU的性能:除NVIDIA的RTX3090以外还包括了、A100、A6000、A5000和A4000等产品。
3090对比其他消费级的产品首先说结果:NVIDIARTX3090在所有型号上均优于所有GPU(图像/秒)。2xRTX3090>4xRTX2080Ti。对于深度学习,RTX3090是市场上性价比最高的GPU,可大幅降低AI工作站的成本。
RTX3090ResNet50TensorFlowBenchmark
1xGPU2xGPUbatchsizeRTX2080Ti522.52959.78128RTX6000637.561248.54512RTX8000604.761184.521024TITANRTX646.131287.01512RTX30901139.152153.53512RTX3090ResNet152TensorFlowBenchmark
1xGPU2xGPUbatchsizeRTX2080Ti209.27348.864RTX6000281.94519.76256RTX8000285.85529.05512TITANRTX284.87530.86256RTX3090457.45857.1425RTX3090InceptionV3TensorFlowBenchmark
1xGPU2xGPUbatchsizeRTX2080Ti310.32569.24128RTX6000391.08737.77256RTX8000391.3754.94512TITANRTX397.09784.24256RTX3090697.981296.86256RTX3090InceptionV4TensorFlowBenchmark
1xGPU2xGPUbatchsizeRTX2080Ti150.59247.1664RTX6000203.9392.14256RTX8000203.67384.29512TITANRTX207.98399.16256RTX3090360679.612562xNVIDIARTX3090Vs4xRTX2080Ti
1xGPU2xGPU4xGPUbatchsizeRTX2080Ti522.52959.781836.61128RTX30901139.152153.53N/A512与RTX2080Ti的4352个CUDA核心相比,RTX3090的10496个CUDA核心是其CUDA的两倍多,CUDA核心是CPU核心的GPU等价物,并针对同时运行大量计算(并行处理)进行了优化。更多CUDA内核通常意味着更好的性能和更快的图形密集型处理。3090拥有24GBGDDR6X内存,也是2080Ti11G的2倍多,所以取得这样的结果也是情理之中的。
RTX3090vs.RTX3080TivsA6000vsA5000vsA100RTX3090GPU的2.5插槽设计,只能在风冷时在2-GPU配置中进行测试。4-GPU配置需要水冷。所以这也限制了他的测试,如果我们需要购买多块3090一定要注意机箱的大小。
3090一定要上水冷RTX3090可能遇到的一个问题是散热,主要是在多GPU配置中。4xRTX3090配置需要水冷。不仅是散热问题,还因为大小问题。
过热导致性能下降高达60%,所以水冷是最好的解决方案;提供24/7稳定性、低噪音和更长的硬件寿命。此外,任何水冷式GPU都可以保证以最大可能的性能运行。水冷RTX3090将保持在50-60°C与风冷时90°C的安全范围内(90°C是GPU将停止工作和关闭设定值)。2x或4x风冷GPU噪音非常大,尤其是鼓风机式风扇。将工作站放在实验室或办公室是不可能的——更不用说服务器了。水冷解决了台式机和服务器中的这种噪音问题。与风扇相比,噪音降低了20%(水冷却为49dB,最大负载时风扇为62dB)。
最后总结对于大多数用户而言,NVIDIARTX3090或NVIDIAA5000将为他们提供物超所值的服务。使用大批量可以让模型训练得更快、更准确,从而节省大量时间。RTX3090上24GB的VRAM对于大多数用例来说绰绰有余,几乎可以为任何型号和大批量提供空间。
NVIDIA的RTX3090是目前深度学习和AI的最佳GPU。它具有卓越的性能,非常适合为神经网络提供动力。RTX3090是30系列中唯一能够通过NVLink桥接器进行扩展的GPU型号。当与NVLink网桥配对使用时,可以将显存扩充为48GB来训练大型模型。
40系列AMD的7000系列据说要比NV的40系列性能的高,但是目前深度学习框架支持的不好,所以对于深度学习来说还只能用NV的卡,这个目前来说没有办法。
新的40系列的显卡已经公布了上市的时间今年的第三季度,虽然功率高了(600W),但是相应的算力也高了,18432个CUDA核心、96MB缓存。据说4080就能达到目前3090的水平,根据上面的测试,1万8的CUDA的表现至少要比1万出头的3090提高60-70%,所以就像我们最上面说的:不是必要的话现在不要买,买了就吃亏,买了就上当。
https://www.overfit.cn/post/9ef4a9a4728f4fb69412abe267f634e4