算力P通常是指性能的度量,尤其是在计算领域中,它可能指的是每秒能够进行的浮点运算次数FLOPS。P通常是指PetaFLOPS,即每秒进行的浮点运算次数达到千万亿级别(10^15)。因此如果以1PFLOPS等于10^15FLOPS来换算,可以得出常用的1000TFLOPS=1PFLOPS。
来看下主流的GPU卡里的算力到底是多少?来看下这张图,这张图显示了当前旗舰GPU的算力值,以H100为参照,一般情况下用作推理是会采用半精度的浮点运算的数值为参考,H100半精度的浮点运算的数值是:756.5TFLOPS,换算成P也就是0.756PFLOPS。如果单台机器插满8块H100,单台机器的算力就是6.048PFLOPS。
然后观察到在这张表中FP16后面带了Tensor Core,上一期讲到过Tensor Core是英伟达推出的专门用于加速深度学习推理和训练的计算单元,讲简单了就是用于推理的加速器。举个例子就是用原来是计算是用手算,现在用上计算器能让计算可以加速,所以这张图上显示的半精度的算力数值是加上英伟达的加速器的。
通过现在的推理以后有人说要部署200P的算力,基本就清楚了,33台满配的H100机器就可以达到200P的算力了。今天的分享就到这里。
本文暂时没有评论,来添加一个吧(●'◡'●)