HPC with P100
HPCCuda
2022-11-8 16:01 JST

とりあえず HPC の環境を整えることにする。K80 が安く出回っている(amazonとかで)。P100 もそろそろ安くなってきた模様。

K80 vs P100 vs 最近の GPU

K80 は GK210 が2つついている。GDDR5 で 12GB。転送レートが 240.6GB/s、FP32 で 4.113 TFLOPS、FP64 で 1.371 TFLOPS。TDP が 300W。

P100 は GP100 あれ?これ1つしかついてないの?。HBM2 で 12GB(あるいは 16GB)。転送レートが 549.1GB/sFP16 で 19.05 TFLOPS、FP32 で 9.526 TFLOPS、FP64 で 4.763 TFLOPS。TDP が 250W。ちょっと省エネになったのか?

現時点で最新の RTX 4090 は、GDDR6X で 24GB。1,008GB/s。GDDR6X の方がHBM2 より速いのか?(メモリクロックの差かも)。FP16 で 82.58 TFLOPS、FP32 で 82.58 TFLOPS、FP64 で 1.290 TFLOPS。TDP が 450W。FP16/FP32 なら P100 より上じゃん。TDP もすごいけど。

RTX 3080 は、GDDR6X で 10GB。760.3GB/s。FP16 で 29.77 TFLOPS、FP32 で 29.77 TFLOPS、FP64 で 0.465 TFLOPS。TDP が 320W。これも、FP16/FP32 なら P100 より上。

AMD Radeon RX 7900 XTX は、GDDR6 で 24GB。960.0GB/s。FP16 で 123.1 TFLOPS、FP32 で 61.56 TFLOPS、FP64 で 3.848 TFLOPS。TDP が 325W。カタログスペック的にはこれが一番コストパフォーマンスが良い。問題は使い勝手だけどね。

Intel Arc A770 は、GDDR6 で 16GB。512.0GB/s。FP16 で 34.41 TFLOPS、FP32 で 17.20 TFLOPS、TDP が 225W。値段が安ければ張り合える?

P100 が安く手に入ればそれが一番良さそうだけど、RX 7900 XTX も魅力的だね。

K80 や P100 の構築は大変そう

K80 とか P100 とかは構築が大変そうな上に、電源がCPU補助電源という特殊さ。そしてファンがない(データセンターの特殊な環境を想定しているのかな?)。

リンク集