ブラウザーの【JavaScript】が無効になっているため、画面を正常に表示することができません!
NVIDIA Deep Learning GPU Hardware:深層学習 開発環境、構築、最適化情報:GPU(Graphics Processing Unit) ハードウェア要件|株式会社アークブレイン
http://www.arcbrain.jp HOME へ        
 

NVIDIA® Deep Learning (深層学習) 開発環境 構築情報
GPU(Graphics Processing Unit) ハードウェア要件

こちらは、「NVIDIA® Deep Learning (深層学習)」を開発するPC(ワークステーション、サーバー)に必要な開発環境を構築する方法の概略や、構築に参考となる情報を集めたページとなります。
各々の情報のサイト・リンク情報、NVIDIA® CUDA、CUDA GUP ドライバー、NVIDIA® DIGITS、cuDNN、フレームワーク(Caffe、theano、torch、BIDMach)などをダウンロード、インストールする方法の概略情報があります。
既に Deep Learning の開発環境をお持ちの方も、また、これから導入を考えておられる方にも、何かのご参考になれば幸いです。

インテル® Xeon® プロセッサや、Xeon® Phi™ x200 プロセッサ(Knights Landing)を使用した場合の Deep Learning 開発に関しての情報はこちらをご覧ください。
(2017/04/08 更新)
GPU ハードウェア要件
Turing Architecture GPUs
プロセッサ ドライバー CUDA Toolkit DIGITS cuDNN
Frameworks
Caffe theano torch BIDMach Keras Another
Frameworks



Arcbrain Deep Learning GWS Middle Tower Chassis
株式会社アークブレインでは、Deep Learning(深層学習)を研究するための カスタム・オーダーメイドの ワークステーション(GPU × 1~4)や、サーバー(GPU × 1~4)を販売しております。

Intel® Xeon® Scalable Processor 搭載
Arcbrain オリジナル サーバー、ワークステーション製品 最新ラインナップ


GPUを使用せず、Intel® Xeon® / Core™ Processor、インテル® Parallel Studio、インテル® MKL(Math Kernel Library) の DNN(Deep Neural Network) プリミティブ、インテル® Distribution for Python® による Deep Learning(深層学習)の開発環境を構築することも可能です。

お気軽に弊社までお見積り依頼をお願いいたします。
ご希望の仕様に合った構成のカスタマイズに、ご対応させていただきます。

NVIDIA® Accelerated Computing Developer Program
NVIDIA® Deep Learning の開発環境(NVIDIA® CUDA、NVIDIA® DIGITS™、cuDNN等)を入手するためには、まず、Accelerated Computing Developer Program に登録する必要があります。
https://developer.nvidia.com/accelerated-computing-developer
GPU バードウェア要件 - Hardware Requirements
NVIDIA®
GPU

Compute
Capability
NVIDIA® GPU(Graphics Processing Unit) のハードウェア要件としまして、Deep Learningに必要な、DIGITS、cuDNN や Caffe を動作させるためには、CUDA のバージョンは 7.0 以上、 Kepler microarchitecture 以降のアーキテクチャの GPU で、Compute Capability が 3.0 以上である必要があります。
Fermi アーキテクチャー の GPU は、Compute Capability が 2.0 / 2.1 であるため、残念ながら Deep Learning 用には使用することができません。
Tesla GPU である C2075 / C2070 / C2050 は、Fermi アーキテクチャー であり、Compute Capability が 2.0 であるため、同様に Deep Learning 用には使用することができません。
GeForce GPUs with Kepler or higher アーキテクチャー (CUDA 7.5 Installation Guide)
CUDA 7.0 and a GPU of compute capability 3.0 or higher are required. (cudnn_install.txt)
Kepler は 3.0 ~ 3.5、Maxwell は、5.0 以上となりますので、勿論 Deep Learning 開発様に使用することが可能です。
Pascal アーキテクチャー は、Compute Capability が 6.0 以上となります。
Turing アーキテクチャー は、Compute Capability が 7.0 以上となります。

https://developer.nvidia.com/cuda-gpus
http://docs.nvidia.com/cuda/cuda-c-programming-guide/#compute-capability
http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#compute-capabilities

※NVIDIA® Deep Learning (深層学習) 開発環境に対応したGPUの例
Tesla K20 (3.5) / K40 (3.5) / K80 (3.7) / M40 (5.2)
Quadro 410 (3.0) / K420 (3.0) / K600 (3.0)
Quadro K2000 (3.0) / K4000 (3.0) / K4200 (3.0) / K5000 (3.0) / K5200 (3.2) / K6000 (3.5)
Quadro K620 (5.0) / K1200 (5.0) / K2200 (5.0)
Quadro M2000 (5.2) / M4000 (5.2) / M5000 (5.2) / M6000 (5.2)
Quadro NVS 510 (3.0) / 810 (5.0)
Jetson TK1 (3.2) / Tegra K1 (3.2) / Tegra X1 (5.2)
GT 640 [GDDR5] (3.5) / GTX 650 (3.0) / GTX 660 (3.0) / GTX 670 (3.0)
GeForce GTX 750 (5.0) / GTX 760 (5.0) / GTX 770 (5.0) / GTX 780 (5.0)
GeForce GTX 950 (5.2) / GTX 960 (5.2) / GTX 970 (5.2) / GTX 980 (5.2)
GeForce GTX TITAN (3.5) / GTX TITAN Black (3.5) / GTX TITAN Z (3.5) / GTX TITAN X (5.2)
NVIDIA Quadro M6000 24GB (5.2, 24GB GDDR5, 3072 Core, 384bit, 317GB/s, 250W, ECC対応, DVI-Ix1, DP1.4x4)


● NVIDIA® Turing™ Microarchitecture RTX GPU 性能比較一覧表
RTX GPU Specification Comparison List   【Turing Microarchitecture 詳細情報】
Model GPU
Number
Memory RTX-OPS
ROPs
(T)
SM
Count
CUDA
Core
(=SM*64
=FP32 Core
=INT32 Core)
RT
Core
(=SM)
Tensor
Core
(=SM*8)
FP64
Core
(=SM*2)
GPU
Clock
(MHz)
Bus
Width
(bits)
Band
Width
(GB/s)
FP64
double
(GFLOPS)
FP32
float
(GFLOPS)
FP16
falf
(GFLOPS)
FP32/16
Tensor
(TFLOPS)
INT32
(TIPS)
INT8
(TIPS)
INT4
(TIPS)
TDP
(W)
[PIN]
NVLink
SLI
Bridge
(GB/s)
Price
(US$)
・NVIDIA® GeForce® RTX GPU  https://www.nvidia.com/en-us/geforce/20-series/
TECHPOWERUP https://www.techpowerup.com/gpu-specs/(リリース順)
TITAN RTX TU102 24GB
GDDR6
96 72
12*6
4608
[64]*72[SM]
72 576 144? 1350 -
1770
(OC)
384
32*12
672 509.8 16,312 32,625 130.5 16.3 261 522 280
[8+8]

100
2,499
GeForce
RTX 2080 Ti
Founders
Edition
TU102 11GB
GDDR6
78
~ 88
68
12*6-4
4352
[64]*68[SM]
68 544 136? 1350 -
1635
(OC)
352
32*(12-1)
616 420.2 13,448 26,895 56.9 14.2 227.7 455.4 260
[8+8]

100
1,199
GeForce
RTX 2080 Ti
TU102 11GB
GDDR6
76
~ 88
68
12*6-4
4352
[64]*68[SM]
68
12*6-4
544 136? 1350 -
1545
352
32*(12-1)
616 420.2 13,448 26,895 53.8 13.4 215.2 430.3 250
[8+8]

100
1,199
GeForce
RTX 2080
Founders
Edition
TU104 8GB
GDDR6
64 46
8*6-2
2944
[64]*46[SM]
46 368 92? 1515 -
1800
(OC)
256
32*8
448 314.6 10,068 20,137 42.4 10.6 169.6 339.1 225
[6+8]

50
799 -
999
GeForce
RTX 2080
TU104 8GB
GDDR6
64 46
8*6-2
2944
[64]*46[SM]
46
8*6-2
368 92? 1515 -
1710
256
32*8
448 314.6 10,068 20,137 40.3 10.0 161.1 322.2 215
[6+8]

50
799 -
999
GeForce
RTX 2070
Founders
Edition
TU106 8GB
GDDR6
45
~ 64
36
12*3
2304
[64]*36[SM]
36 288 72? 1410 -
1710
(OC)
256
32*8
448 233.3 7,465 14,930 31.5 7.9 126 252.1 185
[8]
- 499 -
599
GeForce
RTX 2070
TU106 8GB
GDDR6
42
~ 64
36
12*3
2304
[64]*36[SM]
36 288 72? 1410 -
1620
256
32*8
448 233.3 7,465 14,930 29.9 7.5 119.4 238.9 175
[8]
- 499 -
599
GeForce
RTX 2060

TU106 6GB
GDDR6
37
~ 48
30
12*3-6
1920
[64]*30[SM]
30 240 60? 1365 -
1680
192
32*(12-6)
336 201.6 6,451 12,902 25.8 6.5 103 206 160
[8]
- 349
GeForce
RTX 2050
TU106 4GB
GDDR6
32 14
12*1+2
896
[64]*14[SM]
14 112 28? 1515 -
1695
128
32*(12-8)
224 94.52 3,037 6,075 12.1 3.0 48 97 75
~ 100?
[8?]
- 200 -
250?
・NVIDIA® Quadro® RTX GPU http://www.nvidia.co.jp/object/quadro-jp.html
TECHPOWERUP https://www.techpowerup.com/gpu-specs/(リリース順)
Quadro
RTX 8000
TU102 48GB
GDDR6
86~96 72
12*6
4608
[64]*72[SM]
72 576 144? 1440 -
1730
384
32*12
672 509.8 16,312 32,625 130.5 16.3 261 522 250?
[8+8?]

100
9,999
Quadro
RTX 6000
TU102 24GB
GDDR6
84
~96
72
12*6
4608
[64]*72[SM]
72 576 144? 1440 -
1730
384
32*12
576 509.8 16,312 32,625 130.5 16.3 261 522 295
[8+8]

100
6,299
Quadro
RTX 5000
TU104 16GB
GDDR6
64 48
8*6
3072
[64]*48[SM]
48 384 96? 1620 -
1815
256
32*8
448 348.5 11,151 22,303 89.2 11.2 178.4 356.8 265
[6+8]

50
2,299
Quadro
RTX 4000
TU104 16GB
GDDR6
43 36
8*4
2034
[64]*36[SM]
36 288 72? 1215 -
1710
256
32*8
416 246.2 7,880 15,759 60 7.9 120 240 160
[8]
- 899
・NVIDIA® Tesla® (Turing™) GPU https://www.nvidia.com/en-us/data-center/tesla/
TECHPOWERUP https://www.techpowerup.com/gpu-specs/(Turing™ リリース順)
Tesla
T4
(Passive)
TU104 16GB
GDDR6
64 40
8*(6-1)
2560
[64]*40[SM]
40 320 80? 585 256
32*8
320 254.4 8.141 65,126 65 8.1 130 260 70
[8?]
- 3,500?
・NVIDIA® Tesla® (Volta) GPU https://www.nvidia.com/en-us/data-center/tesla/
TECHPOWERUP https://www.techpowerup.com/gpu-specs/(Volsta リリース順)
Tesla
V100 PCIe 32GB
(Passive)
GV100 32GB
GDDR5
128
(ROPs>
80
5120
[64]*80[SM]
- 640 2560 1280 -
1380
4096
897.0 7,066 14,131 28.262 112 28 130 260 250
[8+8]

200
2.0
4 bricks
12,000~
Model GPU
Number
Memory RTX-OPS
ROPs
(T)
SM
Count
CUDA
Core
(=SM*64
=FP32 Core
=INT32 Core)
RT
Core
(=SM)
Tensor
Core
(=SM*8)
FP64
Core
(=SM*2)
GPU
Clock
(MHz)
Bus
Width
(bits)
Band
Width
(GB/s)
FP64
double
(GFLOPS)
FP32
float
(GFLOPS)
FP16
falf
(GFLOPS)
FP32/16
Tensor
(TFLOPS)
INT32
(TIPS)
INT8
(TIPS)
INT4
(TIPS)
TDP
(W)
[PIN]
NVLink
SLI
Bridge
(GB/s)
Price
(US$)
NVIDIA Turing Microarchitecture Whitepaper
Turing™ Architecture GPU の Compute Capability は、7.0 以上となります。
RTX-OPS 計算式 = (TENSOR * 20%) + (FP32 * 80%) + (RTOPS * 40%) + (lNT32 * 28%)
( RTX2080 Ti の場合、RTX-OPs = 77.92 = (14 * 80%) + (14 * 28%) + (100 * 40%) + (114 * 20%) )
NVIDIA® SLI NVLink™ に対応させるためには、NVLink 対応のGPU、SLI に対応したマザーボード(X299等+SLI対応BIOS)、アプリケーション、ドライバーのSLI設定等が必要となります。


● NVIDIA® Volta™ アーキテクチャー GPU
TITAN V (7.0, 12GB HBM2, CUDA 5120 Core, Tensor 640 Core, 1200 - 1455 MHz, 3072 bit, 652.8 GB/s, TDP 250W)

● NVIDIA® Pascal™ アーキテクチャー GPU
・NVIDIA® GeForce® GPU http://www.nvidia.co.jp/object/geforce_family_jp.html
CUDA を高速化、最適化するためは、Pascal Architecture に対応した最新の CUDA + ドライバー が理想的
GeForce GTX 1050 (6.1, 4,2GB GDDR5, 768,640 Core, 1354 - 1445 MHz, TDP 75W~)
GeForce GTX 1060 (6.1, 6,3,2GB GDDR5, 1280,1152,1024Core, 1506 - 1708 MHz, TDP 120W~)
GeForce GTX 1070 (6.1, 8GB GDDR5, 1920 Core, 1506 - 1708 MHz, TDP 150W~200W) 1809 EOL
GeForce GTX 1080 (6.1, 8GB GDDR5, 2560 Core, 1607 - 1733 MHz, TDP 180~200W) 1809 EOL
NVIDIA TITAN X (6.1, 12GB GDDR5X, 3584 Core, 1417 - 1531 MHz, TDP 約250W~) 1809 EOL
(GTX の付いた GTX TITAN X は、Pascal ではなく、Maxwell アーキテクチャー となりますので、ご注意ください)

GeForce TITAN Xp (6.1, 12GB GDDR5x, 3840 Core, 1,582 MHz, 384bit, 547.7GB/s, 12TFLOPS, 7680x4320@60Hz, TDP 250W)
GeForce GTX 1080 Ti (6.1, 11GB GDDR5, 3584 Core, 1480 - 1582 MHz, 352bit, 484GB/s, TDP 250W)
GeForce GTX 1050 Ti (6.1, 4GB GDDR5, 768 Core, 1290 - 1390 MHz, 128bit, TDP 75W)

・NVIDIA® Quadro® GPU http://www.nvidia.co.jp/object/quadro-jp.html
NVIDIA Quadro GV100 (6.0, 32GB HMB2, 5120 Core, 4096bit, 870GB/s, 250W, ECC対応, DP 1.4x4)
NVIDIA Quadro GP100 (6.0, 16GB HMB2, 3584 Core, 4096bit, 732GB/s, 235W, ECC対応, DVI-Ix1, DP 1.4x4)
NVIDIA Quadro P6000 (6.1, 24GB GDDR5X, 3840 Core, 384bit, 433GB/s, 250W, ECC対応, DVI-Ix1, DP 1.4x4)
NVIDIA Quadro P5000 (6.1, 16GB GDDR5X, 2560 Core, 256bit, 288GB/s, 180W, ECC対応, DVI-Ix1, DP 1.4x4)
NVIDIA Quadro P4000 (6.1, 16GB GDDR5, 1792 Core, 256bit, 243GB/s, 105W, ECC対応, DP 1.4x4)
NVIDIA Quadro P2000 (6.1, 5GB GDDR5, 1024 Core, 160bit, 140GB/s, 75W, ECC対応, DP 1.4x4)
NVIDIA Quadro P1000 (6.1, 4GB GDDR5, 640 Core, 128bit, 80GB/s, 47W, ECC対応, Mini DP 1.4x4)
NVIDIA Quadro P600 (6.1, 2GB GDDR5, 384 Core, 128bit, 64GB/s, 40W, ECC対応, Mini DP 1.4x4) EOL
NVIDIA Quadro P400 (6.1, 2GB GDDR5, 256 Core, 64bit, 32GB/s, 30W, ECC対応, Mini DP 1.4x3)

・NVIDIA® Tesla™ GPU http://www.nvidia.co.jp/object/quadro-jp.html
Tesla V100 (7.0, 5120 Core, 7TFLOPS(DP), 14TFLOPS(SP), 18.7TFLOPS(HP), 112TFLOPS(DL), 16GB CoWoS HBM2 with ECC, 4096 bit, 1245-1380MHz, 900 GB/s) EOL
Tesla V100 (7.0, 5120 Core, 7TFLOPS(DP), 14TFLOPS(SP), 18.7TFLOPS(HP), 112TFLOPS(DL), 32GB CoWoS HBM2 with ECC, 4096 bit, 1230-1380MHz, 900 GB/s)
Tesla P100 for PCIe-Based (6.0, 4.7TFLOPS(DP), 9.3TFLOPS(SP), 18.7TFLOPS(HP), 16 or 12GB, 720 or 540 GB/s, ECC対応) EOL
Tesla P100 for NVLink-Optimized (6.0, 5.3TFLOPS(DP), 10.6TFLOPS(SP), 21.2TFLOPS(HP), 16GB, 720GB/s, ECC対応)

Tesla P40 (6.1, 12TFLOPS(SP), 47TOPS(INT8), 24GB, 346GB/s, 250W, ECC対応)
Tesla P4 (6.1, 5.5TFLOPS(SP), 22TOPS(INT8), 8GB, 192GB/s, 50/75W, ECC対応)
(SP:Single Precision 単精度, DP:Double Precision 倍精度, HP:Half Precision 半精度)

※NVIDIA® Deep Learning (深層学習) 開発環境に非対応なGPUの例
Tesla C2050 (2.0) / C2070 (2.0) / C2075 (2.0) / M20xx (2.0)
Qudro Plex 7000 (2.0)
Qudro NVS 310 (2.0) / NVS 315 (2.0) / NVS 4200M (2.1) / NSV 5200M (2.1)
GeForce GT 430 (2.1) / GT 430 (2.1) / GT 440 (2.1) / GTS 450 (2.1) / GTX 460 (2.1)
GeForce GT 550 Ti (2.1) / GT 560 Ti (2.1) / GTx 570 (2.0) / GTx 580 (2.0) / GTX 590x (2.0)
GeForce GT 610 (2.1) / GT 620 (2.1) / GT 630 (2.1) / GT 640 [GDDR3] (2.1)
(GeForce GT 640 GDDR3 は、 NVIDIA® のサイトでは 2.1 となっていましたが、 ELSA GeForce GT 640 LP 2GB GD640-2GERGL は、CUDA 「Device Query」 でチックしたところ 3.0 でした)
GeForce GT 730 [DDR3,128bit] (2.1)
搭載してあるNVIDIA®製GPUの種類は、以下のコマンドにより確認ができますので、もし、NVIDIA®製GPUを搭載されている場合は、確認してみてください。
$ lspci | grep -i nvidia
01:00.0 VGA compatible controller: NVIDIA Corporation Device 1b80 (rev a1)
01:00.1 Audio device: NVIDIA Corporation Device 10f0 (rev a1)

$ nvidia-smi                      (要 CUDA インストール)
Thu Sep 22 22:23:07 2016
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 367.44                 Driver Version: 367.44                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GT 640      Off  | 0000:01:00.0     N/A |                  N/A |
| 30%   35C    P0    N/A /  N/A |      0MiB /  1997MiB |     N/A      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|    0                  Not Supported                                         |
+-----------------------------------------------------------------------------+

$ $ ./deviceQuery                (要 CUDA Sample インストール)
./deviceQuery Starting...

 CUDA Device Query (Runtime API) version (CUDART static linking)

Detected 1 CUDA Capable device(s)

Device 0: "GeForce GTX 1080"
  CUDA Driver Version / Runtime Version          8.0 / 8.0
  CUDA Capability Major/Minor version number:    6.1
  Total amount of global memory:                 8110 MBytes (8504279040 bytes)
  (20) Multiprocessors, (128) CUDA Cores/MP:     2560 CUDA Cores
  GPU Max Clock rate:                            1734 MHz (1.73 GHz)
  Memory Clock rate:                             5005 Mhz
  Memory Bus Width:                              256-bit
  L2 Cache Size:                                 2097152 bytes
  Maximum Texture Dimension Size (x,y,z)         1D=(131072), 2D=(131072, 65536), 
                                                 3D=(16384, 16384, 16384)
  Maximum Layered 1D Texture Size, (num) layers  1D=(32768), 2048 layers
  Maximum Layered 2D Texture Size, (num) layers  2D=(32768, 32768), 2048 layers
  Total amount of constant memory:               65536 bytes
  Total amount of shared memory per block:       49152 bytes
  Total number of registers available per block: 65536
  Warp size:                                     32
  Maximum number of threads per multiprocessor:  2048
  Maximum number of threads per block:           1024
  Max dimension size of a thread block (x,y,z): (1024, 1024, 64)
  Max dimension size of a grid size    (x,y,z): (2147483647, 65535, 65535)
  Maximum memory pitch:                          2147483647 bytes
  Texture alignment:                             512 bytes
  Concurrent copy and kernel execution:          Yes with 2 copy engine(s)
  Run time limit on kernels:                     Yes
  Integrated GPU sharing Host Memory:            No
  Support host page-locked memory mapping:       Yes
  Alignment requirement for Surfaces:            Yes
  Device has ECC support:                        Disabled
  Device supports Unified Addressing (UVA):      Yes
  Device PCI Domain ID / Bus ID / location ID:   0 / 1 / 0
  Compute Mode:
     < Default (multiple host threads can use ::cudaSetDevice() with device 
	 simultaneously) >

deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 8.0, CUDA Runtime 
Version = 8.0, NumDevs = 1, Device0 = GeForce GTX 1080
Result = PASS
Self-Paced
Courses
for
Deep
Learning

https://developer.nvidia.com/deep-learning-courses

Introduction to Deep Learning
Getting Started with DIGITS for Image Classification
Getting Started with the Caffe Framework
Getting Started with the Theano Framework
Getting Started with the Torch Framework
先頭へ戻る


Arcbrain Deep Learning GWS Middle Tower Chassis
株式会社アークブレインでは、Deep Learning(深層学習)を研究するための カスタム・オーダーメイドの ワークステーション(GPU × 1~4)や、サーバー(GPU × 1~4)を販売しております。

Intel® Xeon® Scalable Processor 搭載
Arcbrain オリジナル サーバー、ワークステーション製品 最新ラインナップ


GPUを使用せず、Intel® Xeon® / Core™ Processor、インテル® Parallel Studio、インテル® MKL(Math Kernel Library) の DNN(Deep Neural Network) プリミティブ、インテル® Distribution for Python® による Deep Learning(深層学習)の開発環境を構築することも可能です。

お気軽に弊社までお見積り依頼をお願いいたします。
ご希望の仕様に合った構成のカスタマイズに、ご対応させていただきます。


GPU ハードウェア要件
Turing Architecture GPUs
プロセッサ ドライバー CUDA Toolkit DIGITS cuDNN
Frameworks
Caffe theano torch BIDMach Keras Another
Frameworks

 
インテル® ソフトウェア開発製品 販売代理店
Intel® Software Development Products Resellers
Avast® Software パートナー
AVG® Reseller

株式会社アークブレイン
〒151-0073 東京都渋谷区笹塚 2丁目47番1号
TEL 03-3375-8968
IP TEL 050-3334-0311 〔OCN〕
FAX 03-3375-8767

お問い合わせ、御見積依頼 はこちらからどうぞ

Copyright® 2019  Arcbrain Inc.