ブラウザーの【JavaScript】が無効になっているため、画面を正常に表示することができません!
NVIDIA Turing Microarchitecture RTX GPU (TU102, TU104, TU106)|株式会社アークブレイン
http://www.arcbrain.jp HOME へ        
 

NVIDIA® Turing マイクロアーキテクチャ(Microarchitecture) RTX GPU(Graphics Processing Unit)

こちらは、「NVIDIA® Deep Learning (深層学習)」を開発するPC(ワークステーション、サーバー)に必要な開発環境を構築する方法の概略や、構築に参考となる情報を集めたページとなります。
各々の情報のサイト・リンク情報、NVIDIA® CUDA、CUDA GUP ドライバー、NVIDIA® DIGITS、cuDNN、フレームワーク(Caffe、theano、torch、BIDMach)などをダウンロード、インストールする方法の概略情報があります。
既に Deep Learning の開発環境をお持ちの方も、また、これから導入を考えておられる方にも、何かのご参考になれば幸いです。

インテル® Xeon® プロセッサや、Xeon® Phi™ x200 プロセッサ(Knights Landing)を使用した場合の Deep Learning 開発に関しての情報はこちらをご覧ください。
(2017/04/08 更新)
GPU ハードウェア要件
Turing Architecture GPUs
プロセッサ ドライバー CUDA Toolkit DIGITS cuDNN
Frameworks
Caffe theano torch BIDMach Keras Another
Frameworks



Arcbrain Deep Learning GWS Middle Tower Chassis
株式会社アークブレインでは、Deep Learning(深層学習)を研究するための カスタム・オーダーメイドの ワークステーション(GPU × 1~4)や、サーバー(GPU × 1~4)を販売しております。

Intel® Xeon® Scalable Processor 搭載
Arcbrain オリジナル サーバー、ワークステーション製品 最新ラインナップ


GPUを使用せず、Intel® Xeon® / Core™ Processor、インテル® Parallel Studio、インテル® MKL(Math Kernel Library) の DNN(Deep Neural Network) プリミティブ、インテル® Distribution for Python® による Deep Learning(深層学習)の開発環境を構築することも可能です。

お気軽に弊社までお見積り依頼をお願いいたします。
ご希望の仕様に合った構成のカスタマイズに、ご対応させていただきます。

NVIDIA® Accelerated Computing Developer Program
NVIDIA® Deep Learning の開発環境(NVIDIA® CUDA、NVIDIA® DIGITS™、cuDNN等)を入手するためには、まず、Accelerated Computing Developer Program に登録する必要があります。
https://developer.nvidia.com/accelerated-computing-developer

● NVIDIA® Turing™ Microarchitecture RTX GPU 性能比較一覧表
RTX GPU Specification Comparison List
Model GPU
Number
Memory RTX-OPS
ROPs
(T)
SM
Count
CUDA
Core
(=SM*64
=FP32 Core
=INT32 Core)
RT
Core
(=SM)
Tensor
Core
(=SM*8)
FP64
Core
(=SM*2)
GPU
Clock
(MHz)
Bus
Width
(bits)
Band
Width
(GB/s)
FP64
double
(GFLOPS)
FP32
float
(GFLOPS)
FP16
falf
(GFLOPS)
FP32/16
Tensor
(TFLOPS)
INT32
(TIPS)
INT8
(TIPS)
INT4
(TIPS)
TDP
(W)
[PIN]
NVLink
SLI
Bridge
(GB/s)
Price
(US$)
・NVIDIA® GeForce® RTX GPU  https://www.nvidia.com/en-us/geforce/20-series/
TECHPOWERUP https://www.techpowerup.com/gpu-specs/(リリース順)
TITAN RTX TU102 24GB
GDDR6
96 72
12*6
4608
[64]*72[SM]
72 576 144? 1350 -
1770
(OC)
384
32*12
672 509.8 16,312 32,625 130.5 16.3 261 522 280
[8+8]

100
2,499
GeForce
RTX 2080 Ti
Founders
Edition
TU102 11GB
GDDR6
78
~ 88
68
12*6-4
4352
[64]*68[SM]
68 544 136? 1350 -
1635
(OC)
352
32*(12-1)
616 420.2 13,448 26,895 56.9 14.2 227.7 455.4 260
[8+8]

100
1,199
GeForce
RTX 2080 Ti
TU102 11GB
GDDR6
76
~ 88
68
12*6-4
4352
[64]*68[SM]
68
12*6-4
544 136? 1350 -
1545
352
32*(12-1)
616 420.2 13,448 26,895 53.8 13.4 215.2 430.3 250
[8+8]

100
1,199
GeForce
RTX 2080
Founders
Edition
TU104 8GB
GDDR6
64 46
8*6-2
2944
[64]*46[SM]
46 368 92? 1515 -
1800
(OC)
256
32*8
448 314.6 10,068 20,137 42.4 10.6 169.6 339.1 225
[6+8]

50
799 -
999
GeForce
RTX 2080
TU104 8GB
GDDR6
64 46
8*6-2
2944
[64]*46[SM]
46
8*6-2
368 92? 1515 -
1710
256
32*8
448 314.6 10,068 20,137 40.3 10.0 161.1 322.2 215
[6+8]

50
799 -
999
GeForce
RTX 2070
Founders
Edition
TU106 8GB
GDDR6
45
~ 64
36
12*3
2304
[64]*36[SM]
36 288 72? 1410 -
1710
(OC)
256
32*8
448 233.3 7,465 14,930 31.5 7.9 126 252.1 185
[8]
- 499 -
599
GeForce
RTX 2070
TU106 8GB
GDDR6
42
~ 64
36
12*3
2304
[64]*36[SM]
36 288 72? 1410 -
1620
256
32*8
448 233.3 7,465 14,930 29.9 7.5 119.4 238.9 175
[8]
- 499 -
599
GeForce
RTX 2060

TU106 6GB
GDDR6
37
~ 48
30
12*3-6
1920
[64]*30[SM]
30 240 60? 1365 -
1680
192
32*(12-6)
336 201.6 6,451 12,902 25.8 6.5 103 206 160
[8]
- 349
GeForce
RTX 2050
TU106 4GB
GDDR6
32 14
12*1+2
896
[64]*14[SM]
14 112 28? 1515 -
1695
128
32*(12-8)
224 94.52 3,037 6,075 12.1 3.0 48 97 75
~ 100?
[8?]
- 200 -
250?
・NVIDIA® Quadro® RTX GPU http://www.nvidia.co.jp/object/quadro-jp.html
TECHPOWERUP https://www.techpowerup.com/gpu-specs/(リリース順)
Quadro
RTX 8000
TU102 48GB
GDDR6
86~96 72
12*6
4608
[64]*72[SM]
72 576 144? 1440 -
1730
384
32*12
672 509.8 16,312 32,625 130.5 16.3 261 522 250?
[8+8?]

100
9,999
Quadro
RTX 6000
TU102 24GB
GDDR6
84
~96
72
12*6
4608
[64]*72[SM]
72 576 144? 1440 -
1730
384
32*12
576 509.8 16,312 32,625 130.5 16.3 261 522 295
[8+8]

100
6,299
Quadro
RTX 5000
TU104 16GB
GDDR6
64 48
8*6
3072
[64]*48[SM]
48 384 96? 1620 -
1815
256
32*8
448 348.5 11,151 22,303 89.2 11.2 178.4 356.8 265
[6+8]

50
2,299
Quadro
RTX 4000
TU104 16GB
GDDR6
43 36
8*4
2034
[64]*36[SM]
36 288 72? 1215 -
1710
256
32*8
416 246.2 7,880 15,759 60 7.9 120 240 160
[8]
- 899
・NVIDIA® Tesla® (Turing™) GPU https://www.nvidia.com/en-us/data-center/tesla/
TECHPOWERUP https://www.techpowerup.com/gpu-specs/(Turing™ リリース順)
Tesla
T4
(Passive)
TU104 16GB
GDDR6
64 40
8*(6-1)
2560
[64]*40[SM]
40 320 80? 585 256
32*8
320 254.4 8.141 65,126 65 8.1 130 260 70
[8?]
- 3,500?
・NVIDIA® Tesla® (Volta) GPU https://www.nvidia.com/en-us/data-center/tesla/
TECHPOWERUP https://www.techpowerup.com/gpu-specs/(Volsta リリース順)
Tesla
V100 PCIe 32GB
(Passive)
GV100 32GB
GDDR5
128
(ROPs>
80
5120
[64]*80[SM]
- 640 2560 1280 -
1380
4096
897.0 7,066 14,131 28.262 112 28 130 260 250
[8+8]

200
2.0
4 bricks
12,000~
Model GPU
Number
Memory RTX-OPS
ROPs
(T)
SM
Count
CUDA
Core
(=SM*64
=FP32 Core
=INT32 Core)
RT
Core
(=SM)
Tensor
Core
(=SM*8)
FP64
Core
(=SM*2)
GPU
Clock
(MHz)
Bus
Width
(bits)
Band
Width
(GB/s)
FP64
double
(GFLOPS)
FP32
float
(GFLOPS)
FP16
falf
(GFLOPS)
FP32/16
Tensor
(TFLOPS)
INT32
(TIPS)
INT8
(TIPS)
INT4
(TIPS)
TDP
(W)
[PIN]
NVLink
SLI
Bridge
(GB/s)
Price
(US$)
NVIDIA Turing Microarchitecture Whitepaper
Turing™ Architecture GPU の Compute Capability は、7.0 以上となります。
RTX-OPS 計算式 = (TENSOR * 20%) + (FP32 * 80%) + (RTOPS * 40%) + (lNT32 * 28%)
( RTX2080 Ti の場合、RTX-OPs = 77.92 = (14 * 80%) + (14 * 28%) + (100 * 40%) + (114 * 20%) )
NVIDIA® SLI NVLink™ に対応させるためには、NVLink 対応のGPU、SLI に対応したマザーボード(X299等+SLI対応BIOS)、アプリケーション、ドライバーのSLI設定等が必要となります。

NVIDIA Turing TU102 Full GPU with 72 SM Units
図1: NVIDIA Turing™ TU102 Full GPU with 72 SM (Streaming Multiprocessor) Units

Turing™ TU102 GPU は、
GPCs (Graphics Processing Clusters) 6 基
Raster Engine 6 基
TPCs (Texture Processing Clusters) 36 基 (6 * 6[GPCs])
PolyMorph Engine 36 基 (6 * 6[GPCs])
SMs(Streaming Multiprocessors) 72 基 (12 * 6[GPCs])
で構成されています。

CUDA Core 4608 基 (16*4)[SM] * (12 * 6[GPCs])
RT Core 72 基 1[SM] * (12 * 6[GPCs])
Tensor Core 576 基 (2*4)[SM] * (12 * 6[GPCs])
Texture Units 288 基 4[SM] * (12 * 6[GPCs])
32-bit GDDR6 Memory Controllers 12 基 (32-bits * 12 = 384-bits total)
各 メモリコントローラ には、8基の【ROP Unit】 と 【512 KB L2 Cache】が接続されています。
フルTU102 GPU は、96基の【ROP Unit】 と 【6144 KB L2 Cache】で構成されています。
図1: を参照してください。

注: TU102 GPUには、144基(2 * 12 * 6 [GPCs]) の 【FP64 Units】(SMごとに2基) も装備されていますが、この図には示されていません。
FP64(144 Units) TFLOP値 は、FP32演算(16 * 12 * 6 = 1,152 Units) のTFLOP値 の 1/32 となります。
( (2 * 12 * 6) / (16 * 4 * 12 * 6) = 2 / (16 * 4) = 1 / 32 )
FP64 Code を持つプログラムが正しく実行されるように、少数とはなりますが 【FP64 Hardware Units】 が搭載されています。

旧世代(Volta、Pascal、Kepler) Microarchitecure の Tesla® GPU では、SMあたり、32(Tesla® V100、Tesla® P100 等) もの FP64 Core が搭載されていました(全部で 32/[SM] * 84[SM] = 2,688 FP64 Core)ので、最大約 7.8 TFLOPS という性能が出ていました。
しかしながら、Turing™ Microarchitecture の Tesla®、Quadro® RTX、GeForce® RTX 2000 Series では、SMあたり FP64 Core は 2基 だけとなっていますので、FP64 倍精度浮動小数点演算の性能は低く(最大 0.5 TFLOPS 程度)なっています。(全部で 2/[SM] * 72[SM] = 144 FP64 Core)
Turing™ 世代のGPUは、あまり倍精度浮動小数点向けの Processor とは言えず、AI、Deep Learning に特化したと考えられます。
 


Turing TU102/TU104/TU106 Streaming Multiprocessor(SM)
図2: Turing™ TU102/TU104/TU106 Streaming Multiprocessor(SM)
【Processing Block】 × 4基 で構成されています。

TPC(Texture Processing Clusters) は、2基の SMs で構成されています。

各々の SM は、
FP32 Core 64 基 (16 * 4)
INT32 Core 64 基 (16 * 4)
Tensor Core 8 基 (2 * 4)
FP64 Core 2 基
で構成されています。
(FP64 Unit は、図1 および 図2 には表示されていません。)

Turing™ SM は、FP32 と INT32 を同時に実行することが可能です。

各々の Turing™ SM は、
Mixed-Precision Turing™ Tensor Core 8 基 (2 * 4)
RT Core (Turing™ Ray Tracing 用) 1 基
を内蔵しています。

Turing™ SM は、4基 の 【Processing Blocks】 で構成されています。
各々の 【Processing Blocks】 は以下ような仕様となっています。
FP32 Core 16 基
INT32 Core 16 基
Tensor Core 2 基
Warp Scheduler 1 基
Dispatch Unit
(32 thread / clk)
1 基
Register File 16,384 基 (32 bit)
(4基 の 【Processing Blocks】 に対して、2基 の 【FP64 Hardware Units】 が用意されています。)

NVIDIA Turing Microarchitecture : New Shared Memory Architecture
図3: NVIDIA Turing™ New Shared Memory Architecture

各【Processing Block】には、新しい 【L0 Instruction Cache】 と 【64KB Register File】 が搭載されています。
4基の【Processing Block】は、 【96KB L1 Data Cache】 / 【Shared Memory】 を共有します。

従来の Graphics Workloads では、
【96KB L1】 / 【Shared Memory】 を 専用の【64 KB Graphics Shader RAM】
として、また
【32KB】 を 【Texture Cache】 および 【Register File】 の スピルエリア として分割しています。

Compute workloads では、【96KB】 を
【32KB shared memory】 と 【64KB L1 cache】
、または
【64KB shared memory】 と 【32KB L1 cache】
に分割できます。

Turing™ は、Core 実行データパス の大幅な改良を実装しています。
最近の Shader Workloads では、通常、FADD(Floating point ADD) や FMAD(Floating-point Multiply-ADd) などの FP算術演算命令 と、データのアドレス指定 および フェッチ のための 整数加算、処理結果 のための 浮動小数点比較、最小 / 最大 などの 単純命令 が混在しています。
これらの 非FP演算命令 のいずれかが実行されると、 ポイント演算データパス は アイドル状態 になります。
Turing™ は、これらの命令を 浮動小数点演算 と並列に実行するすべての CUDA Core の隣に2番目の 並列実行 Unit を追加します。

整数パイプ命令 と 浮動小数点命令 の組み合わせがさまざまであありますが、最近のいくつかのアプリケーションでは、100浮動小数点命令 ごとに通常 約36の 整数パイプ命令 が認められています。
これらの命令を別のパイプに移動すると、浮動小数点に有効な36%の追加スループットが可能になります。

Turing™ の SM は、【Shared Memory】、L1、そして テクスチャキャッシング のための新しい 統一アーキテクチャ も導入しました。

・L1 2倍のバンド幅
・L1 レイテンシイの削減
・L1 2.7倍のサイズ
・L2 2倍のサイズ

この統一された設計により、 L1 Cache は Pascal と比較して TPC(Texture Processing Clusters) あたり2倍のヒット帯域幅を使用してリソースを活用でき、 【Shared Memory】 割り当てがすべての 【Shared Memory】容量 を使用していない場合は大きくなります。
Turing™ L1 のサイズは、64KB までとし、SM あたり 32KB の 【Shared Memory】割り当て と組み合わせることも、 32KB に縮小して 64KB の割り当てを 【Shared Memory】 に使用することもできます。

Turing™ L2 の Cache容量 も 3MB(Pascla) から 6MB(Turing™) 倍増されました。

図3 [Pascal TPC(Texture Processing Clusters)]と[Turing™ TPC]の 新旧 Shared Memory Architecure の違いを示しています。

Turing™ SM の新しい 【L1 Data Cache】 と 【Shared Memory】 サブシステム の組み合わせがパフォーマンスを大幅に向上させると同時に、プログラミングを簡素化し、ピーク時 または ほぼピーク時の アプリケーションパフォーマンス を達成するために必要な チューニング を削減する方法を示しています。

【L1 Data Cache】 と 【Shared Memory】 を組み合わせることで、以前の Pascal GPU で使用されていた 【L1 Cache】 の実装よりも 待ち時間 を短縮し、より高い 帯域幅を 提供します。
全体として、SM の変更により、Turing™ は CUDA Core あたりの性能を50%向上させることができます。

NVIDIA Turing Microarchitecture : New Turing Tensor Cores Provide Multi-Precision for AI Inference
図4: NVIDIA® Turing™ Microarchitecture : Tensor Cores Provide Multi-Precision for AI Inference

Turing™ GPU には、Volta GV100 GPU で最初に導入された Tensor Cores の拡張バージョンが搭載されています。
Turing™ Tensor Core は、量子化 を許容することができる Workload の推論のために、INT8 と INT4 という低い精度の仕様が追加されています。
より高い精度を必要とする Workload に対応するため、FP16 も完全にサポートされています。

Turing™ ベース の GeForceゲーミングGPU に Tensor Cores を導入することで、リアルタイム の ディープラーニング を ゲームアプリケーション に初めてもたらすことが可能になります。
Turing™ Tensor Cores は、グラフィック、レンダリング、およびその他の種類の クライアントサイドアプリケーション を強化する、NVIDIA® NGX Neural Services の AIベース の機能を加速します。
NGX AI機能 の例としては、 ディープラーニングスーパーサンプリング(DLSS)、AI InPainting、AI Super Rez、および AI Slow-Mo があります。

Tensor Cores を使用すると、ニューラルネットワーク のトレーニングと推論機能の中核となる、行列間の乗算(matrix-matrix multiplication) が加速されます。
Turing™ Tensor Cores は、推論計算に特に優れています。
推論計算では、与えられた入力に基づいて、訓練された ディープニューラルネットワーク(DNN) によって有用で関連性のある情報を推論して配信できます。
推論の例としては、Facebook の写真で友達の画像を識別、自動運転車の中でさまざまな種類の自動車、歩行者、および道路の危険を識別して分類、人のスピーチをリアルタイムで翻訳、オンライン小売 および ソーシャルメディアシステムでパーソナライズされたユーザー推奨を作成するシステム等があります。

TU102 GPU には 576基( (2[SM] * 4[Processing Block]) * 12 * 6[GPCs]) の Tensor Core が搭載されています。
SM ごとに 8基、SM 内の 4基ある 【Processing Block】 ごとに 各々 2基 搭載されています。
各々の Tensor Core は、FP16入力 を使用して、1クロック あたり 最大 64命令 の 浮動小数点融合積和(FMA:Fused Multiply-Add)演算 を実行できます。
SM 内の 8基 の Tensor Cores は、1クロック あたり 合計512命令 の FP16乗算 および 積和演算(Accumulate Operations)、または 1クロック あたり 1024命令 の FP(浮動小数点)演算 を実行します。
新しい INT8精度モード は、この2倍、つまり クロックあたり 2048命令 の整数演算を実行します。

Turing™ Tensor Cores は行列演算を大幅にスピードアップし、新しい ニューラルグラフィックス機能 に加えて、ディープラーニングトレーニング と 推論演算 の両方に使用されます。
Tensor Core の基本的な運用上の詳細については、 NVIDIA Tesla V100 GPU Architecture Whitepaper を参照してください。
図4 は、AI推論に多精度を提供する新しい Turing™ Tensor Cores を示しています。

GPU ハードウェア要件
Turing Architecture GPUs
プロセッサ ドライバー CUDA Toolkit DIGITS cuDNN
Frameworks
Caffe theano torch BIDMach Keras Another
Frameworks

 
インテル® ソフトウェア開発製品 販売代理店
Intel® Software Development Products Resellers
Avast® Software パートナー
AVG® Gold Level Reseller

株式会社アークブレイン
〒151-0073 東京都渋谷区笹塚 2丁目47番1号
TEL 03-3375-8968
IP TEL 050-3334-0311 〔OCN〕
FAX 03-3375-8767

お問い合わせ、御見積依頼 はこちらからどうぞ

Copyright® 2019  Arcbrain Inc.