NVIDIA Turing Microarchitecture RTX GPU (TU102, TU104, TU106)

GPU ハードウェア要件 Turing Architecture GPUs	プロセッサ	ドライバー	CUDA Toolkit	DIGITS	cuDNN
Frameworks
Caffe	theano	torch	BIDMach	Keras	Another Frameworks

NVIDIA^® Accelerated Computing Developer Program
	NVIDIA^® Deep Learning の開発環境（NVIDIA^® CUDA、NVIDIA^® DIGITS™、cuDNN等）を入手するためには、まず、Accelerated Computing Developer Program に登録する必要があります。 https://developer.nvidia.com/accelerated-computing-developer

● NVIDIA^® Turing™ Microarchitecture RTX GPU 性能比較一覧表
RTX GPU Specification Comparison List（2019年7月22日現在）

Model	GPU Number	Memory	RTX-OPS ROPs (T)	SM Count	CUDA Core (=SM*64 =FP32 Core =INT32 Core)	RT Core (=SM)	Tensor Core (=SM*8)	FP64 Core (=SM*2)	GPU Clock (MHz)	Bus Width (bits)	Band Width (GB/s)	FP64 double (GFLOPS)	FP32 float (GFLOPS)	FP16 falf (GFLOPS)	FP32/16 Tensor (TFLOPS)	INT32 (TIPS)	INT8 (TIPS)	INT4 (TIPS)	TDP (W) [PIN]	NVLink SLI Bridge (GB/s)	Price (US$)
・NVIDIA^® GeForce^® RTX GPU　 https://www.nvidia.com/en-us/geforce/20-series/ TECHPOWERUP　https://www.techpowerup.com/gpu-specs/（リリース順）
TITAN RTX	TU102	24GB GDDR6	96	72 12*6	4608 [64]*72[SM]	72	576	144?	1350 - 1770 (OC)	384 32*12	672	509.8	16,312	32,625	130.5	16.3	261	522	280 [8+8]	✔ 100	2,499
GeForce RTX 2080 Ti Founders Edition	TU102	11GB GDDR6	78 ～ 88	68 12*6-4	4352 [64]*68[SM]	68	544	136?	1350 - 1635 (OC)	352 32*(12-1)	616	420.2	13,448	26,895	56.9	14.2	227.7	455.4	260 [8+8]	✔ 100	1,199
GeForce RTX 2080 Ti	TU102	11GB GDDR6	76 ～ 88	68 12*6-4	4352 [64]*68[SM]	68 12*6-4	544	136?	1350 - 1545	352 32*(12-1)	616	420.2	13,448	26,895	53.8	13.4	215.2	430.3	250 [8+8]	✔ 100	1,199
GeForce RTX 2080 Super	TU104	8GB GDDR6	64	48 8*6	3072 [64]*48[SM]	48 8*6	384	96?	1650 - 1815	256 32*8	495.9	348.5	11,150	22,300	44.6	11.2	180.2	360.5	215 [6+8]		699
GeForce RTX 2080 Founders Edition	TU104	8GB GDDR6	64	46 8*6-2	2944 [64]*46[SM]	46	368	92?	1515 - 1800 (OC)	256 32*8	448	314.6	10,068	20,137	42.4	10.6	169.6	339.1	225 [6+8]	✔ 50	799 - 999
GeForce RTX 2080	TU104	8GB GDDR6	64	46 8*6-2	2944 [64]*46[SM]	46 8*6-2	368	92?	1515 - 1710	256 32*8	448	314.6	10,068	20,137	40.3	10.0	161.1	322.2	215 [6+8]	✔ 50	799 - 999
GeForce RTX 2070 Super	TU104	8GB GDDR6	64	40 12*4-8	2560 [64]*40[SM]	40	320	80?	1605 - 1770	256 32*8	448	283.2	9,062	18,120	36.0	9.1	144	288	215 [6+8]	-	499
GeForce RTX 2070 Founders Edition	TU106	8GB GDDR6	45 ～ 64	36 12*3	2304 [64]*36[SM]	36	288	72?	1410 - 1710 (OC)	256 32*8	448	233.3	7,465	14,930	31.5	7.9	126	252.1	185 [8]	-	499 - 599
GeForce RTX 2070	TU106	8GB GDDR6	42 ～ 64	36 12*3	2304 [64]*36[SM]	36	288	72?	1410 - 1620	256 32*8	448	233.3	7,465	14,930	29.9	7.5	119.4	238.9	175 [8]	-	499 - 599
GeForce RTX 2060 Super	TU106	8GB GDDR6	64	34 12*3-2	2176 [64]*34[SM]	34	272	64?	1470 - 1650	256 32*(12-4)	448	224.4	7,181	14.360	28.7	7.2	144.8	249.6	160 [8]	-	399
GeForce RTX 2060	TU106	6GB GDDR6	37 ～ 48	30 12*3-6	1920 [64]*30[SM]	30	240	60?	1365 - 1680	192 32*(12-6)	336	201.6	6,451	12,902	25.8	6.5	103	206	160 [8]	-	349
GeForce RTX 2050	TU106	4GB GDDR6	32	14 12*1+2	896 [64]*14[SM]	14	112	28?	1515 - 1695	128 32*(12-8)	224	94.52	3,037	6,075	12.1	3.0	48	97	75 ～ 100? [8?]	-	200 - 250?
・NVIDIA^® Quadro^® RTX GPU　http://www.nvidia.co.jp/object/quadro-jp.html TECHPOWERUP　https://www.techpowerup.com/gpu-specs/（リリース順）
Quadro RTX 8000	TU102	48GB GDDR6	86～96	72 12*6	4608 [64]*72[SM]	72	576	144?	1440 - 1730	384 32*12	672	509.8	16,312	32,625	130.5	16.3	261	522	250? [8+8?]	✔ 100	9,999
Quadro RTX 6000	TU102	24GB GDDR6	84 ～96	72 12*6	4608 [64]*72[SM]	72	576	144?	1440 - 1730	384 32*12	576	509.8	16,312	32,625	130.5	16.3	261	522	295 [8+8]	✔ 100	6,299
Quadro RTX 5000	TU104	16GB GDDR6	64	48 8*6	3072 [64]*48[SM]	48	384	96?	1620 - 1815	256 32*8	448	348.5	11,151	22,303	89.2	11.2	178.4	356.8	265 [6+8]	✔ 50	2,299
Quadro RTX 4000	TU104	16GB GDDR6	43	36 8*4	2034 [64]*36[SM]	36	288	72?	1215 - 1710	256 32*8	416	246.2	7,880	15,759	60	7.9	120	240	160 [8]	-	899
・NVIDIA^® Tesla^® (Turing™) GPU　https://www.nvidia.com/en-us/data-center/tesla/ TECHPOWERUP　https://www.techpowerup.com/gpu-specs/（Turing™ リリース順）
Tesla T4 (Passive)	TU104	16GB GDDR6	64	40 8*(6-1)	2560 [64]*40[SM]	40	320	80?	585	256 32*8	320	254.4	8.141	65,126	65	8.1	130	260	70 [8?]	-	3,500?
・NVIDIA^® Tesla^® (Volta) GPU　https://www.nvidia.com/en-us/data-center/tesla/ TECHPOWERUP　https://www.techpowerup.com/gpu-specs/（Volta リリース順）
Tesla V100 PCIe 32GB (Passive)	GV100	32GB GDDR5	128 (ROPs>	80	5120 [64]*80[SM]	-	640	2560	1280 - 1380	4096	897.0	7,066	14,131	28.262	112	28	130	260	250 [8+8]	✔ 200 2.0 4 bricks	12,000～
Model	GPU Number	Memory	RTX-OPS ROPs (T)	SM Count	CUDA Core (=SM*64 =FP32 Core =INT32 Core)	RT Core (=SM)	Tensor Core (=SM*8)	FP64 Core (=SM*2)	GPU Clock (MHz)	Bus Width (bits)	Band Width (GB/s)	FP64 double (GFLOPS)	FP32 float (GFLOPS)	FP16 falf (GFLOPS)	FP32/16 Tensor (TFLOPS)	INT32 (TIPS)	INT8 (TIPS)	INT4 (TIPS)	TDP (W) [PIN]	NVLink SLI Bridge (GB/s)	Price (US$)
NVIDIA Turing Microarchitecture Whitepaper Turing™ Architecture GPU の Compute Capability は、7.0 以上となります。 RTX-OPS 計算式 = (TENSOR * 20%) + (FP32 * 80%) + (RTOPS * 40%) + (lNT32 * 28%) （ RTX2080 Ti の場合、RTX-OPs = 77.92 = (14 * 80%) + (14 * 28%) + (100 * 40%) + (114 * 20%) ） NVIDIA^® SLI NVLink™ に対応させるためには、NVLink 対応のGPU、SLI に対応したマザーボード（X299等+SLI対応BIOS）、アプリケーション、ドライバーのSLI設定等が必要となります。

NVIDIA Turing TU102 Full GPU with 72 SM Units

図1：　NVIDIA Turing™ TU102 Full GPU with 72 SM (Streaming Multiprocessor) Units

Turing™ TU102 GPU は、

GPCs （Graphics Processing Clusters）	6 基
Raster Engine	6 基
TPCs （Texture Processing Clusters）	36 基 (6 * 6[GPCs])
PolyMorph Engine	36 基 (6 * 6[GPCs])
SMs（Streaming Multiprocessors）	72 基 (12 * 6[GPCs])

で構成されています。

CUDA Core	4608 基　(164)[SM] (12 * 6[GPCs])
RT Core	72 基　1[SM] * (12 * 6[GPCs])
Tensor Core	576 基　(24)[SM] (12 * 6[GPCs])
Texture Units	288 基　4[SM] * （12 * 6[GPCs]）
32-bit GDDR6 Memory Controllers	12 基（32-bits * 12 = 384-bits total）

各メモリコントローラには、8基の【ROP Unit】と【512 KB L2 Cache】が接続されています。
フルTU102 GPU は、96基の【ROP Unit】と【6144 KB L2 Cache】で構成されています。
図1：を参照してください。

注： TU102 GPUには、144基（2 * 12 * 6 [GPCs]）の【FP64 Units】（SMごとに2基）も装備されていますが、この図には示されていません。
FP64（144 Units） TFLOP値は、FP32演算（16 * 12 * 6 = 1,152 Units）のTFLOP値の 1/32 となります。
（ (2 * 12 * 6) / (16 * 4 * 12 * 6) = 2 / (16 * 4) = 1 / 32 ）
FP64 Code を持つプログラムが正しく実行されるように、少数とはなりますが【FP64 Hardware Units】が搭載されています。

旧世代（Volta、Pascal、Kepler） Microarchitecure の Tesla^® GPU では、SMあたり、32（Tesla^® V100、Tesla^® P100 等）もの FP64 Core が搭載されていました（全部で 32/[SM] * 84[SM] = 2,688 FP64 Core）ので、最大約 7.8 TFLOPS という性能が出ていました。
しかしながら、Turing™ Microarchitecture の Tesla^®、Quadro^® RTX、GeForce^® RTX 2000 Series では、SMあたり FP64 Core は 2基だけとなっていますので、FP64 倍精度浮動小数点演算の性能は低く（最大 0.5 TFLOPS 程度）なっています。（全部で 2/[SM] * 72[SM] = 144 FP64 Core）
Turing™ 世代のGPUは、あまり倍精度浮動小数点向けの Processor とは言えず、AI、Deep Learning に特化したと考えられます。

図2：　Turing™ TU102/TU104/TU106 Streaming Multiprocessor(SM)
【Processing Block】 × 4基で構成されています。

TPC（Texture Processing Clusters）は、2基の SMs で構成されています。

各々の SM は、

FP32 Core	64 基（16 * 4）
INT32 Core	64 基（16 * 4）
Tensor Core	8 基（2 * 4）
FP64 Core	2 基

で構成されています。
（FP64 Unit は、図1 および図2 には表示されていません。）

Turing™ SM は、FP32 と INT32 を同時に実行することが可能です。

各々の Turing™ SM は、

Mixed-Precision Turing™ Tensor Core	8 基（2 * 4）
RT Core （Turing™ Ray Tracing 用）	1 基

を内蔵しています。

Turing™ SM は、4基の【Processing Blocks】で構成されています。
各々の【Processing Blocks】は以下ような仕様となっています。

FP32 Core	16 基
INT32 Core	16 基
Tensor Core	2 基
Warp Scheduler	1 基
Dispatch Unit (32 thread / clk)	1 基
Register File	16,384 基 (32 bit)

（4基の【Processing Blocks】に対して、2基の【FP64 Hardware Units】が用意されています。）

NVIDIA Turing Microarchitecture : New Shared Memory Architecture

図3：　NVIDIA Turing™ New Shared Memory Architecture

各【Processing Block】には、新しい【L0 Instruction Cache】と【64KB Register File】が搭載されています。
4基の【Processing Block】は、【96KB L1 Data Cache】 / 【Shared Memory】を共有します。

従来の Graphics Workloads では、
【96KB L1】 / 【Shared Memory】を専用の【64 KB Graphics Shader RAM】
として、また
【32KB】を【Texture Cache】および【Register File】のスピルエリアとして分割しています。

Compute workloads では、【96KB】を
【32KB shared memory】と【64KB L1 cache】
、または
【64KB shared memory】と【32KB L1 cache】
に分割できます。

Turing™ は、Core 実行データパスの大幅な改良を実装しています。
最近の Shader Workloads では、通常、FADD（Floating point ADD）や FMAD（Floating-point Multiply-ADd）などの FP算術演算命令と、データのアドレス指定およびフェッチのための整数加算、処理結果のための浮動小数点比較、最小 / 最大などの単純命令が混在しています。
これらの非FP演算命令のいずれかが実行されると、ポイント演算データパスはアイドル状態になります。
Turing™ は、これらの命令を浮動小数点演算と並列に実行するすべての CUDA Core の隣に2番目の並列実行 Unit を追加します。

整数パイプ命令と浮動小数点命令の組み合わせがさまざまであありますが、最近のいくつかのアプリケーションでは、100浮動小数点命令ごとに通常約36の整数パイプ命令が認められています。
これらの命令を別のパイプに移動すると、浮動小数点に有効な36％の追加スループットが可能になります。

Turing™ の SM は、【Shared Memory】、L1、そしてテクスチャキャッシングのための新しい統一アーキテクチャも導入しました。

・L1 2倍のバンド幅
・L1 レイテンシイの削減
・L1 2.7倍のサイズ
・L2 2倍のサイズ

この統一された設計により、 L1 Cache は Pascal と比較して TPC（Texture Processing Clusters）あたり2倍のヒット帯域幅を使用してリソースを活用でき、【Shared Memory】割り当てがすべての【Shared Memory】容量を使用していない場合は大きくなります。
Turing™ L1 のサイズは、64KB までとし、SM あたり 32KB の【Shared Memory】割り当てと組み合わせることも、 32KB に縮小して 64KB の割り当てを【Shared Memory】に使用することもできます。

Turing™ L2 の Cache容量も 3MB（Pascla）から 6MB（Turing™）倍増されました。

図3 ［Pascal TPC（Texture Processing Clusters）］と［Turing™ TPC］の新旧 Shared Memory Architecure の違いを示しています。

Turing™ SM の新しい【L1 Data Cache】と【Shared Memory】サブシステムの組み合わせがパフォーマンスを大幅に向上させると同時に、プログラミングを簡素化し、ピーク時またはほぼピーク時のアプリケーションパフォーマンスを達成するために必要なチューニングを削減する方法を示しています。

【L1 Data Cache】と【Shared Memory】を組み合わせることで、以前の Pascal GPU で使用されていた【L1 Cache】の実装よりも待ち時間を短縮し、より高い帯域幅を提供します。
全体として、SM の変更により、Turing™ は CUDA Core あたりの性能を50％向上させることができます。

NVIDIA Turing Microarchitecture : New Turing Tensor Cores Provide Multi-Precision for AI Inference

図4：　NVIDIA^® Turing™ Microarchitecture : Tensor Cores Provide Multi-Precision for AI Inference

Turing™ GPU には、Volta GV100 GPU で最初に導入された Tensor Cores の拡張バージョンが搭載されています。
Turing™ Tensor Core は、量子化を許容することができる Workload の推論のために、INT8 と INT4 という低い精度の仕様が追加されています。
より高い精度を必要とする Workload に対応するため、FP16 も完全にサポートされています。

Turing™ ベースの GeForceゲーミングGPU に Tensor Cores を導入することで、リアルタイムのディープラーニングをゲームアプリケーションに初めてもたらすことが可能になります。
Turing™ Tensor Cores は、グラフィック、レンダリング、およびその他の種類のクライアントサイドアプリケーションを強化する、NVIDIA^® NGX Neural Services の AIベースの機能を加速します。
NGX AI機能の例としては、ディープラーニングスーパーサンプリング（DLSS）、AI InPainting、AI Super Rez、および AI Slow-Mo があります。

Tensor Cores を使用すると、ニューラルネットワークのトレーニングと推論機能の中核となる、行列間の乗算（matrix-matrix multiplication）が加速されます。
Turing™ Tensor Cores は、推論計算に特に優れています。
推論計算では、与えられた入力に基づいて、訓練されたディープニューラルネットワーク（DNN）によって有用で関連性のある情報を推論して配信できます。
推論の例としては、Facebook の写真で友達の画像を識別、自動運転車の中でさまざまな種類の自動車、歩行者、および道路の危険を識別して分類、人のスピーチをリアルタイムで翻訳、オンライン小売およびソーシャルメディアシステムでパーソナライズされたユーザー推奨を作成するシステム等があります。

TU102 GPU には 576基（ (2[SM] * 4[Processing Block]) * 12 * 6[GPCs]）の Tensor Core が搭載されています。
SM ごとに 8基、SM 内の 4基ある【Processing Block】ごとに各々 2基搭載されています。
各々の Tensor Core は、FP16入力を使用して、1クロックあたり最大 64命令の浮動小数点融合積和（FMA：Fused Multiply-Add）演算を実行できます。
SM 内の 8基の Tensor Cores は、1クロックあたり合計512命令の FP16乗算および積和演算（Accumulate Operations）、または 1クロックあたり 1024命令の FP（浮動小数点）演算を実行します。
新しい INT8精度モードは、この2倍、つまりクロックあたり 2048命令の整数演算を実行します。

Turing™ Tensor Cores は行列演算を大幅にスピードアップし、新しいニューラルグラフィックス機能に加えて、ディープラーニングトレーニングと推論演算の両方に使用されます。
Tensor Core の基本的な運用上の詳細については、 NVIDIA Tesla V100 GPU Architecture Whitepaper を参照してください。
図4 は、AI推論に多精度を提供する新しい Turing™ Tensor Cores を示しています。

GPU ハードウェア要件 Turing Architecture GPUs	プロセッサ	ドライバー	CUDA Toolkit	DIGITS	cuDNN
Frameworks
Caffe	theano	torch	BIDMach	Keras	Another Frameworks

	Avast Software s.r.o. は、 Gen™ Digital Inc. に社名変更となりました
	Avast^® パートナー Avast^® Small Business Security Avast^® Business Antivirus for Linux^® Avast^® Business CloudCare™
	インテル^® ソフトウェア開発製品販売代理店 Intel^® Software Resellers
	Tax Exemption Designated Store 外国公使館向け消費税免税店舗

Avast^® パートナー
インテル^® ソフトウェア開発製品販売代理店
Intel^® Software Resellers

株式会社アークブレイン
〒151-0073
東京都渋谷区笹塚２丁目４７番１号
TEL 03-3375-8968
FAX 03-3375-8767 (09:00～18:00 土日祝日を除く)
お問い合わせ、御見積依頼はこちらからどうぞ

Intel®、インテル®、Intel® ロゴ、Atom™、Core™、Xeon®、Phi™、Pentinum®は、米国およびその他の国におけるIntel® Corporation の商標です。 NVIDIA®、NVIDIA®ロゴ、GeForce、Quadroは、米国NVIDIA® corporationの登録商標です。 AMD®, AMD® Arrowロゴ、ならびにその組み合わせは、Advanced Micro Devices, Inc.の商標です。 Microsoft®（その他商標・登録商標名）は、米国 Microsoft® Corporation の米国およびその他の国における登録商標または商標です。 Windows®の正式名称は、Microsoft® Windows® Operating Systemです。 Linux® は、Linus Torvalds 氏の米国およびその他の国における登録商標です。 RED HATとShadowman logoは米国およびそのほかの国において登録されたRed Hat, Inc. の商標です。 CentOSの名称およびそのロゴは、CentOS ltdの商標または登録商標です。 Ubuntu は Canonical Ltd. の登録商標です。 Linux Mint は Linux Mark Institute の商標です。 IMSL® は、米国およびその他の国における Rouge Wave Software, Inc. の商標です。 Avast™ は、Avast Software の商標です。 AVG® は AVG Technologies の登録商標です。 Python® はPSFの登録商標です。その他、記載されている会社名、製品名は、各社の登録商標または商標です。

▲TOP