NVIDIA Deep Learning Processor：深層学習開発環境、構築、最適化情報

法人、ビジネス、教育機関、政府機関、NPO等向けウイルス対策セキュリティソフト：Avast Business Cybersecurity Solutions

NVIDIA^® Deep Learning （深層学習）開発環境構築情報
プロセッサ：Central Processing Unit

こちらは、「NVIDIA^® Deep Learning （深層学習）」を開発するPC（ワークステーション、サーバー）に必要な開発環境を構築する方法の概略や、構築に参考となる情報を集めたページとなります。
各々の情報のサイト・リンク情報、NVIDIA^® CUDA、CUDA GUP ドライバー、NVIDIA^® DIGITS、cuDNN、フレームワーク（Caffe、theano、torch、BIDMach）などをダウンロード、インストールする方法の概略情報があります。
既に Deep Learning の開発環境をお持ちの方も、また、これから導入を考えておられる方にも、何かのご参考になれば幸いです。
インテル^® Xeon^® プロセッサや、Xeon^® Phi™ x200 プロセッサ（Knights Landing）を使用した場合の Deep Learning 開発に関しての情報はこちらをご覧ください。
（2017/04/08 更新）

GPU ハードウェア要件 Turing Architecture GPUs	プロセッサ	ドライバー	CUDA Toolkit	DIGITS	cuDNN
Frameworks
Caffe	theano	torch	BIDMach	Keras	Another Frameworks

Arcbrain Deep Learning GWS Middle Tower Chassis

株式会社アークブレインでは、Deep Learning（深層学習）を研究するためのカスタム・オーダーメイドのワークステーション（GPU × 1～4）や、サーバー（GPU × 1～4）を販売しております。

Intel^® Xeon^® Scalable Processor 搭載
Arcbrain　オリジナル　サーバー、ワークステーション製品最新ラインナップ

GPUを使用せず、Intel^® Xeon^® / Core™ Processor、インテル^® Parallel Studio、インテル^® MKL（Math Kernel Library）の DNN（Deep Neural Network）プリミティブ、インテル^® Distribution for Python^® による Deep Learning（深層学習）の開発環境を構築することも可能です。

お気軽に弊社までお見積り依頼をお願いいたします。
ご希望の仕様に合った構成のカスタマイズに、ご対応させていただきます。

NVIDIA^® Accelerated Computing Developer Program
	NVIDIA^® Deep Learning の開発環境（NVIDIA^® CUDA、NVIDIA^® DIGITS™、cuDNN等）を入手するためには、まず、Accelerated Computing Developer Program に登録する必要があります。 https://developer.nvidia.com/accelerated-computing-developer

CPU Central Processing Unit	■ プロセッサのCore数、Thread数プロセッサの能力は、勿論、高性能であることが理想的ですが、重たい計算の殆どは GPU で処理されるため、そこそこの性能があれば、問題ありません。マルチGPUシステムの場合でも、1 GPU 当たり、1 Thread でも何とか動作してくれ、2 Thread あれば、問題ないと思われます。開発環境を構築するときに、ソースをマルチコアを使って高速にコンパイルすることもありますので、できればインテル@ Core™ i7 クラスのプロセッサがあれば、理想的だと思われます。決して、インテル@ Core™ i5 クラスのプロセッサでは全く使えないというわけではありませんが、Thread数が8から4に減少してしまいますので、コンパイル時間は、最大２倍の時間がかかってしまう恐れがあります。インテル@ Core™ i7 プロセッサには、通常のデスクトップ用の第６世代 Core™ i7-6600 番台（Skylake）と、ハイエンド・デスクトップ用の Core™ i7 6000 番台（Broadwell-E）があります。デスクトップ・サーバー用に、Intel^® Xeon^® Processor E3 v5 Family (Skylake、E3-12xx v5) というプロセッサがありますが、デスクトップ用の第６世代 Core™ i7-6600 番台（Skylake）と比較した場合、メモリがECC UDIMM（Error Check and Correct Unbuffered Dual Inline Memory Module）に対応しており、メモリの信頼性が高いというのが、大きな特徴ですが、プロセッサとしての性能はほとんど変わりありません。 ■ プロセッサの「PCI Express レーンの最大数」注意点としまして、通常のデスクトップ用のプロセッサは、「PCI Express レーンの最大数」が、16しかない点です。 GPUを２本から、最大４本搭載可能なマザーボードがありますが、４本搭載した場合は PCI Express x4 での動作となってしまいます。（ x4 * 4 GPU = x16）尚、PCI Express Gen.(Generation)3.0 は、1レーンあたり 1GB/sec.（一方向あたり）の転送帯域がありますので、x16 の場合は、16GB/sec. という転送帯域となります。マザーボードに、PCI Express Gen.3.0 x16 のスロットが、2本以上あったとしても、２本のGPUを刺したり、GPU以外の PCI Express カードを取り付けた場合、x8 にレーン数が減ってしまいます。（PC起動時に、マザーボードが自動設定）。また、スロットによっては、形状は x16 ですが、x8 でしか動作しない場合があり、取付時には x16 にGPUが搭載されたかどうかを確認する必要があります。 x8 の動作となりますと、プロセッサとGPU間のデータ転送速度が半分に落ちてしまいます。一方、ハイエンド・デスクトップ用のインテル^® Core™ i7 プロセッサは、最下位のクラスのものを除いて、インテル@ Xeon@ プロセッサと同様に、「PCI Express レーンの最大数」は40もあります。（Broadwell-E　/　EPの場合）また、メモリは Quad Channel (メモリは４枚単位で増設) に対応しており、デスクトップ用プロセッサの Dual Channel (メモリは２枚単位で増設) の倍のメモリ転送速度があります。そのため、2本のGPU迄であれば、各GPUは x16 の速度で動作させることが可能です。ここで注意していただきたいのですが、一番下位のクラスの Core™ i7- 6800K プロセッサは、「PCI Express レーンの最大数」が28しかありませんので、２本目のGPUは、PCI Express x8 でしか動作できません。 NVIDIA DIGITS DEVBOX （Deep Learning 開発用のリファレンスPC）で採用されているような、ASUS X99-E WS というマザーボードには、４本の PCI Express 3.0 x16 スロットがありますが、もし、４本のGPUを搭載した場合は、x16 モードでは動作せず、x8 モードで動作することになります。（40 - (8 * 4) = 残り 8 Lane） ●ハイエンド・デスクトップ用のインテル@ Core™ i7 プロセッサの比較 http://ark.intel.com/ja/compare/94456,94196,94188,94189 http://ark.intel.com/ja/products/codename/80341/Broadwell-E Intel^® Xeon^® Processor E5 v4 Family の場合は、一番最下位のクラスの「E5-1620 v4」や「E5-2603 v4」でも、「PCI Express レーンの最大数」は40あります。 http://ark.intel.com/ja/products/family/91287/Intel-Xeon-Processor-E5-v4-Family#@Server DP（Dual Processor）対応のワークステーション、サーバーであれば、40×2=80Lane になりますので、４本のGPUを全て、PCI Express x16 モードで動作させることが可能となります。（80 - (16 * 4) = 16 Lane）また、Intel^® Xeon^® Processor E5 v4 Family は、ECCに対応した RDIMM(Registered DIMM) に対応しており、１プロセッサあたり、何と 1536GB ものメモリ（128GB 3DS LRDIMM: 128GB × １２枚）を搭載することが可能です。 2CPUであれば、最大3072GBものメモリを搭載することができます。 ■ プロセッサのキャッシュ容量 CPUとGPU間のデータ転送を考慮しますと、プロセッサのキャッシュ容量は、なるべく多い方が理想的です。一言にキャッシュと言っても、キャッシュには、１次キャッシュ（32KB程度）、２次キャッシュ（256KB程度）、３次キャッシュ（8～55MB程度）がありますが、通常は容量の一番多い３次キャッシュのことを言います。通常のデスクトップ用の第６世代 Core™ i7-6600 番台（Skylake）のプロセッサのキャッシュは、僅か 8MB しかありません。 Intel^® Xeon^® Processor E3 v5 Family (Skylake、E3-12xx v5) も同様です。ハイエンド・デスクトップ用の Core™ i7 6000 番台（Broadwell-E）の場合は、最下位の i7-6800K でも 15MB あります。（i7-6850K も同じ 15MB）上位クラスの i7-6900K は 20MB、非常に高価ですが、最上位の i7-6950X は 20MB もあります。インテル^® Xeon^® プロセッサ（Broadwell-EP）の場合、UP(Uni Processor)対応の Xeon^® E5-1620 v4 / E5-1630 v4 は、僅か 10MB しかありません。できれば、15MBある E5-1650 v4 や、20MB ある E5-1660 v4 以上を選択したいところです。 DP(Dual Processor)対応の Xeon^® E5-26xx v4 プロセッサの場合は、一番最下位の E5-2603 v4 でも 15MB のキャッシュがあります。中には、E5-2623 v4 のように 10MB しかないものもかありますが、E5-2630 v4 以上のプロセッサは、キャッシュが 25MB （最大55MB）もあり、CPU～GPU間の速度は向上するものと考えられます。 ■ プロセッサの動作周波数プロセッサの動作周波数のことが、一番最後になってしまいましたが、勿論速ければ速い方が理想的です。しかしながら、深層学習の計算は、プロセッサに処理時間のかかる浮動小数点演算を大量に行わせる訳ではありませんので、あまり大きな問題ではありません。それよりも、GPUとの間で高速にデータをやりとりすることが重要となりますので、Thread数とか、キャッシュ容量の方を優先してください。 ■ まとめ（プロセッサ） GPUの場合は、Compute Capability は 3.0 以上という条件がありますが、プロセッサの方は厳密な規定はありません。 https://developer.nvidia.com/deep-learning-getting-started 開発環境を構築するのに少々時間はかかってしまい、決して快適な環境とは言えませんが、極端な話、インテル^® Core™ i3 プロセッサや、これ以下の仕様の Pentium^®、Celeron^® プロセッサでも、Deep Learning 開発マシンを構築することは可能です。そのため、第６世代 Core™ i7-6600 番台（Skylake）や、Intel^® Xeon^® Processor E3 v5 Family (Skylake、E3-12xx v5)でも、GPUは一枚しか搭載しないという条件であれば、全く問題なく Deep Learning 用のPCとして使うことが可能です。しかしながら、最初から GPU を 2枚は搭載したいという場合や、将来、２枚に増設するかもしれないという場合は、［PCI Express レーンの最大数］が40レーンあるハイエンド・デスクトップ用プロセッサ（Core™ i7-6800K、5820K を除く）や、 Intel® Xeon® Processor E5-2600 v4 Product Family を選択してください。 GPU を 3枚、4枚搭載したいという場合は、 Intel® Xeon® Processor E5-2600 v4 Product Family を２基搭載した DP（Dual Processor）サーバーや、100万円を軽く超えてしまうかなり高価なサーバーとなりますが、 Intel® Xeon® Processor E5-4600 v4 Product Family を４基搭載した MP（Multi Processor ）サーバーが必要となります。 ※ 参考ページ A Full Hardware Guide to Deep Learning (Tim Dettmers) ※ GPUを搭載していないけど、何とか CPUだけで Deep Learning を体験してみたいという方は、こちらを参考にしてみてください。 GPUなしのNVIDIA DIGITS3で始めるDeepLearning ソースからのコンパイルが必要ですが、DIGITS 4.0 も、GPU無しで動作するはずです。代表的な Deep Learning の Frameworks である Caffe も、デフォルトでは、GPU無しで動作する設定になっています。 ※ インテル^® Xeon^® プロセッサや、Xeon^® Phi™ x200 プロセッサ（Knights Landing）を使用した場合の Deep Learning 開発に関しての情報はこちらをご覧ください。先頭へ戻る


Self-Paced Courses for Deep Learning	https://developer.nvidia.com/deep-learning-courses Introduction to Deep Learning Getting Started with DIGITS for Image Classification Getting Started with the Caffe Framework Getting Started with the Theano Framework Getting Started with the Torch Framework 先頭へ戻る

GPU ハードウェア要件 Turing Architecture GPUs	プロセッサ	ドライバー	CUDA Toolkit	DIGITS	cuDNN
Frameworks
Caffe	theano	torch	BIDMach	Keras	Another Frameworks

	Avast Software s.r.o. は、 Gen™ Digital Inc. に社名変更となりました
	Avast^® パートナー Avast^® Small Business Security Avast^® Business Antivirus for Linux^® Avast^® Business CloudCare™
	インテル^® ソフトウェア開発製品販売代理店 Intel^® Software Resellers
	Tax Exemption Designated Store 外国公使館向け消費税免税店舗

Avast^® パートナー
インテル^® ソフトウェア開発製品販売代理店
Intel^® Software Resellers

株式会社アークブレイン
〒151-0073
東京都渋谷区笹塚２丁目４７番１号
TEL 03-3375-8968
FAX 03-3375-8767 (09:00～18:00 土日祝日を除く)
お問い合わせ、御見積依頼はこちらからどうぞ

Intel®、インテル®、Intel® ロゴ、Atom™、Core™、Xeon®、Phi™、Pentinum®は、米国およびその他の国におけるIntel® Corporation の商標です。 NVIDIA®、NVIDIA®ロゴ、GeForce、Quadroは、米国NVIDIA® corporationの登録商標です。 AMD®, AMD® Arrowロゴ、ならびにその組み合わせは、Advanced Micro Devices, Inc.の商標です。 Microsoft®（その他商標・登録商標名）は、米国 Microsoft® Corporation の米国およびその他の国における登録商標または商標です。 Windows®の正式名称は、Microsoft® Windows® Operating Systemです。 Linux® は、Linus Torvalds 氏の米国およびその他の国における登録商標です。 RED HATとShadowman logoは米国およびそのほかの国において登録されたRed Hat, Inc. の商標です。 CentOSの名称およびそのロゴは、CentOS ltdの商標または登録商標です。 Ubuntu は Canonical Ltd. の登録商標です。 Linux Mint は Linux Mark Institute の商標です。 IMSL® は、米国およびその他の国における Rouge Wave Software, Inc. の商標です。 Avast™ は、Avast Software の商標です。 AVG® は AVG Technologies の登録商標です。 Python® はPSFの登録商標です。その他、記載されている会社名、製品名は、各社の登録商標または商標です。

▲TOP