Tweet
|
NVIDIA® Deep Learning (深層学習) 開発環境 構築情報 プロセッサ:Central Processing Unit |
GPU ハードウェア要件 Turing Architecture GPUs |
プロセッサ | ドライバー | CUDA Toolkit | DIGITS | cuDNN |
---|---|---|---|---|---|
Frameworks | |||||
Caffe | theano | torch | BIDMach | Keras |
Another Frameworks |
株式会社アークブレインでは、Deep Learning(深層学習)を研究するための カスタム・オーダーメイドの ワークステーション(GPU × 1~4)や、サーバー(GPU × 1~4)を販売しております。
Intel® Xeon® Scalable Processor 搭載 Arcbrain オリジナル サーバー、ワークステーション製品 最新ラインナップ GPUを使用せず、Intel® Xeon® / Core™ Processor、インテル® Parallel Studio、インテル® MKL(Math Kernel Library) の DNN(Deep Neural Network) プリミティブ、インテル® Distribution for Python® による Deep Learning(深層学習)の開発環境を構築することも可能です。 お気軽に弊社までお見積り依頼をお願いいたします。 ご希望の仕様に合った構成のカスタマイズに、ご対応させていただきます。 |
NVIDIA® Accelerated Computing Developer Program | |||
---|---|---|---|
NVIDIA® Deep Learning の開発環境(NVIDIA® CUDA、NVIDIA® DIGITS™、cuDNN等)を入手するためには、まず、Accelerated Computing Developer Program に登録する必要があります。 https://developer.nvidia.com/accelerated-computing-developer
|
CPU Central Processing Unit |
■ プロセッサのCore数、Thread数 プロセッサの能力は、勿論、高性能であることが理想的ですが、重たい計算の殆どは GPU で処理されるため、そこそこの性能があれば、問題ありません。 マルチGPUシステムの場合でも、1 GPU 当たり、1 Thread でも何とか動作してくれ、2 Thread あれば、問題ないと思われます。 開発環境を構築するときに、ソースをマルチコアを使って高速にコンパイルすることもありますので、できれば インテル@ Core™ i7 クラスのプロセッサがあれば、理想的だと思われます。決して、インテル@ Core™ i5 クラスのプロセッサでは全く使えないというわけではありませんが、Thread数が8から4に減少してしまいますので、コンパイル時間は、最大2倍の時間がかかってしまう恐れがあります。 インテル@ Core™ i7 プロセッサには、通常のデスクトップ用の 第6世代 Core™ i7-6600 番台(Skylake) と、ハイエンド・デスクトップ用の Core™ i7 6000 番台(Broadwell-E) があります。 デスクトップ・サーバー用に、Intel® Xeon® Processor E3 v5 Family (Skylake、E3-12xx v5) というプロセッサがありますが、デスクトップ用の第6世代 Core™ i7-6600 番台(Skylake)と比較した場合、メモリがECC UDIMM(Error Check and Correct Unbuffered Dual Inline Memory Module) に対応しており、メモリの信頼性が高いというのが、大きな特徴ですが、プロセッサとしての性能はほとんど変わりありません。 ■ プロセッサの「PCI Express レーンの最大数」 注意点としまして、通常のデスクトップ用のプロセッサは、「PCI Express レーンの最大数」が、16しかない点です。 GPUを2本から、最大4本搭載可能なマザーボードがありますが、4本搭載した場合は PCI Express x4 での動作となってしまいます。( x4 * 4 GPU = x16) 尚、PCI Express Gen.(Generation)3.0 は、1レーンあたり 1GB/sec.(一方向あたり) の転送帯域がありますので、x16 の場合は、16GB/sec. という転送帯域となります。 マザーボードに、PCI Express Gen.3.0 x16 のスロットが、2本以上あったとしても、2本のGPUを刺したり、GPU以外の PCI Express カードを取り付けた場合、x8 にレーン数が減ってしまいます。(PC起動時に、マザーボードが自動設定)。また、スロットによっては、形状は x16 ですが、x8 でしか動作しない場合があり、取付時には x16 にGPUが搭載されたかどうかを確認する必要があります。 x8 の動作となりますと、プロセッサとGPU間のデータ転送速度が半分に落ちてしまいます。 一方、ハイエンド・デスクトップ用の インテル® Core™ i7 プロセッサ は、最下位のクラスのものを除いて、インテル@ Xeon@ プロセッサと同様に、「PCI Express レーンの最大数」は40もあります。(Broadwell-E / EPの場合) また、メモリは Quad Channel (メモリは4枚単位で増設) に対応しており、デスクトップ用プロセッサの Dual Channel (メモリは2枚単位で増設) の倍のメモリ転送速度があります。 そのため、2本のGPU迄であれば、各GPUは x16 の速度で動作させることが可能です。 ここで注意していただきたいのですが、一番下位のクラスの Core™ i7- 6800K プロセッサ は、「PCI Express レーンの最大数」が28しかありませんので、2本目のGPUは、PCI Express x8 でしか動作できません。 NVIDIA DIGITS DEVBOX (Deep Learning 開発用のリファレンスPC)で採用されているような、ASUS X99-E WS というマザーボードには、4本の PCI Express 3.0 x16 スロットがありますが、もし、4本のGPUを搭載した場合は、x16 モードでは動作せず、x8 モードで動作することになります。(40 - (8 * 4) = 残り 8 Lane) ●ハイエンド・デスクトップ用の インテル@ Core™ i7 プロセッサの比較 http://ark.intel.com/ja/compare/94456,94196,94188,94189
http://ark.intel.com/ja/products/codename/80341/Broadwell-E
Intel® Xeon® Processor E5 v4 Family の場合は、一番最下位のクラスの「E5-1620 v4」や「E5-2603 v4」でも、「PCI Express レーンの最大数」は40あります。 http://ark.intel.com/ja/products/family/91287/Intel-Xeon-Processor-E5-v4-Family#@Server
DP(Dual Processor)対応のワークステーション、サーバーであれば、40×2=80Lane になりますので、4本のGPUを全て、PCI Express x16 モードで動作させることが可能となります。(80 - (16 * 4) = 16 Lane) また、Intel® Xeon® Processor E5 v4 Family は、ECCに対応した RDIMM(Registered DIMM) に対応しており、1プロセッサあたり、何と 1536GB ものメモリ(128GB 3DS LRDIMM: 128GB × 12枚) を搭載することが可能です。 2CPUであれば、最大3072GBものメモリを搭載することができます。 ■ プロセッサのキャッシュ容量 CPUとGPU間のデータ転送を考慮しますと、プロセッサのキャッシュ容量は、なるべく多い方が理想的です。 一言にキャッシュと言っても、キャッシュには、1次キャッシュ(32KB程度)、2次キャッシュ(256KB程度)、3次キャッシュ(8~55MB程度)がありますが、通常は容量の一番多い3次キャッシュのことを言います。 通常のデスクトップ用の 第6世代 Core™ i7-6600 番台(Skylake)のプロセッサのキャッシュは、僅か 8MB しかありません。 Intel® Xeon® Processor E3 v5 Family (Skylake、E3-12xx v5) も同様です。 ハイエンド・デスクトップ用の Core™ i7 6000 番台(Broadwell-E) の場合は、最下位の i7-6800K でも 15MB あります。(i7-6850K も同じ 15MB) 上位クラスの i7-6900K は 20MB、非常に高価ですが、最上位の i7-6950X は 20MB もあります。 インテル® Xeon® プロセッサ(Broadwell-EP) の場合、UP(Uni Processor)対応の Xeon® E5-1620 v4 / E5-1630 v4 は、僅か 10MB しかありません。 できれば、15MBある E5-1650 v4 や、20MB ある E5-1660 v4 以上を選択したいところです。 DP(Dual Processor)対応の Xeon® E5-26xx v4 プロセッサの場合は、一番最下位の E5-2603 v4 でも 15MB のキャッシュがあります。中には、E5-2623 v4 のように 10MB しかないものもかありますが、E5-2630 v4 以上のプロセッサは、キャッシュが 25MB (最大55MB)もあり、CPU~GPU間の速度は向上するものと考えられます。 ■ プロセッサの動作周波数 プロセッサの動作周波数のことが、一番最後になってしまいましたが、勿論速ければ速い方が理想的です。 しかしながら、深層学習の計算は、プロセッサに処理時間のかかる浮動小数点演算を大量に行わせる訳ではありませんので、あまり大きな問題ではありません。 それよりも、GPUとの間で高速にデータをやりとりすることが重要となりますので、Thread数とか、キャッシュ容量の方を優先してください。 ■ まとめ(プロセッサ) GPUの場合は、Compute Capability は 3.0 以上という条件がありますが、プロセッサの方は厳密な規定はありません。
https://developer.nvidia.com/deep-learning-getting-started 開発環境を構築するのに少々時間はかかってしまい、決して快適な環境とは言えませんが、極端な話、インテル® Core™ i3 プロセッサや、これ以下の仕様の Pentium®、Celeron® プロセッサでも、Deep Learning 開発マシンを構築することは可能です。 そのため、第6世代 Core™ i7-6600 番台(Skylake)や、Intel® Xeon® Processor E3 v5 Family (Skylake、E3-12xx v5)でも、GPUは一枚しか搭載しないという条件であれば、全く問題なく Deep Learning 用のPCとして使うことが可能です。 しかしながら、最初から GPU を 2枚は搭載したいという場合や、将来、2枚に増設するかもしれないという場合は、[PCI Express レーンの最大数]が40レーンある ハイエンド・デスクトップ用プロセッサ(Core™ i7-6800K、5820K を除く) や、 Intel® Xeon® Processor E5-2600 v4 Product Family を選択してください。 GPU を 3枚、4枚 搭載したいという場合は、 Intel® Xeon® Processor E5-2600 v4 Product Family を2基搭載した DP(Dual Processor)サーバーや、100万円を軽く超えてしまう かなり高価なサーバーとなりますが、 Intel® Xeon® Processor E5-4600 v4 Product Family を4基搭載した MP(Multi Processor )サーバーが必要となります。 ※ 参考ページ A Full Hardware Guide to Deep Learning (Tim Dettmers) ※ GPUを搭載していないけど、何とか CPUだけで Deep Learning を体験してみたいという方は、こちらを参考にしてみてください。 GPUなしのNVIDIA DIGITS3で始めるDeepLearning ソースからのコンパイルが必要ですが、DIGITS 4.0 も、GPU無しで動作するはずです。 代表的な Deep Learning の Frameworks である Caffe も、デフォルトでは、GPU無しで動作する設定になっています。 ※ インテル® Xeon® プロセッサや、Xeon® Phi™ x200 プロセッサ(Knights Landing)を使用した場合の Deep Learning 開発に関しての情報はこちらをご覧ください。 |
---|
Self-Paced Courses for Deep Learning |
https://developer.nvidia.com/deep-learning-courses
Introduction to Deep Learning Getting Started with DIGITS for Image Classification Getting Started with the Caffe Framework Getting Started with the Theano Framework Getting Started with the Torch Framework |
||
---|---|---|---|
株式会社アークブレインでは、Deep Learning(深層学習)を研究するための カスタム・オーダーメイドの ワークステーション(GPU × 1~4)や、サーバー(GPU × 1~4)を販売しております。
Intel® Xeon® Scalable Processor 搭載 Arcbrain オリジナル サーバー、ワークステーション製品 最新ラインナップ GPUを使用せず、Intel® Xeon® / Core™ Processor、インテル® Parallel Studio、インテル® MKL(Math Kernel Library) の DNN(Deep Neural Network) プリミティブ、インテル® Distribution for Python® による Deep Learning(深層学習)の開発環境を構築することも可能です。 お気軽に弊社までお見積り依頼をお願いいたします。 ご希望の仕様に合った構成のカスタマイズに、ご対応させていただきます。 |
GPU ハードウェア要件 Turing Architecture GPUs |
プロセッサ | ドライバー | CUDA Toolkit | DIGITS | cuDNN |
---|---|---|---|---|---|
Frameworks | |||||
Caffe | theano | torch | BIDMach | Keras |
Another Frameworks |
|
---|
|
||
Intel®、インテル®、Intel® ロゴ、Atom™、Core™、Xeon®、Phi™、Pentinum®は、米国およびその他の国におけるIntel® Corporation の商標です。 NVIDIA®、NVIDIA®ロゴ、GeForce、Quadroは、米国NVIDIA® corporationの登録商標です。 AMD®, AMD® Arrowロゴ、ならびにその組み合わせは、Advanced Micro Devices, Inc.の商標です。 Microsoft®(その他商標・登録商標名)は、米国 Microsoft® Corporation の米国およびその他の国における登録商標または商標です。 Windows®の正式名称は、Microsoft® Windows® Operating Systemです。 Linux® は、Linus Torvalds 氏の米国およびその他の国における登録商標です。 RED HATとShadowman logoは米国およびそのほかの国において登録されたRed Hat, Inc. の商標です。 CentOSの名称およびそのロゴは、CentOS ltdの商標または登録商標です。 Ubuntu は Canonical Ltd. の登録商標です。 Linux Mint は Linux Mark Institute の商標です。 IMSL® は、米国およびその他の国における Rouge Wave Software, Inc. の商標です。 Avast™ は、Avast Software の商標です。 AVG® は AVG Technologies の登録商標です。 Python® はPSFの登録商標です。 その他、記載されている会社名、製品名は、各社の登録商標または商標です。 | ||
|