...

NVIDIA GPU が加速するディープラーニング - G

by user

on
Category: Documents
16

views

Report

Comments

Transcript

NVIDIA GPU が加速するディープラーニング - G
NVIDIA GPU が加速するディープラーニング
CHARLIE SUGIMOTO
エンタープライズビジネス事業部長
エヌビディア合同会社
米国フラグシップ スーパーコンピュータ
SUMMIT
ピーク性能
150-300 ペタフロップス
SIERRA
ピーク性能
100 ペタフロップス以上
IBM POWER9 CPU + NVIDIA Volta GPU
NVLink 超高速インターコネクト
ノード当り 40 テラフロップス以上
3,400ノード以上
2017年稼動予定
エクサスケールへの大きなステップ
4
GPU コンピューティング
GPU
CPU
倍精度演算性能
GFLOPS
3500
Tesla K40
K80
3000
+
2500
2000
2880 コア
1.43 TFlops
1500
1000
500
K40
K20
M2090
M1060
Westmere
Haswell
Sandy Bridge
Ivy Bridge
0
2008
2009
2010
NVIDIA GPU
2011
2012
x86 CPU
2013
2014
コンパニオン プロセッサ
GPUをCPUに追加することで、
アプリケーションが高速化。
ハイパフォ-マンス・コンピューティングを
実現。
GPU が加速するディープラーニング
8
ディープラーニングが画像認識の変革
対象毎に異なるアルゴリズム
1つのDeep Neural Net がさまざま画像を認識
- 人認識: HOG etc
- さまざま属性も認識 (車: パトカー、バン、セダン、トラック、 等…)
- 道路標識: ハフ変換+文字認識 etc
簡単な認識のみ
- 人がいるかどうか イエス・ノーのみ(他の情報なし)
- 速度表示のみ
- 人、車、交通標識、レーン
DEEP NEURAL NETWORK
従来の手法
(…)
9
NVIDIA DRIVE PX ディープ ニューラル ネットワーク コンピュータービジョン
10
より良く見える、そして学習する自動車へ
!
分類された対象物!
ソルバー
ネットワーク
データサイエンティスト
エヌビディア GPU スーパーコンピューター
TX1
トレーニングされた
ディープ
ニューラルネット
モデル
TX1
カメラ入力
NVIDIA DRIVE PX
12
DEMOラーニングシステム
- 68,000のタグ付けされた画像 (自動車、人、交通標識など)
- AlexNetをモディファイ (128x128 白黒イメージ)
- 1台のGPU GTX TITAN X (3027コア) で16時間のラーニング
13
March 17-20, 2015 | Silicon Valley
www.gputechconf.com #GTC15
14
GTC: DL/ML セッション
2014
2015
25
85
100
20
80
15
60
10
40
40
5
20
0
0
GPU が加速するディープラーニング
START-UPS
ディープラーニング
画像・音声・センサなどのビッグデータから認識・分析・予測
画像クラス分け・オブジェクト検出
自動運転
顔認識・セキュリティ
メディカルイメージング・バイオ
音声認識・自然言語処理
ロボット・ドローン
なぜ GPU がディープラーニングに向いているか
18
データサイエンティスト R&D サイクル
Idea
Test
Code
クリティカルパス:
Ideaが沸いてから
Testが完了するまで
サイクルを速く回すことが重要
Train
データサイエンティスト R&D サイクル
Idea
Test
Code
Train
時間がかかる
GPUの利用
DL トレーニングシステム
DL アプリケーション
DL フレームワーク
Caffe
Theano
Torch
…
Today
Yesterday
cuBLAS
CUDA
code
cuBLASand
and
cuDNN
GPUs
コンボリューショナル ニューラルネットワーク
LeNet5 [LeCun et al.,1998]
フルコネクション
cuBLAS
コンボリューション cuDNN
パフォーマンス
1日当りにトレーンングできる画像の数 (Caffe)
Millions of Images
50
AlexNet [A. Krizhevsky et al.,2012]
43M
40
30
18M
20
10
GPUはCPUの
10数倍の性能
23M
2.5M
0
16 Core CPU
E5-2698 v3 @ 2.3GHz / 3.6GHz Turbo
GTX Titan
Titan Black
cuDNN v1
Titan X
cuDNN v2
cuDNN
コンボリューション
cudnnConvolutionForward()
cudnnConvolutionBackward[Bias|Filter|Data]()
活性化関数
cudnnActivationForward()
cudnnActivationBackward()
プーリング
cudnnPoolingForward()
cudnnPoolingBackward()
ソフトマックス
cudnnSoftmaxForward()
cudnnSoftmaxBackward()
…
すべてのプロセスを GPU が高速化
LeNet5 [LeCun et al.,1998]
cuBLAS
なぜ GPU はディープラーニングに向いているか?
並列処理
行列演算
計算量
ニューラルネット
GPU






GPU の利用利点
より早い結果
より良い予測精度
より少ない設置スペース
より少ない消費電力
なぜ GPU はディープラーニングに向いているか
ディープラーニングは Linpack に近い
行列演算
トップ10:3システム
トップ10:8システム
USER
INTERFACE
Theano
Process
Data
Configure
DNN
Monitor
Progress
Visualize
Layers
DIGITS
ディープ・ラーニングを
簡単に始めるツール
Torch
Caffe
cuDNN, cuBLAS
 DNNのデザイン
CUDA
 ラーニングや結果の可視化
 複数トレーニングの管理
GPU HW
GPU
Multi-GPU
GPU
Cluster
Cloud
DIGITS
1. データ入力: データをどうやってDLアプリが読めるようにするか
Idea
Test
ode
Code
Train
DIGITS
2. DNNの構築: ニューラルネットをどうやって記述するか
Idea
Test
Code
Train
DIGITS
3. ラーニングのモニタリング・複数学習をマネージ
1学習・1GPU(現状)
複数学習を複数GPUへ振り分け
Idea
Test
Code
Train
DIGITS
4. レイヤーの可視化
Idea
Test
Code
Train
データサイエンティスト R&D サイクル
Idea
Test
Code
Train
GPUを利用することで
ディープラーニングの
サイクルを速く回すこと
が可能
ディープラーニングを加速する GPU
34
GEFORCE GTX TITAN X
世界最高速の GPU
80億トランジスタ
3,072 CUDA コア
7 テラフロップス 単精度
0.2 テラフロップス倍精度
12GB メモリ
ディープラーニングでの TITAN X 性能
AlexNetでのトレーニング
43
…
~
Days
7
6
5
4
3
2
1
0
16-core
Xeon CPU
TITAN
TITAN Black
cuDNN
TITAN X
cuDNN
Tesla: エンタープライズ向けGPU
ワークステーション




サーバー
NVIDIAがエンタープライズ向けに設計・製造
サーバー向け機能サポート
サーバーベンダーからTeslaサーバー、サポートの提供
クラウドベンダーのサポート
GPU ロードマップ
72
Volta
60
SGEMM / W
48
Pascal
36
24
Maxwell
12
Kepler
Fermi
Tesla
0
2008
2010
2012
2014
2016
2018
38
次世代GPU: Pascal
ハイパフォーマンス
>3 テラフロップス
ミックスド プレシジョン
3D スタックドメモリ
4倍のバンド幅 (~1 TB/s)
ラージメモリ (16 GB)
NVLINK
80 GB/sec
POWER CPU
GPU-GPU インターコネクト
NVIDIA ディープラーニング プラットフォーム
アプリケーション
NVIDIAの目標
DIGITS
ディープラーニングにベストな
プラットフォームを開発
すべての研究者や開発者に対し
て魅力的なプラットフォーム
DLフレームワーク (Caffe, Torch, Theano)
GPU最適化ライブラリ (cuDNN, cuBLAS)
CUDA
GPU
DIGITS DEVBOX
今すぐディープラーニングを始めるシステム
TITAN X & DIGITS プリインストールモデル
日本ではG-DEPが販売
http://www.gdep.jp/
東京工業大学 TSUBAME
 TSUBAMEはTesla K20を4224枚搭載したスーパーコンピュータ
 先端研究基盤共用・プラットフォーム形成事業により、約20%の
計算リソースを産業界に開放
利用区分
カテゴリ
学術利用
無償
成果公開
産業利用
有償
合計
成果非公開
2014年度
2013年度
2012年度
2011年度
2010年度
2009年度
22
17
14
9
4
1
17
21
12
10
8
15
10
8
9
7
6
3
12
10
4
6
7
2
61
56
39
32
25
21
 利用方法は学術国際情報センターの先端研究基盤共用・プラットフォーム形成事業の
ホームページをご覧ください。
http://www.gsic.titech.ac.jp/
情報・ダウンロード
Developer Zone: https://developer.nvidia.com/deeplearning
GTC: http://www.gputechconf.com/
cuDNN ダウンロード: https://developer.nvidia.com/cuDNN
DIGITS ダウンロード: https://developer.nvidia.com/digits
DIGITS ソースコード: https://www.github.com/nvidia/digits
THANK YOU
[email protected]
Fly UP