Comments
Description
Transcript
NVIDIA GPU が加速するディープラーニング - G
NVIDIA GPU が加速するディープラーニング CHARLIE SUGIMOTO エンタープライズビジネス事業部長 エヌビディア合同会社 米国フラグシップ スーパーコンピュータ SUMMIT ピーク性能 150-300 ペタフロップス SIERRA ピーク性能 100 ペタフロップス以上 IBM POWER9 CPU + NVIDIA Volta GPU NVLink 超高速インターコネクト ノード当り 40 テラフロップス以上 3,400ノード以上 2017年稼動予定 エクサスケールへの大きなステップ 4 GPU コンピューティング GPU CPU 倍精度演算性能 GFLOPS 3500 Tesla K40 K80 3000 + 2500 2000 2880 コア 1.43 TFlops 1500 1000 500 K40 K20 M2090 M1060 Westmere Haswell Sandy Bridge Ivy Bridge 0 2008 2009 2010 NVIDIA GPU 2011 2012 x86 CPU 2013 2014 コンパニオン プロセッサ GPUをCPUに追加することで、 アプリケーションが高速化。 ハイパフォ-マンス・コンピューティングを 実現。 GPU が加速するディープラーニング 8 ディープラーニングが画像認識の変革 対象毎に異なるアルゴリズム 1つのDeep Neural Net がさまざま画像を認識 - 人認識: HOG etc - さまざま属性も認識 (車: パトカー、バン、セダン、トラック、 等…) - 道路標識: ハフ変換+文字認識 etc 簡単な認識のみ - 人がいるかどうか イエス・ノーのみ(他の情報なし) - 速度表示のみ - 人、車、交通標識、レーン DEEP NEURAL NETWORK 従来の手法 (…) 9 NVIDIA DRIVE PX ディープ ニューラル ネットワーク コンピュータービジョン 10 より良く見える、そして学習する自動車へ ! 分類された対象物! ソルバー ネットワーク データサイエンティスト エヌビディア GPU スーパーコンピューター TX1 トレーニングされた ディープ ニューラルネット モデル TX1 カメラ入力 NVIDIA DRIVE PX 12 DEMOラーニングシステム - 68,000のタグ付けされた画像 (自動車、人、交通標識など) - AlexNetをモディファイ (128x128 白黒イメージ) - 1台のGPU GTX TITAN X (3027コア) で16時間のラーニング 13 March 17-20, 2015 | Silicon Valley www.gputechconf.com #GTC15 14 GTC: DL/ML セッション 2014 2015 25 85 100 20 80 15 60 10 40 40 5 20 0 0 GPU が加速するディープラーニング START-UPS ディープラーニング 画像・音声・センサなどのビッグデータから認識・分析・予測 画像クラス分け・オブジェクト検出 自動運転 顔認識・セキュリティ メディカルイメージング・バイオ 音声認識・自然言語処理 ロボット・ドローン なぜ GPU がディープラーニングに向いているか 18 データサイエンティスト R&D サイクル Idea Test Code クリティカルパス: Ideaが沸いてから Testが完了するまで サイクルを速く回すことが重要 Train データサイエンティスト R&D サイクル Idea Test Code Train 時間がかかる GPUの利用 DL トレーニングシステム DL アプリケーション DL フレームワーク Caffe Theano Torch … Today Yesterday cuBLAS CUDA code cuBLASand and cuDNN GPUs コンボリューショナル ニューラルネットワーク LeNet5 [LeCun et al.,1998] フルコネクション cuBLAS コンボリューション cuDNN パフォーマンス 1日当りにトレーンングできる画像の数 (Caffe) Millions of Images 50 AlexNet [A. Krizhevsky et al.,2012] 43M 40 30 18M 20 10 GPUはCPUの 10数倍の性能 23M 2.5M 0 16 Core CPU E5-2698 v3 @ 2.3GHz / 3.6GHz Turbo GTX Titan Titan Black cuDNN v1 Titan X cuDNN v2 cuDNN コンボリューション cudnnConvolutionForward() cudnnConvolutionBackward[Bias|Filter|Data]() 活性化関数 cudnnActivationForward() cudnnActivationBackward() プーリング cudnnPoolingForward() cudnnPoolingBackward() ソフトマックス cudnnSoftmaxForward() cudnnSoftmaxBackward() … すべてのプロセスを GPU が高速化 LeNet5 [LeCun et al.,1998] cuBLAS なぜ GPU はディープラーニングに向いているか? 並列処理 行列演算 計算量 ニューラルネット GPU GPU の利用利点 より早い結果 より良い予測精度 より少ない設置スペース より少ない消費電力 なぜ GPU はディープラーニングに向いているか ディープラーニングは Linpack に近い 行列演算 トップ10:3システム トップ10:8システム USER INTERFACE Theano Process Data Configure DNN Monitor Progress Visualize Layers DIGITS ディープ・ラーニングを 簡単に始めるツール Torch Caffe cuDNN, cuBLAS DNNのデザイン CUDA ラーニングや結果の可視化 複数トレーニングの管理 GPU HW GPU Multi-GPU GPU Cluster Cloud DIGITS 1. データ入力: データをどうやってDLアプリが読めるようにするか Idea Test ode Code Train DIGITS 2. DNNの構築: ニューラルネットをどうやって記述するか Idea Test Code Train DIGITS 3. ラーニングのモニタリング・複数学習をマネージ 1学習・1GPU(現状) 複数学習を複数GPUへ振り分け Idea Test Code Train DIGITS 4. レイヤーの可視化 Idea Test Code Train データサイエンティスト R&D サイクル Idea Test Code Train GPUを利用することで ディープラーニングの サイクルを速く回すこと が可能 ディープラーニングを加速する GPU 34 GEFORCE GTX TITAN X 世界最高速の GPU 80億トランジスタ 3,072 CUDA コア 7 テラフロップス 単精度 0.2 テラフロップス倍精度 12GB メモリ ディープラーニングでの TITAN X 性能 AlexNetでのトレーニング 43 … ~ Days 7 6 5 4 3 2 1 0 16-core Xeon CPU TITAN TITAN Black cuDNN TITAN X cuDNN Tesla: エンタープライズ向けGPU ワークステーション サーバー NVIDIAがエンタープライズ向けに設計・製造 サーバー向け機能サポート サーバーベンダーからTeslaサーバー、サポートの提供 クラウドベンダーのサポート GPU ロードマップ 72 Volta 60 SGEMM / W 48 Pascal 36 24 Maxwell 12 Kepler Fermi Tesla 0 2008 2010 2012 2014 2016 2018 38 次世代GPU: Pascal ハイパフォーマンス >3 テラフロップス ミックスド プレシジョン 3D スタックドメモリ 4倍のバンド幅 (~1 TB/s) ラージメモリ (16 GB) NVLINK 80 GB/sec POWER CPU GPU-GPU インターコネクト NVIDIA ディープラーニング プラットフォーム アプリケーション NVIDIAの目標 DIGITS ディープラーニングにベストな プラットフォームを開発 すべての研究者や開発者に対し て魅力的なプラットフォーム DLフレームワーク (Caffe, Torch, Theano) GPU最適化ライブラリ (cuDNN, cuBLAS) CUDA GPU DIGITS DEVBOX 今すぐディープラーニングを始めるシステム TITAN X & DIGITS プリインストールモデル 日本ではG-DEPが販売 http://www.gdep.jp/ 東京工業大学 TSUBAME TSUBAMEはTesla K20を4224枚搭載したスーパーコンピュータ 先端研究基盤共用・プラットフォーム形成事業により、約20%の 計算リソースを産業界に開放 利用区分 カテゴリ 学術利用 無償 成果公開 産業利用 有償 合計 成果非公開 2014年度 2013年度 2012年度 2011年度 2010年度 2009年度 22 17 14 9 4 1 17 21 12 10 8 15 10 8 9 7 6 3 12 10 4 6 7 2 61 56 39 32 25 21 利用方法は学術国際情報センターの先端研究基盤共用・プラットフォーム形成事業の ホームページをご覧ください。 http://www.gsic.titech.ac.jp/ 情報・ダウンロード Developer Zone: https://developer.nvidia.com/deeplearning GTC: http://www.gputechconf.com/ cuDNN ダウンロード: https://developer.nvidia.com/cuDNN DIGITS ダウンロード: https://developer.nvidia.com/digits DIGITS ソースコード: https://www.github.com/nvidia/digits THANK YOU [email protected]