GPU 統合型 CPU を用いた科学技術計算の高速化

by user

on 28 марта 2017

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download GPU 統合型 CPU を用いた科学技術計算の高速化

Transcript

GPU 統合型 CPU を用いた科学技術計算の高速化

408
GPU 統合型 CPU を用いた科学技術計算の高速化
Acceleration of Scientific Computing by using GPU-integrated CPU
○正
非
高橋徹（名古屋大学）非
延山龍介（名古屋大学）正
大澤尚希（名古屋大学）学
飯盛浩司（名古屋大学）正
浅野朗（名古屋大学）
松本敏郎（名古屋大学）
Toru TAKAHASHI, Naoki OSAWA, Hogara ASANO, Ryusuke NOBUYAMA, Hiroshi ISAKARI, Toshiro
MATSUMOTO, Nagoya University, Furo-cho, Chikusa-ku, Nagoya, Aichi
Key word : GPGPU, GPU-integrated CPU, Intel HD Graphics, FDTD, BEM, FEM
2)
研究背景と目的
旧来はグラフィックス処理に特化した演算装置であった
GPU（Graphical Processing Unit）は，その高い並列演算処
理能力が注目されて，汎用的な並列演算処理に応用すること
が近年盛んに行われている．この種の研究開発を GPGPU
（General Purpose computing on GPU）と言う．GPGPU は
2000 年頃の試行錯誤的な段階を経て，Nvidia 社が販売した
ハードウェア（GeForce 8 シリーズ）と開発環境（CUDA）の
販売を契機として産学官に急速に普及した．今日では多種
多様なアプリケーションが GPU によって加速されている．
GPU の主流な形態は外部装置として PC に装着するもの
である（以下，
「外付け GPU」と呼ぶ）．一方，GPU の別の
形態として，CPU と同じダイ上に備え付けられた GPU（以
下，
「内蔵型 GPU」と呼ぶ）が 2010 年頃に登場した．代表
的な製品は，AMD 社の Accelerated Processing Unit（APU）
と Intel 社の Intel HD Graphics である．これら内蔵型 GPU
は，CPU とメモリを物理的に共有しているため，外付け
GPU ではパフォーマンス上のネックとなり得るデータ転
送が不要（論理的には必要）である点が特徴である．半
面，外付け GPU と比較すると，内蔵 GPU が搭載している
演算コア数は少ないために演算性能が小さい．また，GPU
が単独で利用可能なメモリ容量が小さい．図 1 は，Intel 社
の GPU 統合型 CPU である Core i7 シリーズについて，その
CPU 部と GPU 部（Intel HD Graphics）の演算性能（単精度
浮動小数点演算に関する FLOPS 値）の推移を示す 1) ．現
状，Intel HD Graphcs の演算性能は，外付け GPU である
Nvidia 社の GeForce あるいは Tesla シリーズの 10 分の 1 程度
であるものの，CPU 部とほぼ同等の性能を有する GPU 部
をモニタ出力以外にも有効に活用できれば有意義である．
ところが，内蔵型 GPU を用いて GPGPU を実践するにあ
たって，プログラミングのノウハウが十分蓄積していると
は言い難い．このような状況の中で，著者らは試行錯誤の
結果，OS を Windows7 とする Core i5 を搭載した PC を用い
て，OpenMP と OpenCL を併用することにより，Core i5 の
CPU 部と GPU 部を併用（オーバラップ）できることを確
認した．リスト 1 はその骨組みとなる擬似コードである．
List 1 Parallelisation using OpenMP and OpenCL.
および有限要素法（FEM）3) の簡単な場合に対して適用
し，その有用性を議論している。本研究の目的は，当該の
併用並列計算手法を 3 次元時間領域差分法（FDTD 法）に
適用することである．
104
K80
GTX TITAN Black
GTX TITAN
GTX680
M2090
103
GFLOPS
1
GTX280
C1060
GTX480
GTX285
8800GTX
8800GTX
Ultra
101
2006
L3406
W5590
Core i7
960
2007
Core2 Duo
E8600
2008
E7-4890 v2
E5-2678W
8800GTS
Core2 Duo
E6700K
HD Graphics
4000
9800GTX
102
HD Graphics
5200
GTX580
E5-2699 v3
Iris Pro Graphics
6200
2009
Core i7
4770K
E7-2870
Core i7 Core i7
2700K 3770K
HD Graphics
3000
HD Graphics
2010
2011
2012
2013
E5-2697 v2
Core i7
6700K
Intel CPU
Intel Xeon
Nvidia Geforce
Nvidia Tesla
Intel GPU
2014
2015
2016
Year
Fig. 1 Transition of FLOPS for single precision.
FDTD 法の概略と並列化
2
2.1
概略
本研究で扱う FDTD 法は標準的な定式化に従う 4) ．
すなわち，Maxwell 方程式を Yee グリッド（総セル数は
Nx × Ny × Nz ）による空間分割と Leap flog 法による時間積
分を用いて離散化する．開領域における電磁場散乱問題を
解析対象とし，Mur の吸収境界条件を用いる．
FDTD 法における主要な計算タスクは，初期化に続き，
(i) 内部セルの電磁場の更新（以下，「内部更新」），(ii) 境
界セルのそれ（「境界更新」），(iii) 電場・磁場ベクトルの出
力（「スナップショット」）が挙げられる．ここで，(iii) は
所定の時間ステップ数毎に行う．
リスト 2 は，電場の内部更新をするための OpenMP 並列
CPU コードである．ここで，Ex，Ey，Ez は電場を，Hx，
Hy，Hz は磁場を格納する float 型配列である．また，float
型配列 C，Cx，Cy，Cz は諸パラメータ（誘電率，透磁率，
電気伝導率，グリッドサイズ ∆x，∆y ，∆z ，および，時間
ステップ長さ ∆t）から事前に計算する．
List 2 Parallel CPU code to update the electric field.
#pragma omp parallel for
#pragma omp parallel {
for (int k = 1; k < Nz − 1; k ++) {
id = omp get thread num() // CPU スレッド番号の取得
for (int j = 1; j < Ny − 1; j ++) {
if (id == 0) {
for (int i = 0; i < Nx; i ++) {
CPU0 が OpenCL により任意の GPU コードを実行
int n = i + Nx ∗ (j + Ny ∗ k);
} else {
Ex[n] = C[n] ∗ Ex[n] + Cy[n] ∗ (Hz[n] − Hz[n − Nx]) −
CPU0 以外が任意の CPU コードを実行
Cz[n] ∗ (Hy[n] − Hy[n − Nx ∗ Ny]);
}}
}}}
日本機械学会東海支部第 65 期総会・講演会講演論文集(’16. 3. 17－18) No.163－1
// Similarly, Ey[n] and Ez[n] are updated here.
著者らは上記の併用並列計算手法を，境界要素法（BEM）
併用並列化
タスク (iii) のスナップショットは，書き出すべき時間ス
テップの電磁場を格納した配列 Ex，Ey，Ez，Hx，Hy，Hz
がメモリまたは HDD 上に書き出される以前に次の時間ス
テップの値によって更新されてはならないため，(iii) を (i)
あるいは (ii) とオーバーラップさせることは難しい．
一方，タスク (i) と (ii) のそれぞれはセル単位で並列性があ
る．そこで，素朴に，境界更新は CPU 部，内部更新は GPU
部により行う．各 CPU コアの役割は，使用可能な CPU コア
数が３以上あることを前提（実際，4 コア搭載の PC を使用）
として，CPU0 が GPU コードの実行，CPU1 が電場の境界更
新，CPU2 が磁場の境界更新，その他は未使用，と定める．
以上のような役割分担は，各タスクの必要算術演算回
数，必要メモリアクセス回数，各プロセッサの演算性能等
を勘案していないので，必ずしも最良とは言えないが，初
期検討としては有意義であろう．
リスト 3 は，電場の内部更新を行うための GPU カーネル
（OpenCL プログラム）である．二つの float 型配列 C と D は
事前に計算する．なお，CPU コードとは異なり，四つの配
列 C，Cx，Cy，Cz をカーネルに渡す場合よりも性能が良
い．また，各 GPU コアが一度に 64 byte のデータを読み込
めるようにワークアイテムを構成している．
List 3 OpenCL kernel to update the electric field.
int i = get global id(0); // 3次元のワークアイテムを使用
int j = get global id(1);
int k = get global id(2);
int n = i + Nx ∗ (j + Ny ∗ k);
float D = D[n]; // D[n]:=1/(2∗Eps[n]−dt∗Sig[n]); Eps は誘電率
float C = C[n]; // C[n]:=2∗Eps[n]−dt∗Sig[n]; Sig は電気伝導率
float Cx = D ∗ ax; // ax:=2∗dt/dx; dt は時間ステップ長
float Cy = D ∗ ay; // ay:=2∗dt/dy; dx, dy, dz はグリッドサイズ
float Cz = D ∗ az; // az:=2∗dt/dz
Ex[n] = C ∗ Ex[n] + Cy ∗ Hz[n] − Cy ∗ Hz[n − Nx] − Cz ∗ Hy[
n] − Cz ∗ Hy[n − Nxy];
// Similarly, Ey[n] and Ez[n] are updated here.
1. セル数 N が大きい場合，’HYBRID’ は’GPU’ と同等で
ある．この理由は，境界更新の計算量が O(N 2 ) である
のに対して，内部更新は O(N 3 ) であるため，N が大き
くなると境界更新が全体の計算時間に寄与しなくなる
ためと考えられる．これより，セル数が大きい場合に
は，内部更新に CPU と GPU を併用するのが望ましい．
少なくとも，使用していない CPU3 を内部計算の一部
に用いるとよいと考えられる。
2. 逆に，N が小さい場合には境界更新の寄与は小さくな
いので，本併用手法によって高い性能が得られている．
3. いずれの手法の性能も，N ≈ 50 をピークとして急
激に小さくなる．この理由として考えられるのは，
CPU 部と GPU 部が共に使用している LLC（Last Level
Cache；容量 6MB；読み込み速度 32B/cycle，書き込み
速度 64B/cycle）5) に，CPU コードおよび GPU カーネ
ルで用いている六つないしは八つの配列（Ex，Ey，
Ez，Hx，Hy，Hz，C，および，Cx，Cy，Cz，または，
D）を格納できる限界が N ∼ 50 であるため，N > 50
では低速なメモリ（8B/cycle）へのアクセスが頻発す
るためと考えられる．
4. 上記 1 で言及した N が大きい場合について詳しく見る
と，’HYBRID’ は’GPU’ よりもやや劣っている．この理
由としては，’HYBRID’ が境界更新と内部更新を同時
に行うために，CPU 部と GPU 部が LLC を食い合うこ
とが考えられる．
400
HYBRID
GPU
CPU
350
mega cells per sec
2.2
300
250
200
150
100
50
3
3.1
数値実験
計算条件
グリッドサイズは ∆(= ∆x = ∆y = ∆z ) = 6.11 × 10−3 m
として，x，y ，z 方向にそれぞれ N (= Nx = Ny = Nz ) 個
のセルを設けた．誘電率および透磁率は一様に真空の値を
用いた．電気伝導率は零とした．入射場として，計算領域
の xy 断面の中央を通り， z 軸に平行なダイポールアンテ
ナを配置した．アンテナの駆動周波数は 2.45 GHz とした．
また，∆t = 4.08 × 10−12 s として，時間ステップ数は 1000
とした．なお，スナップショットは行わなかった．
3.3
0
計算環境
本研究では GPU 統合型 CPU である Intel Core i5-4440 を搭
載した PC を使用した．GPU 部は Intel HD Graphics 4600 で
ある．単精度浮動小数点数演算性能は，CPU 部が 422，GPU
部が 352 GFLOPS である．なお，Intel SDK for OpenCL
Application 2013 を OpenCL 開発キットとして使用した．
3.2
0
結果
図 2 は，提案手法（’HYBRID’）の性能結果を，’GPU’（す
なわち，CPU 部による境界更新（2 スレッド使用）と，GPU
部による内部更新を逐次的に行う手法），および，’CPU’
（すなわち，CPU 部のみによる境界更新と内部更新を逐次
的に行う手法；共に 4 スレッド使用）の各結果と比較して
いる．次のように考察した：
50
100
150
N cells
200
250
Fig. 2 Comparison of performance.
4
結論
本研究は，GPU 統合型 CPU を活用するための OpenMP
と OpenCL に基づく併用並列計算手法を 3 次元 FDTD 法に
適用し，数値実験によってその有効性を確認した．
参考文献
1) Wikipedia（https://en.wikipedia.org/wiki）の項目
List_of_Nvidia_graphics_processing_units，Intel_
HD_Graphics，および，Xeon よりデータを採取した．
2) 大澤ほか, GPU 統合型 CPU を用いた二次元ヘルムホル
ツ方程式に対する境界要素法の高速化, 日本機械学会計
算力学講演会論文集, Vol.27, 2014.
3) 延山龍介, GPU 統合型 CPU を用いた２次元有限要素法
の並列計算, 卒業論文（名古屋大学工学部）, 2015.
4) Allen Taflove. COMPUTATIONAL ELECTRODYNAMICS: The Finite-Difference Time-Domain Method. Artech
House: Boston 2005.
R Processor Graphics
5) The Compute Architecture of Intel
Gen7.5, Version 1.0, 2014.