...

グリーンコンピューティングに関する 産学連携研究開発

by user

on
Category: Documents
16

views

Report

Comments

Transcript

グリーンコンピューティングに関する 産学連携研究開発
グリーンコンピューティングに関する
産学連携研究開発
早稲田大学
理工学術院基幹理工学部情報理工学科 教授
アドバンスト・マルチコア・プロセッサ研究所 所長
IEEE Computer Society理事
笠原博徳
1985年 早稲田大学博士課程了 工学博士
カリフォルニア大学バークレー客員研究員
1986年 早大理工専任講師, 1988年 助教授
1997年 教授、現在 理工学術院情報理工学科
1989年~1990年 イリノイ大学Center for
Supercomputing R&D客員研究員
2009年 IEEE Computer Society 理事
2012 年 IEEE Computer Societyマルチコア戦略委員長
1987年 IFAC World Congress Young Author Prize
1997年 情報処理学会坂井記念特別賞
2005年 STARC(半導体理工学研究センタ)共同研究賞
2008年 LSI・オブ・ザ・イヤー 2008 準グランプリ
2008年 Intel Asia Academic Forum Best Research Award
2010年IEEE Computer Society Golden Core Member
2013/1/31
10:00-10:45
査読付論文 191件, 招待講演110件,シンポジウム論文 30件, 研究会論文 138件, 全国大会論文 154件,特許公開 39件
新聞・Web記事・TV等メディア掲載 467件
政府・学会委員等歴任数 226件
【経済産業省・NEDO】 情報家電用マルチコア及びコンパイラ等国
家プロジェクトリーダ、NEDOコンピュータ戦略(ロードマップ)委員
長, 「グリーンネットワーク・システムプロジェクト(グリーンITプロ
ジェクト)」技術委員長 【内閣府】 スーパーコンピュータ戦略委員
会, 政府調達苦情検討委員, 【文部科学省・JST・JSPS・JAXA・原
子力機構・海洋研】地球シミュレータ(ES)評価委員、情報科学技
術委員,HPCI計画推進委員,次世代スパコン(京)中間評価委
員・概念設計評価委員, ES2導入技術アドバイザイリー委員長,
IEEE,情報処理学会, ACM Conf.PC,高校生科学技術チャレンジ審
査委員
情報処置学会第195回計算機アーキテクチャ研究会
早稲⽥⼤学グリーンコンピューティングシステム研究開発センター
1
グリーン・コンピューティング・システム研究開発センター 概要
2011年4月13日竣工, 2011年5月13日開所(記念シンポジウム)
経済産業省「2009年度産業技術研究開発施設整備費補助金」
先端イノベーション拠点整備事業
<目標>
太陽電池で駆動可能で
冷却ファンが不要な
超低消費電力・高性能マルチコア/
メニーコアプロセッサ*のハードウェア、
ソフトウェア、応用技術の研究開発
*1チップ上に多数のプロセッサコアを
集積する次世代マルチコアプロセッサ
<産学連携>
日立,富士通, ルネサス,NEC, トヨタ, デンソー, オリンパス,
三菱電機(重粒子線ガン治療) 等
<波及効果>
超低消費電力メニーコア
CO2排出量削減
サーバ国際競争力強化
我が国の産業利益を支える
情報家電,自動車等の高付加価値化
2013/1/31
2011グッドデザイン賞受賞
早稲⽥⼤学 GCSセンター概要
2
早稲田大学GCSにおけるマルチコア産学連携開発と実用化イメージ
トヨタ・デンソー・ルネサス・NEC
情報家電
ネットTV/DVD/複合機
理想科学・
コニカミノルタ
カメラ
カムコーダ
グリーンスパコン
超低消費電力・メニーコアシステム技術
OS
OSCAR
Many‐core
Chip
イーソル
スマートフォン/ ホームサーバ
オリンパス
東京証券取引所
API
14社3大学
クールデスクトップサーバ
医療用サーバ
太陽電池駆動・充電
放医研パンフレットより
竜巻.ゲリラ豪雨,
首都圏直下型地震火災延焼、
ダム決壊時河川氾濫予測,
住民避難指示
地球シミュレー
タセンター
医用画像処理等専用サーバ
(医療:重粒子線照射計画, 脳梗塞)
産業界 自動車・航空機設計サーバ
富士通・日立
OSCAR
+カプセル内視鏡
太陽光駆動局所災害
シミュレータ
ルネサス/富士通
三菱電機
富士通・KDDI
産業競争力を守る
日立・(ドコモ)
市場規模:情報家電・携帯電話系 数10兆円
2013/1/31
グリーンクラウドサーバ゙
OSCARマルチコア/メニーコアチップ
カプセル
内視鏡
情報家電
OSCAR
車載(カーナビ・
統合制御・インフラ協調)
富士通・日立
環境を守る
ロボット
命を守る
スパコン・サーバ
市場規模:スパコン・サーバ系 1兆円
早稲⽥⼤学 GCSセンター
マルチコア産学連携研究と実⽤化イメージ
3
早稲田大学におけるマルチコアに関する
産官学連携と人材育成経緯

2009‐ 経産省先端イノベーション拠点整備事業
グリーンコンピューティングシステム研究開発センター(ユーザ企業との連携)
2011‐ 富士通・日立・オリンパス・トヨタ・デンソー・NEC・ルネサス連携研究室
KDDI・理想科学・三菱電機・コニカミノルタ・イーソル等共同研究 , API:14社3大学

2006‐09 経産省NEDO 情報家電用ヘテロジニアスマルチコア
低消費電力ヘテロマルチコアを産官学で試作 15コアRPX
(委託)早稲田(ヘテロAPI:6社) (助成)日立・ルネサステクノロジ

2005‐07 経産省NEDO リアルタイム情報家電用マルチコア
低消費電力高性能プロセッサ&ソフトウェアを産学連携研究開発
“授業であって開発の場:白井総長・経産省塩沢審議官”
(委託)早稲田(API委員会:日立,ルネサス,富士通,東芝,松下,NEC)
(助成)日立・ルネサステクノロジ 4コアRP1, 8コアRP2: 2コアは市場へ

2004‐06 経産省NEDO大学発事業創出実用化研究開発
先進ヘテロジニアス・マルチプロセッサ(日立・早稲田包括連携)

産学単独ではなし得ない知財創出・産学の人材育成を狙う(基本特許)
 2000‐06 STARCコンパイラ協調型チップマルチプロセッサ
 (国内12社出資の半導体理工学研究センター:富士通,東芝,NEC, 松下,ソニー等)


産のニーズと学のシーズを企業連合支援プロジェクトという形で融合
2000‐02 内閣府ミレニアムプロジェクトIT21 経産省NEDO
アドバンスト並列化コンパイラ(APC)プロジェクト
HPC並列化コンパイラ技術を世界一へ(早稲田,富士通,日立,産総研,JIPDEC)
2013/1/31
早稲⽥⼤学 マルチコアチップ・ソフトウェア
に関する産学連携経緯
4
ILRAM
I-cache
Core#0
URAM
DLRAMD-cache
Core#1
SNC0
LBSC
早稲田OSCARコンパイラ協調型アーキテクチャ
ホモジニアスマルチコアRP2 SH4A8コア搭載
DBG0
Core#3
90nm CMOS, 8層メタル, 3種Vth
チップサイズ
104.8mm2 (10.61mm x 9.88mm)
電源電圧
1.0V-1.4V(コア), 1.8/3.3V(I/O)
動作周波数
600MHz
CPU性能
8640 MIPS (Dhrystone 2.1)
FPU性能
33.6 GFLOPS
低電力制御
・CPU毎に独立した周波数変更
・CPUコアのクロックを停止する
スリープモード
・ CPUコアの一部のクロックを停止
するがキャッシュコヒーレンシ
維持可能なライトスリープモード
・CPUコアの電源供給を停止する
フル電源遮断モード
・URAM以外のCPUコアの電源
供給を停止するレジューム電源
遮断モード
Core#6
Core#4
DBSC
SNC1
SHWY
DBG1
CSM
GDBG
Core#2
プロセス
Core#7
VSWC
Core#5
CPGM
DDRPAD
8コア集積マルチコアLSIチップ写真
ISSCC08発表: ISSCC08 論文番号4.5, M.ITO, et al., “An 8640 MIPS SoC with Independent Power-off Control of
8 CPUs and 8 RAMs by an Automatic Parallelizing Compiler”
5
NEDOリアルタイム情報家電用マルチコアチップ・デモの様子
http://www8.cao.go.jp/cstp/gaiyo/honkaigi/74index.html
6
世界をリードするマルチコア用コンパイラ技術
プロセッサ高速化における3大技術課題の解消
1. 半導体集積度向上(使用可能トランジスタ数増大)
に対する速度向上率の鈍化
 粗粒度タスク並列化、ループ並列化、近細粒
度並列化によりプログラム全域の並列性を利
用するマルチグレイン並列化機能により、従来
の命令レベル並列性より大きな並列性を抽出
し、複数マルチコアで速度向上
2. メモリウオール問題
 コンパイラによるローカルメモリへのデータ分
割配置、DMAコントローラによるタスク実行と
オーバーラップしたデータ転送によりメモリアク
セス・データ転送オーバーヘッド最小化
3. 消費電力増大による速度向上の鈍化
 コンパイラによる低消費電力制御機能を用い
たアプリケーション内でのきめ細かい周波数・
電圧制御・電源遮断により消費電力低減
7
7
Earliest Executable Condition Analysis for
coarse grain tasks (Macro-tasks)
Data Dependency
Control flow
Conditional branch
1
2
1
BPA
BPA
3
4
BPA
BPA
BPA
Block of Psuedo
Assignment Statements
RB
Repetition Block
2
7
5
3
4
RB
BPA
8
6
BPA
6
RB
BPA
15
BPA
7
6
5
RB
9
RB
11
RB
8
BPA
BPA
9
BPA
11
12
10
RB
15
7
Data dependency
12
Extended control dependency
BPA
BPA
13
10
Conditional branch
13
OR
AND
14
RB
Original control flow
14
END
RB
A Macro Flow
Graph
A Macro Task Graph
8
Automatic processor assignment in su2cor
• Using 14 processors
–
Coarse grain parallelization within DO400 of subroutine LOOPS
9
MTG of Su2cor-LOOPS-DO400
 Coarse grain parallelism PARA_ALD = 4.3
DOALL
Sequential LOOP
SB
BB
10
データローカライゼーションのイメージ
PE0
1
1
3
2
6
3
4
6
5
14
7
8
12
9
10
18
24
11
12
13
10
5
4
11
15
9
21
22
23
20
dlg3
dlg0
29
27
31
1
2
3
6
7
4
14
8
18
15
5
19
9
25
11
29
10
13
16
17
20
22
26
21
30
23
24
27
28
26
dlg2
28
12
8
16
19
25
dlg1
14
7
13
17
2
PE1
32
30
32
15
MTG
Data Localization Group
33
4分割後のMTG
31
2プロセッサへの割り当て
11
OSCARコンパイラが自動生成するマルチコアAPI
(OpenMP互換)利用、階層マルチグレイン
並列プログラムのイメージ
SECTIONS
SECTION
1st layer
Distributed
MT1_1
scheduling
code
MT1_2
DOALL
MT1_4
RB
MT1_3
SB
3rd layer
T0 T1 T2 T3 T4 T5 T6 T7
MT1_1
SYNC SEND
SYNC RECV
MT1-3
MT1-4
1_3_2 1_3_3 1_3_4
1_3_5
1_4_2 1_4_3 1_4_4
SECTION
MT1_2
1_3_1
1_4_1
Centralized
scheduling
code
1_4_1
1_4_1
1_4_2
1_4_2
1_4_3
1_4_3
1_4_4
1_4_4
1_3_1
1_3_1
1_3_1
1_3_2
1_3_2
1_3_2
1_3_3
1_3_3
1_3_3
1_3_4
1_3_4
1_3_4
1_3_5
1_3_5
1_3_5
1_3_6
1_3_6
1_3_6
1_3_6
END SECTIONS
2nd layer
Thread group0
Thread group1
12
現状:世界最高性能のOSCARコンパイラの性能
インテル・IBMマルチコアサーバ上でそれぞれ2倍・3倍以上の高速化
インテル クアッドコアXeonプロセッサ上での
早稲田大学 OSCARコンパイラの性能
インテル・マルチコア上で
インテルコンパイラに比べ
IBM p6 595 Power6 (4.2GHz) ベース 32コア SMP
サーバ上での早稲田大学OSCARコンパイラの性能
IBM最新サーバ上で
IBMコンパイラに比べ
2.1 倍速度向上
3.3 倍速度向上
Intel Ver.10.1
OSCAR
9
8
7
s p e e d u p ra tio
6
5
4
3
2
1
SPEC95
ap si
a p p lu
m g r id
s w im
w ave5
fp p p p
ap si
tu r b 3 d
a p p lu
m g r id
h y d ro 2 d
su2cor
s w im
to m c a tv
0
SPEC2000
13
Power Reduction by Power Supply, Clock Frequency
and Voltage Control by OSCAR Compiler
•
Shortest execution time mode
14
RP2マルチコア上で、OSCAR並列化コンパイラによる自動
ソフトウェアコヒーレンス制御により、4コアAAC処理を
ハードウェアコヒーレンス制御と同等以上の速度向上
SMP逐次実行に対する速度向上率
7.00
SMP
Non-Coherent Cache
5.90
6.00
6.63
5.00
3.59
3.54
4.00
3.00
2.00
1.00
3.90
3.34
3.36
2.54
2.45
1.92
1.89
1.00
1.01
1.02
1.00
2.10
1.85
1.62
1.61
1.02
1.00
0.00
1
2
4
AAC Encoder
8
1
2
4
MPEG2 Decoder
PE数
8
1
2
4
8
MPEG2 Encoder
15
(ホモジニアス/ヘテロジニアス)マルチコア・メニーコア用プログラム開発
2012.4.25プレスリリース
逐次C or Fortran
アプリケーションプログラム
25件掲載
(情報家電,自動車,医療,科学技術計算)
API: Application Programming Interface
ホモジニアス/ヘテロジニアス
マルチコア及びメニーコア用OSCAR API
14社
3大学
ユーザによる
手動並列化
並列化API
C or Fプログラム
Proc0
アクセレータ用コンパイラ
あるいはユーザ指示
指示文
アクセラレータあるいはユーザが、ア
用プログラム
クセラレータで実行可能プログラム部
分あるいはライブラリとその実行時間
等ヒント指示文として逐次プログラム
中に追加
早稲田大学OSCAR
自動並列化コンパイラ
プログラム全域からマルチグレイン並列性
を抽出(粗粒度タスク並列含む)
データ配置の最適化(分散共有・ローカル
メモリ利用の自動最適化)
DMAを用いたデータ転送
周波数/電圧/電源制御低消費電力化
Proc1
指示文
用プログラム
ホモジニアス用低電力
並列マシンコード生成
API
解釈系
既存逐次コ
ンパイラ
ヘテロジニアス用低電力
並列マシンコード生成
API
解釈系
(早稲田大
学より無料
配布)
ホモジニアス
マルチコア/
メニーコアチップ
(共有メモリサーバ)
既存逐次コ
ンパイラ
アクセラレー
タ用コンパイ
ラ/ライブラリ
ヘテロジニアス
マルチ
コアチップ
アクセラレータA
用プログラム
アクセラレータB
サーバ用コード生成
用プログラム
市販OpenMP
コンパイラ
共有メモリマルチ
プロセッササーバ
逐次コンパイラで各社チップ用並列コード作成可能
ヘテロ
ホモジニアス
タスク生成・変数のメモリ割当て・キャッシュ一貫性制御・
データ転送・同期・電力制御を指示する指示文(コメント文)集
16
OSCAR API v2.0の指示文一覧
Fortran & C 用の22個の指示文+2ヒント指示文

並列実行API







groupbarrier
電力制御API



threadprivate (*)
distributedshared
onchipshared
同期API


parallel sections (*)
flush (*)
critical (*)
execution
fvcontrol
get_fvstatus
タイマーAPI

get_current_time
データ転送API
dma_transfer
 dma_contiguous_parameter
 dma_stride_parameter
 dma_flag_check
 dma_flag_send
アクセラレータAPI
 accelerator_task_entry
キャッシュ制御API
 cache_writeback
 cache_selfinvalidate
 ヒント指⽰⽂
 complete_memop
 accelerator_task
 noncacheable
 aligncache
 oscar_comment

メモリ配置API





(*) OpenMP指示文
OSCAR: Optimally Scheduled Advanced Multiprocessor
17
Low-Power Optimization with OSCAR API
Scheduled Result
by OSCAR Compiler
VC1
VC0
Generate Code Image by OSCAR Compiler
void
void
main_VC1() {
main_VC0() {
MT2
MT2
MT1
MT1
Sleep
#pragma oscar fvcontrol ¥
((OSCAR_CPU(),0))
Sleep
#pragma oscar fvcontrol ¥
(1,(OSCAR_CPU(),100))
MT3
MT4
MT4
MT3
}
}
18
リアルタイムMPEG2デコードを、8コアホモジニアス
マルチコアRP2上で、消費電力1/4に削減
NEDOプロジェクトで開発した低消費電力
マルチコア(8コア)上でのマルチメディア処理
7
6
(W)
電力制御無し
電力制御無し
平均電力
5.73 [W]
5
4
省電力分
3
73.5%
の電力
削減
太陽電池で駆動可
2
1
0
周波数/電圧・電源遮断制御
電力制御有
平均電力
1.52 [W]
19
Intel Stamp Size Solar Powered Processor “Claremont” Announced in
Intel IDF 2011 September 13
“Haswell” on Market in 2013
インテル 副社長 CTO Dr. Justin Rattner
20
Whole Chip Power Consumption executing Multiple
Middle Computational Load Applications (2MPEG
Decoders) on RP2
4.00
3.50
Power Consumption [W]
3.00
2.84
2.50
2.00
1.50
3.61
4PE 1MPEG2dec reduce 49% power
Against 1PE 1MPEG2dec
2.42
2.29
Not-power
電力制御なし
Controlled
1MPEG2dec
1.99
1MPEG2dec
1.60
1.49
1.46
1.31
1.01
1.00
2MPEG2dec
1.11
0.50
0.00
1PE
2PE
4PE
8PE
Number of Processors
Power consumption of (4PE 1MPEG2dec)x2
is lower than 1PE 1MPEG2dec.
LCPC2011
At this time, 51% power reduction for one MPEG2dec.
21
Waveform of Power Consumption when executing Multiple Middle
Computational Load Applications
(1MPEG2 Decoder) on RP2
Waveform of 1PE 1MPEG2dec
Waveform of 4PE 1MPEG2dec
NOT power-controlled
Average
Power: 1.01W
4
4
Average Power: 1.99W
3.5
Power Consumption[W], Voltage[V]
Power Consumption[W], Voltage[V]
3.5
3
2.5
2
1.5
1
0.5
0
0
20
40
60
time (x2μs)
Power
電力
Chip
プロセッサ電圧
Voltage
80
100
3
2.5
2
1.5
1
0.5
0
0
20
40
60
80
100
time (x2μs)
Power
電力
Chip Voltage
プロセッサ電圧
49% power reduction against 4PE 1MPEG2dec
22
1PE 1MPEG2dec
Average
Power: 1.49W
5
8PE 2MPEG2dec
Average
Power: 1.46W
5
4.5
4.5
4.5
4
4
4
3.5
3.5
3
3
2.5
2.5
2
2
1.5
1.5
1
1
0.5
0.5
Power Consumption[W], Voltage[V]
Power Consumption[W], Voltage[V]
Waveform of Power Consumption when executing Multiple Middle
Computational Load Applications
(1MPEG2 Decoder) on RP2
3.5
3
2.5
2
1.5
1
0.5
0
0
20
40
60
time (x2μs)
Power
電力
Chip
Voltage
プロセッサ電圧
80
100
0
4PE 1MPEG2dec
Average Power: 1.01W
5
0
0
20
40
60
80
100
0
20
40
60
80
time (x2μs)
time (x2μs)
Power
電力
Chip
Voltage
プロセッサ電圧
Power
電力
Chip
Voltage
プロセッサ電圧
49% power reduction by using 4x cores is almost same as power consumption of 1MPEG2dec
23
100
An Image of Static Schedule for Heterogeneous Multi-core
with Data Transfer Overlapping and Power Control
24
RPX上でのオプティカルフロー計算において、8つの
SH4Aプロセッサと4つのアクセラレータFEGA(動的再構
成可能プロセッサ)利用時に逐次に比べ33倍高速化
25
RPX上で、リアルタイムオプティカルフロー
計算の消費電力を1/3に削減
コンパイラ制御なし
コンパイラ制御適用
およそ70[%]の電力削減
平均1.76[W]
平均0.54[W]
1周期 : 33[ms]
→30[fps]
26
国際産業競争力を高める
「走る・曲る・止る」のクルマの基本性能と安全性能は
電子プログラムが制御する時代へ
従来並列化できなかったエンジン制御を
2コアで1.95倍高速化に成功
マルチコアによるエンジン制御
エンジン制御プログラムの高速化・低燃費化・高機能化に貢献
⇒ハイブリッド、EVでは低消費電力化重要。
デンソーと共同研究
(カメラ等多くのセンサーからの情報、ネットワークからのを瞬時に解析し、
エンジン、ブレーキ、サスペンション、ステアリングなどを統合的に制御することにより
より安全、快適、環境に優しい自動車の開発を目指す)
27
3コア NaviEngine リアルタイルOS eT‐Kernel Multi‐Core Edition上での
OSCAR APIを用いた並列処理性能
3.00
NaviEngine (ARM11 MPCore) 400MHz 3 core SMP
2.85 (Renesas Electronics EC-4260)
speed up ratio
2.00
2.47 2.45 2.50
2.05 1.95 1.75 2.03 1.95 1.77 1.64 1PE
1.50
2PE
1.00
1.00 1.00 1.00 1.00 3PE
1.00 0.50
0.00
AAC Encoder
MPEG2 Encoder
MPEG2 Decoder
Optical Flow
(OpenCV)
SPEC2000
183.equake
• 3コアで1コアに比べ平均2.37倍の速度向上
イーソルと共同研究
28
Performance of OSCAR Compiler & API on 2 ARMv7‐cores Qualcomm MSM8960 Android 4.0 for Smart Phones
2
1.90
1.87
1.72
1.73
Speedup Ratio
1.5
1
1PE
2PE
0.5
0
AAC ENC
MPEG2 DEC
OMPM equake
MPEG2 ENC
Application
1.81 times speedup by 2 cores on the average against 1 core
2012/07/04
API委員会
29
29
次世代カメラ・カプセル内視鏡のための静⽌画圧縮
JPEG XRエンコーダのメニーコア上での並列化研究状況
早大
0.18[s]
TILEPro64 速度向上率
 TILEPro64
60.00
50.00
al)
t0
X4)
Ds
速度向上率
40.00
nal)
rt 1
X4)
55.11 中国・浙江大学による並列化
1コア比2.85倍(処理時間3.50[s])
30.79 30.00
20.00
1コア
10.0[s]
10.00
1.00 1.96 15.82 7.86 3.95 0.00
1
2
4
8
コア数
16
32
64
逐次に対し64コアで55倍の速度向上
を達成
2013/1/31
早稲⽥⼤学GCS研究紹介
30
病気から生命を守る
重粒子線がん治療
重粒子線(炭素イオン)を極めて正確に制御・照射し、癌細胞のみを消滅させる治療法
開腹手術不要・痛みなく治療が可能
早大独自ノウハウで64コアで55倍の高速化
20分⇒22秒 低治療費化・健康保険適用へ道
放射線医学研究所
施設の費用: 120億円
従来照射計画計算に長時間を要していた
⇒1日に処置可能な患者数は数十名程度
⇒ 350万円程度と高額・保険適用外
三菱電機と共同研究
31
リアルタイム防災サーバを目指した地震波伝搬シミュレータGMS (Ground Motion Simulator)の並列化
•
• 地質データ、震源を入力として地
振動を波動方程式の求解により
計算(Fortranプログラム)
2013/1/29
Confidential
OSCARコンパイラによる並列性解析結果
–
–
横に並んだループ・関数を並列に計算可能
一部タスクは並列化可能なループであり階層的な
並列化がさらに可能
早稲田大学 日立製作所 共同研究
GMS:防災科学研究所(NIED)により公開
http://www.gms.bosai.go.jp/GMS/
32
日立BS2000外付けキャッシュコヒーレント制御機構付き
64コアブレードサーバ上でのGMSの並列化
逐次に比べ43倍の高速化(8コアインテルXeon Based Linux SMP)
Speedup against sequential processing
50
45
40
35
30
oscar
25
20
15
10
5
0
1pe
2013/1/29
Confidential
2pe
4pe
8pe
16pe
32pe
64pe
早稲田大学 日立製作所 共同研究
ブレードSMPサーバ Hitachi BS2000
33
日立SR16000 128コアLinux CC‐NUMA(SMP)
ハイエンドサーバ上でのGMSの並列化
逐次に比べ92倍の高速化(8コアIBM Power7ベース)
4日近くかかる計算が
1時間に
Speedup against sequential processing
100
90
80
70
60
oscar
50
40
30
20
10
0
1pe
2013/1/29
Confidential
2pe
4pe
8pe
16pe
早稲田大学 日立製作所 共同研究
32pe
64pe
128pe
34
IEEE CS Multicore STC: Leadership Team
Chair
FTs PM
BoG “Angel”
Hironori Kasahara
Hironori Kasahara
Conferences
Standards
Publishing
Web Portal
Education
Body of Knowledge
Newsletter
<Confidential> STC: Strategic Technical Committee
IEEE CSが推進する3分野の内の一つである
マルチコア分野が2012.6.15に笠原に任されました。
上記分野で最高のスタッフを決め、圧倒的な競争力をもつ国際会議、
論文誌、標準化、教育を世界産官学連携で推し進めます。
35
マルチコア・並列化将来目標
次世代自動車
‐ より安全・より安心・より快適・より環境に優しい
‐ エンジン・モータ制御、ブレーキ、サスペンション制御
‐ カメラ・ネットワーク等情報系と統合した制御系へ
スマートフォン
高度医療サーバ
‐1日一回の充電から、
1週間以下の充電へ。
‐非常時でも太陽光充電
手術室内設置可能で、停電
時でも非常電源、太陽光で
動作する衛生的・静音・高
性能サーバ
パーソナルスパコン
太陽光充電可能な電力1/100以下の
サーバ
(局所災害シミュレータ等)
36
Fly UP