Comments
Description
Transcript
電子情報通信学会ワードテンプレート (タイトル) - 喜連川研究室
DEIM Forum 2014 D2-4 フラッシュメモリ構成のストレージ環境における商用アウトオブオーダ型データ ベースエンジンの性能にプロセッサ省電力モードが与える影響の評価 出射 英臣† 久木 和也† 藤原 真二‡ 茂木 和彦‡ 合田 和生¶ 喜連川 優¶§ †㈱日立製作所 横浜研究所 〒244-0817 神奈川県横浜市戸塚区吉田町 292 番地 ‡㈱日立製作所 情報・通信システム社 IT プラットフォーム事業本部 〒244-0817 神奈川県横浜市戸塚区吉田町 292 番地 ¶東京大学生産技術研究所 〒153-8503 東京都目黒区駒場 4-6-1 §国立情報学研究所〒101-8430 東京都千代田区一ツ橋 2-1-2 E-mail: †{hideomi.idei.ub, kazuya.hisaki.bx}@hitachi.com, ‡{shinji.fujiwara.yc, kazuhiko.mogi.uv}@hitachi.com, ¶{kgoda,kitsure}@tkl.iis.u-tokyo.ac.jp あらまし 近年,企業や社会活動で発生するデータが増加しており,ビッグデータ利活用への期待が高まっている. このような中,我々は内閣府最先端研究開発支援プログラムにおいて,アウトオブオーダ型データベースエンジン (OoODE)と称する実行原理に基づく超高速データベースエンジンの研究開発を推進している.近年注目を集めてい るフラッシュメモリ構成のストレージ環境では,I/O のレスポンス時間が従来 HDD と比較して2桁以上短いため, プロセッサの省電力モードが OoODE の性能に影響を与えることが考えられる.そこで,今回本研究成果を基に開 発した商用 OoODE を用い,フラッシュメモリ構成のストレージ環境においてプロセッサの省電力モードが性能に 与える影響について評価した.本稿では,その評価に関して報告する. キーワード OoODE,アウトオブオーダ型,データベースエンジン,フラッシュメモリ,省電力モード Hideomi IDEI† Kazuya HISAKI† Kazuo GODA¶ and Shinji FUJIWARA‡ Kazuhiko MOGI‡ Masaru KITSUREGAWA¶ †Yokohama Research Laboratory, Hitachi, Ltd. 292, Yoshida-cho, Totsuka-ku, Yokohama, 244-0817 Japan ‡IT Platform Division Group, Information & Telecommunication Systems Company, Hitachi, Ltd. 292, Yoshida-cho, Totsuka-ku, Yokohama, 244-0817 Japan ¶Institute of Industrial Science, The University of Tokyo 4-6-1 Komaba, Meguro-ku, Tokyo, 153-8505 Japan § National Institute of Infomatics 2-1-2 Hitotsubashi, Chiyoda-ku, Tokyo 101-8430 Japan E-mail: †{ hideomi.idei.ub, kazuya.hisaki.bx }@hitachi.com, ‡{ shinji.fujiwara.yc, kazuhiko.mogi.uv }@hitachi.com, ¶{kgoda, kitsure}@tkl.iis.u-tokyo.ac.jp 1. はじめに 一 方 , DB( Database) の デ ー タ を 記 憶 す る ス ト レ ー 近年,クラウドコンピューティングの拡大や ,多機 ジの記憶デバイスとして,半導体メモリの一種である 能情報端末の急速な普及等により,企業や社会活動で フラッシュメモリが注目されている.フラッシュメモ 発生するデータが増加している.また,グローバルで リ は , 従 来 の HDD( Hard Disk Drive) と 比 較 し て デ ー の事業拡大や,新事業の創出,より豊かでスマートな タの入出力が高速で消費電力が低いという特徴がある 社会の実現に向けて,ビッグデータ利活用に対する期 [3].そ の 反 面 ,記 憶 容 量 や ビ ッ ト コ ス ト 等 に 課 題 が あ 待が急速に高まっており,データの超高速な検索処理 ったが,ハードウェア技術の進歩とともに大容量化や を可能にするデータベース製品が求められている. 低 価 格 化 が 進 み , 小 ・ 中 規 模 程 度 の DB に つ い て は 全 このような中,我々は,内閣府最先端研究開発支援 データをフラッシュメモリ構成のストレージ環境(以 プログラムにおいて,アウトオブオーダ型データベー 下,フラッシュストレージ環境)に格納することが可 ス エ ン ジ ン (OoODE)と 称 す る 実 行 原 理 に 基 づ く 超 高 速 能 と な り つ つ あ る .こ の よ う な 背 景 を 踏 ま え ,OoODE データベースエンジンの研究開発を進めてきている に お い て は , 従 来 の HDD の ス ト レ ー ジ 環 境 ( 以 下 , [1]. 日 立 は 2012 年 6 月 に , 本 研 究 開 発 成 果 を 基 に し HDD 環 境 )だ け で な く ,フ ラ ッ シ ュ ス ト レ ー ジ 環 境 で た商用のアウトオブオーダ型データベースエンジン も 高 い 性 能 を 発 揮 す る こ と が 明 ら か に さ れ て い る [4]. Hitachi Advanced Data Binder( HADB)を 製 品 化 し た [2]. ま た , 最 近 の CPU( Central Processing Unit) は ハ イ パ ワ ー 化 に よ る 消 費 電 力 増 加 の 対 策 と し て ,CPU コ ア (a) Conventional Techonology が ア イ ド ル 状 態 と な っ た 際 に CPU ク ロ ッ ク と 電 圧 を Server 調整して消費電力を抑える機能(本稿では省電力モー E ド と 呼 ぶ )を 有 し て い る [5].尚 ,本 機 能 で は ,CPU コ ア が 再 度 動 作 を 始 め た 場 合 に CPU ク ロ ッ ク と 電 圧 を 元に戻すため,その処理でオーバヘッドが生じる.従 Search processing (μs) B C Storage Synchronous I/O processing (ms) (b) OoODE Technology 来 の HDD 環 境 で は I/O 応 答 時 間 が 長 い た め ,相 対 的 に Task assignment Server A B C D Storage HDD 環 境 よ り も 2 桁 以 上 短 く な る た め ,CPU 省 電 力 モ A Search processing Wait for I/O completion Disk I/O そのオーバヘッドの影響は小さかった.しかし, フラ ッ シ ュ ス ト レ ー ジ 環 境 に お い て は , I/O 応 答 時 間 が D E Performance Gain by Native Command Queuing E B C D A ードの切り替えオーバヘッドの影響が顕著に現れる懸 念があった. 図 1 OoODE 実 行 原 理 そ こ で , 前 述 の 商 用 OoODE で あ る HADB , OS ( Operating System) に Linux, ス ト レ ー ジ に フ ラ ッ シ ュ ス ト レ ー ジ を 用 い た 環 境 に お い て ,CPU 省 電 力 モ ー 2.2 項 フラッシュストレージ環境における懸念事 ドが性能に与える影響について評価した.その結果, 最 近 の CPU は 消 費 電 力 を 低 減 す る た め ,ア イ ド ル 状 従来の順序実行型のデータベースエンジン(以下, 態 と な っ て い る CPU コ ア の CPU ク ロ ッ ク と 電 圧 を 調 IODE) で は CPU 省 電 力 モ ー ド に よ り 性 能 が 20%程 度 整して消費電力を抑える機能(省電力モード)を搭載 低 下 し た が , OoODE で は 性 能 差 を 1~2%程 度 に 抑 え る し て い る . 例 え ば , 図 1 (a)の よ う に I/O 完 了 待 ち を し ことを確認した.以上より,フラッシュストレージ環 て い る 間 の CPU コ ア は ア イ ド ル 状 態 と な る た め ,省 電 境 に お け る い て も OoODE の 技 術 は , 動 作 を し な い 時 力 モ ー ド を 有 効 に し て い る 場 合 は , 該 当 CPU コ ア の は CPU 省 電 力 モ ー ド に よ っ て 消 費 電 力 を 抑 え る こ と CPU ク ロ ッ ク と 電 圧 を 下 げ て ロ ー パ ワ ー 側 に 移 行 し , が で き , 且 つ 動 作 す る 時 は 従 来 IODE と 比 較 し て CPU 消 費 電 力 を 小 さ く す る . I/O が 完 了 し て CPU コ ア が 再 省電力モードの影響をほぼ受けずに動作することが可 度 動 作 を 始 め る と 元 の CPU ク ロ ッ ク・電 圧 に 復 帰 す る . 能であることを明らかにした. そ の 処 理 で オ ー バ ヘ ッ ド が 生 じ る が , 従 来 の HDD 環 本 稿 の 構 成 は 以 下 の 通 り で あ る . 2 章 で は OoODE 境 の 場 合 は I/O 応 答 時 間 が 数 十 ミ リ 秒 オ ー ダ と 長 い た の概要を説明し,3 章では性能評価の内容について述 め,相対的にそのオーバヘッドの影響は小さい.しか べ る .4 章 で は 性 能 評 価 結 果 に つ い て 報 告 し ,5 章 で 本 し , フ ラ ッ シ ュ ス ト レ ー ジ 環 境 に お い て は , I/O 応 答 稿を纏める. 時 間 が HDD 環 境 よ り も 2 桁 以 上 短 く な る た め , CPU 省電力モードの切り替えオーバヘッドの影響 が顕著に 2. OoODE の 概 要 現れることが考えられる.そこで,フラッシュストレ 2.1 OoODE 実 行 原 理 ー ジ 環 境 に お い て , CPU 省 電 力 モ ー ド が OoODE の 性 アウトオブ型データベースエンジンは, 図 1 に示す 能に与える影響について評価した. ように問合せ処理をアンフォールドすることにより多 評価内容 数のプロセッサコアを活用し,また,複数 のスレッド 3. が 非 同 期 I/O を 同 時 に 発 行 す る 高 多 重 I/O に よ っ て 標 3.1 システム構成 準 的 な HDD が 有 す る Native Command Queuing 機 能 を 今 回 の 評 価 に 用 い た シ ス テ ム は ,サ ー バ に 10CPU コ 効率的に活用する.また,図 1 のディスクドライブが ア (Intel® Xeon® E7-8870, 2.4GHz)×4 ソ ケ ッ ト , メ モ フラッシュメモリに置き換わった場合, フラッシュメ リ 512GB, RedHat® Enterprise Linux 6.2(OS)の Hitachi モ リ は 内 部 で 並 列 動 作 が 可 能 で あ る た め ,OoODE の 高 Blade Symphony BS2000, DB 用 の ス ト レ ー ジ に 1.6TB 多 重 I/O に よ っ て そ の 性 能 を 最 大 限 引 き 出 す こ と が で の FMD(Flash Memory Device)を 9 台 (7D+1P の RAID5 き る . こ の よ う に OoODE は , サ ー バ と ス ト レ ー ジ の 構 成 )搭 載 し た Hitachi Unified Storage VM(HUS -VM)を 性能を最大限引き出すことで性能向上を 図る. 用 い , 8GbpsFC( Fibre Channel) ×8Port で 接 続 し た シ ス テ ム 構 成 で あ る .ま た ,8 台 の FMD 全 領 域 に 1 つ の Raid Group を 作 成 し , そ こ か ら 8 個 の LU を 切 り 出 し て ,各 Port に 1 対 1 で 割 当 て た 構 成 と し て い る( 図 2). (2)HBA の 設 定 HBA 本 体 に 対 し て 以 下 を 設 定 . 動 的 QueueDepth を 無 効 ス ト レ ー ジ 装 置 か ら Queue-Full が 返 っ て き た 場 合 , 動 的 QueueDepth が 有 効 だ と 該 当 デ バ イ ス の queue_depth を OS が 自 動 的 に 減 少 さ せ ,I/O 性 能 に ばらつきが発生するため無効にする. 図 2 システム構 成 3.2 OS, HBA 等 の チ ュ ー ニ ン グ 3.1 章 に 記 載 の 通 り , OS に は RedHat® Enterprise Linux6.2 を 利 用 し た が , イ ン ス ト ー ル し た ま ま の デ フ ォ ル ト の 設 定 で は , ス ト レ ー ジ に 十 分 な I/O を 積 め な い 等 OoODE の 性 能 を 最 大 限 引 き 出 す こ と が で き な い . そ こ で ,以 下 の パ ラ メ ー タ の チ ュ ー ニ ン グ を 実 施 し た . (1)CPU ア フ ィ ニ テ ィ の 設 定 特 定 の CPU コ ア に 処 理 が 集 中 し て し ま う こ と を 防 ぐ た め ,DB 処 理 を 行 う CPU コ ア( OoODE の 場 合 の み ), IRQ を 受 け 付 け る CPU コ ア ,モ ニ タ 系( iostat/mpstat) の CPU コ ア の 割 当 て を 行 う ( 図 3). HBA の 全 ポ ー ト に 対 し て 以 下 を 設 定 . QueueDepth に 256 を 設 定 ス ト レ ー ジ に 十 分 な I/O を 発 行 す る た め . 割 込 み 方 式 に msi を 設 定 IRQ が 均 等 に 分 散 す る よ う に , 割 込 み 機 構 に MSI(Message Signalled Interrupt)を 設 定 す る . (3)デ バ イ ス の 設 定 全デバイスに対して以下を設定. I/O ス ケ ジ ュ ー ラ に noop を 設 定 I/O ス ケ ジ ュ ー ラ が デ フ ォ ル ト の cfq の 場 合 ,OS が I/O キ ュ ー 内 で I/O の 並 び 変 え を 行 う . そ の 処 理 に CPU を 使 わ れ る こ と を 防 ぐ た め ,I/O の 並 び 変 え を 行 わ な い noop を 設 定 す る . nr_request に 16,384 を 設 定 ス ト レ ー ジ に 十 分 な I/O を 発 行 す る た め ,nr_request パ ラ メ ー タ に 16,384 を 設 定 す る . queue_depth に 256 を 設 定 ス ト レ ー ジ に 十 分 な I/O を 発 行 す る た め , queue_depth パ ラ メ ー タ に 16,384 を 設 定 す る . rq_affinity に 0 を 設 定 I/O 完 了 時 の softirq 処 理 を I/O 発 行 し た CPU コ ア で 処 理 す る デ フ ォ ル ト 設 定 ( rq_affinity=1) の 場 合 , HBA・SCSI 構 造 体 の ア ク セ ス 競 合 が 発 生 す る た め , I/O 完 了 時 の softirq 処 理 を IRQ 受 付 け CPU コ ア で 処 理 す る 設 定 ( rq_affinity=0) に す る . add_random に 0 を 設 定 I/O 完 了 時 の エ ン ト ロ ピ ー 収 集 を 行 う デ フ ォ ル ト 設 定( add_random=1)の 場 合 ,エ ン ト ロ ピ ー 構 造 体 の ア ク セ ス 競 合 が 発 生 す る た め , I/O 完 了 時 の エ ン ト ロ ピ ー 収 集 を 行 わ な い 設 定( add_random=0)に す る . 3.3 評価環境 (1)DB 環 境 DB 環 境 は ,TPC-H[4]で 規 定 さ れ て い る ス キ ー マ で , 図 3 CPU アフィニティ設 定 デ ー タ 規 模 と し て Scale factor が 3,000 の も の を 使 用 し た. (2)LVM( Logical Volume Maneger) 構 成 全 8LU に 対 し て 1 つ の Volume Group を 作 成 し , 以 “Intel”,”Xeon”は , ア メ リ カ 合 衆 国 お よ び そ の 他 の 国 に お 下 の 表 ・ 索 引 そ れ ぞ れ に ス ト ラ イ プ サ イ ズ 4MB で 80 け る Intel Corporation ま た は そ の 子 会 社 の 登 録 商 標 ま た 個 の Logical Volume( LV) を 作 成 し た . こ れ は , 本 評 は商標です. 価 で 用 い る 商 用 OoODE が 複 数 の ス キ ャ ン 処 理 を 並 列 “RedHat”,”RedHat Enterprise Linux”は ,米 国 お よ び そ の 他 実 行 す る 方 式 を 採 用 し て お り , 複 数 の LV を 用 い る こ の 国 に お け る RedHat,Inc 社 の 登 録 商 標 ま た は 商 標 で す . と で LV の ロ ッ ク 競 合 を 避 け る た め で あ る . ま た , 以 “Linux”は , Linus Torvalds 氏 の 米 国 、 日 本 お よ び そ の 他 下の表以外の表・索引及びワーク用としてそれぞれ 1 の国における登録商標または商標です. 個 の LV を 作 成 し た . 【表】 part/supplier/partsupp/customer/orders/lineitem 【索引】 idx_part/idx_supplier/idx_partsupp/idx_customer/ idx_orders/idx_lineitem (3)性 能 評 価 用 ク エ リ 性 能 評 価 用 の ク エ リ と し て ,TPC-H の Q08 を ベ ー ス に ,最 外 表 で あ る Part 表 の 絞 込 み 条 件 を 変 え た ク エ リ ( 以 下 ,Q08’)を 使 用 し た .図 4 に Q08’の SQL,図 5 に Q08’の 実 行 プ ラ ン を 示 す .尚 ,本 稿 で は 最 外 表( Q08’ で は Part 表 )の 全 行 数 に 対 す る 選 択 行 数 の 割 合 を 絞 込 み率としている. 図 5 Q08’の実 行 プラン (4)性 能 測 定 内 容 本 評 価 で は ,CPU 省 電 力 モ ー ド を 有 効 に し た 場 合 と 無効にした場合でそれぞれ 3 回測定を行い,それらの 平 均 値 を 結 果 と し て い る . 尚 , 比 較 の た め OoODE だ け で な く IODE に つ い て も 性 能 測 定 を 実 施 し た .IODE と OoODE で は 同 一 ク エ リ で も ク エ リ 実 行 時 間 が 大 幅 に異なるため,今回の評価ではクエリ実行時間が同程 度 と な る よ う に ,IODE と OoODE で 最 外 表 の 絞 込 み 条 件を調整し,以下の絞込み率で測定を実施した. [IODE] 絞 込 み 率 : 5e-7/1e-6/5e-6/1e-5/2e-5/3e-5/5e-5 [OoODE] 絞 込 み 率 : 3e-5/5e-5/1e-4/5e-4/1e-3/3e-3/5e-3 図 4 Q08’の SQL 4. 評価結果 4.1 測定結果 (1)IODE 測 定 結 果 IODE 測 定 結 果 の グ ラ フ を 図 6 に 示 す . 本 グ ラ フ で は , 省 電 力 モ ー ド OFF で 絞 込 み 率 5e-7 の ク エ リ 実 行 時間を 1 としたクエリ実行相対時間を縦軸,絞込み率 を横軸として,各絞込み率のポイントで省電力モード が 無 効( OFF)の 結 果 と 有 効( ON)の 結 果 を 並 べ て 表 示している. 本 評 価 に お い て , IODE で は , CPU 省 電 力 モ ー ド を 有 効 に し た 場 合 ,CPU 省 電 力 モ ー ド が 無 効 の 場 合 と 比 較 し て 性 能 が 20%程 度 低 下 し た . 理 を 並 列 に 実 行 し て お り ,各 CPU コ ア を ア イ ド ル に 落 と さ ず に 効 率 良 く 使 用 す る . そ の た め , IODE と 比 較 し て ア イ ド ル 状 態 に な る 割 合 が 低 く CPU 省 電 力 モ ー ドの影響が小さいと考えられる. 5. お わ り に 本論文では,著者らが研究開発を進めている成果を 利用した商用のアウトオブオーダ型データベースエン ジ ン Hitachi Advanced Data Binder( HADB)を 用 い ,近 年注目を集めているフラッシュストレージ環境におい て ,CPU 省 電 力 モ ー ド が 性 能 に 与 え る 影 響 に つ い て 評 図 6 IODE 測 定 結 果 (2)OoODE 測 定 結 果 価 し た . そ の 結 果 , 同 デ ー タ ベ ー ス エ ン ジ ン は , OS に Linux, ス ト レ ー ジ に フ ラ ッ シ ュ ス ト レ ー ジ を 用 い OoODE 測 定 結 果 の グ ラ フ を 図 7 に 示 す .本 グ ラ フ も た 環 境 に お い て ,動 作 を し な い 時 は CPU 省 電 力 モ ー ド 省 電 力 モ ー ド OFF で 絞 込 み 率 3e-5 の ク エ リ 実 行 時 間 によって消費電力を抑えることができ,且つ動作する を 1 としたクエリ実行相対時間を縦軸,絞込み率を横 時はアウトオブオーダ型データベースエンジンの実行 軸として,各絞込み率のポイントで省電力モードが無 原 理 に よ り ,従 来 の IODE と 比 較 し て CPU 省 電 力 モ ー 効( OFF)の 結 果 と 有 効( ON)の 結 果 を 並 べ て 表 示 し ドの影響をほぼ受けずに動作することが可能であるこ ている. とを確認した. 本 評 価 に お い て , OoODE で は , CPU 省 電 力 モ ー ド を 有 効 に し た 場 合 で も CPU 省 電 力 モ ー ド が 無 効 の 場 謝 合 と ほ ぼ 同 等 の 1~2%の 性 能 差 と な っ た . 本研究は, 内閣府最先端研究開発支援プログラム 辞 「超巨大データベース時代に向けた最高速データベー スエンジンの開発と当該エンジンを核とする戦略的社 会サービスの実証・評価」の助成により行われた. 文 図 7 OoODE 測 定 結 果 4.2 考察 フ ラ ッ シ ュ ス ト レ ー ジ 環 境 に お い て ,CPU 省 電 力 モ ー ド を 有 効 に し た 場 合 , 従 来 の IODE で は 20%程 度 性 能 が 低 下 し た . IODE は シ ン グ ル ス レ ッ ド で 動 作 し て い る た め ,I/O 完 了 待 ち で ア イ ド ル 状 態( ロ ー パ ワ ー ) と な っ て い る CPU コ ア が I/O 完 了 後 に 再 度 動 作 を 始 め る 際 ,通 常 時 の CPU ク ロ ッ ク・電 圧 に 復 帰 す る 処 理 の オーバヘッドが性能に直接影響を与えているためだと 考えられる。 これに対し,フラッシュストレージ環境において, OoODE で は CPU 省 電 力 モ ー ド の 影 響 を 1~2%程 度 に 抑 え る こ と が で き た .OoODE で は ,ア ウ ト オ ブ オ ー ダ 型 データベースエンジンの実行原理に基づいて複数の処 献 [1] 喜 連 川 優 ,合 田 和 生 ,ア ウ ト オ ブ オ ー ダ 型 デ ー タ ベ ー ス エ ン ジ ン OoODE の 構 想 と 初 期 実 験 , 日 本 デ ー タ ベ ー ス 学 会 論 文 誌 , Vol.8, No.1, pp.131-136, 2009. [2] 日 立 , 東 京 大 学 と の 超 高 速 デ ー タ ベ ー ス エ ン ジ ン の共同研究開発成果を製品化, http://www.hitachi.co.jp/New/cnews/month/2012/05/ 0528.html, 2012. [3] 森 山 正 秋 , Hitachi Accelerated Flash が も た ら す ス ト レ ー ジ シ ス テ ム の 変 革 , IDC Japan, Feb-2013, http://www.hitachi.co.jp/products/it/storage -solution s/techsupport/whitepaper/pdf/500170_hitachi_wp.pdf [4] 早 水 悠 登 , 合 田 和 生 , 喜 連 川 優 , フ ラ ッ シ ュ ス ト レージ環境におけるアウトオブオーダ型データ ベ ー ス エ ン ジ ン OoODE の 実 験 的 ク エ リ 処 理 性 能 評価, 第 6 回データ工学と情報マネジメントに関 す る フ ォ ー ラ ム , 2014 (to appear) [5] Alon Naveh , Doron Rajwan , Avinash Ananthakrishnan、Eli Weissmann,Power management architecture of the 2nd generation Intel® Core™ microarchitecture, formerly codenamed Sandy Bridge , Hot Chips Aug-2011, http://www.hotchips.org/wp -content/uploads/hc_arch ives/hc23/HC23.19.9-Desktop-CPUs/HC23.19.921.S andyBridge_Power_10-Rotem-Intel.pdf [6] Transaction Processing Performance Council, TPC-H All Results – Sorted by Performance, http://www.tpc.org/tpch/results/tpch_results.as p.