...

並列データ処理実行時の IP-SAN統合型PCクラスタの動作特性解析

by user

on
Category: Documents
10

views

Report

Comments

Transcript

並列データ処理実行時の IP-SAN統合型PCクラスタの動作特性解析
お茶の水女子大学
博士前期課程 修士論文
並列データ処理実行時の
統合型 クラスタの動作特性解析
著者氏名
理学専攻情報科学コース 修士 年
原 明日香
指導教官
人間文化創成科学研究科 教授
小口 正人
平成
年
月
要旨
近年、情報システムにおいて処理される情報量が爆発的に増大しており、その中からユーザが
必要とする情報を高速に取り出すことが求められている。そこで膨大なデータを処理するために、
本研究ではバックエンドとフロントエンドのネットワークを統合した
統合型 クラス
タを構築して利用した。ただしアプリケーション実行時にクラスタのノード間通信や
の実行
がどのように振舞いシステム性能に影響を与えているのかなど詳しい解析は行われていない。
そこで本研究では、さまざまなデータ処理アプリケーションを実行し、システムのモニタを行
い解析することによって、
キーワード : 統合クラスタの詳しい振舞を明らかにする。
, クラスタ 並列分散処理
!
!
" " !
#
$ !
% & '!
: , ( 目次
第
第
章
序論
)!)
研究背景
)
)!*
研究目的
*
)!+
論文構成
+
章 統合型 クラスタ
*!)
第
,
*!)!)
-
.
*!)!*
/
*!*
*!+
クラスタにおける *!,
章
+!)
0
の利用
1
統合型 クラスタと性能への懸念
2
データ処理アプリケーションとその並列化
データマイニングと相関関係抽出
)3
+!)!)
アルゴリズム
)3
+!)!*
-
アルゴリズム
))
+!*
バイオインフォマティクスと 45%
))
+!+
トランザクション処理と (5
)*
(4%+
第
章
並列データマイニング実行時の評価
第
章
ストレージを強化した
対
.!)
基本性能測定
対 対 統合型 クラスタの導入 対 )/
.!*
第
第
並列データマイニング
章
高負荷をかけた環境におけるデータ処理実行時の評価
)/
対 対 /!)
66
*+
/!*
並列データマイニング
*/
/!+
複数プロセス
+3
まとめと今後の課題
章
謝辞
参考文献
発表文献
図目次
)!)
)!*
を用いた クラスタ
統合型 クラスタ
*
の階層構造
*!)
*!*
を用いた クラスタ
*!+
*
0
1
統合型 クラスタ
1
+!)
- の構造例
))
,!)
ローカルデバイス
)+
,!*
統合型 クラスタ
)+
統合型 クラスタにおける各アルゴリズムの実行結果
,!+
,!,
各クラスタにおける # アルゴリズムの実行結果
),
,!.
各クラスタにおける - アルゴリズムの実行結果
),
.!)
新しい実験環境
)/
.!*
66による " .!+
各クラスタにおける # アルゴリズムの実行時間
)1
.!,
各クラスタにおける - アルゴリズムの実行時間
)1
.!.
各クラスタにおける # アルゴリズム実行時のネットワークトラフィック
)2
.!/
各クラスタにおける - アルゴリズム実行時のネットワークトラフィック
)2
.!0
各クラスタにおける # アルゴリズムの実行時の 7 使用率
)2
.!1
各クラスタにおける - アルゴリズムの実行時の 7 使用率
)2
.!2
各クラスタにおける # アルゴリズムの実行時のメモリ使用率
*3
.!)3
各クラスタにおける - アルゴリズムの実行時のメモリ使用率
*3
と の実行結果
),
)0
/!)
対 %8) 対 )
**
/!*
対 %8* 対 )
**
/!+
対 %8, 対 )
*+
/!,
対 %81 対 )
*+
/!.
" アクセスと " アクセス
*+
/!/
66を実行したときの のネットワークトラフィック
*,
/!0
66を実行したときの % のネットワークトラフィック
*,
/!1
66を実行したときの の 7
*.
/!2
66を実行したときの % の 7
使用率
使用率
*.
/!)3 66を実行したときのストレージ 9 8% : 1 8 );
*.
/!))
それぞれのクラスタにおける # の実行時間
*0
/!)*
それぞれのクラスタにおける - の実行時間
*0
/!)+ # を実行したときの のネットワークトラフィック
*1
/!), # を実行したときの % のネットワークトラフィック
*1
/!). - を実行したときの のネットワークトラフィック
*1
/!)/ - を実行したときの % のネットワークトラフィック
*1
/!)0 # を実行したときの の 7
*2
使用率
/!)1 # を実行したときの のメモリ使用率
*2
/!)2 - を実行したときの の 7 使用率
*2
/!*3 - を実行したときの のメモリ使用率
*2
/!*) 66と # を実行させたときの実行時間
+)
/!** 66と - を実行させたときの実行時間
+)
/!*+ 66と # を実行させたときの % のネットワークトラフィック
+*
/!*, 66と # を実行させたときの の 7
+*
/!*. 66と # を実行させたときの % の 7
/!*/ 66と #
: 1 8 );
使用率
使用率
を実行させたときの % のストレージ
+*
9 8%
++
表目次
,!)
< : 9
;
)+
.!)
< : 9;
)0
)
第 章 序論
研究背景
近年、パーソナルコンピュータにおけるコモディティなハードウェアの価格低下と性能改善
が進み、大規模な科学技術計算、データベース処理やデータマイニングのようなハイパフォーマ
ンスなデータ処理アプリケーションが クラスタ上で実行されるようになっている。大規模な
クラスタにおいては、-
や
'4
のような高速な専用回線がノードとスト
レージの間のネットワークとしてよく使用されている。しかしながら、
とした 9 ;
ネットワークをベース
の出現により、コモディティな技術をベースとしたネッ
トワークだけで クラスタの構築が可能となってきている。
そこで我々は、 の代表的なプロトコルである を用いることでフロントエンド 5
とバックエンド のネットワークを統合した
統合型 クラスタの提案をしている。
そこで本稿では の一般的な使われ方を考え、% に接続する
の数を変化させる
ことにより、ネットワークと % に高負荷をかけながら、ストレージのベンチマークと複数の
並列データ処理アプリケーションを用いて
統合型 クラスタの評価を行う。
第)章
序論
*
研究目的
本稿では、爆発的に増大する情報を格納し処理するために、図 *!* のような を用いた クラスタにおいて、 を用いることで図 *!+ のようにフロントエンドとバックエンドのネット
ワークを同じネットワークに統一した
統合型 クラスタの実現を考えている。
Client
Client
front-end network
LAN
LAN&IP-SAN
Server
back-end network
SAN
Storage
図
Server(Iniator)
! を用いた クラスタ
図
Storage(Target)
! 統合型 クラスタ
このような構成にすることで、通常の を用いた クラスタでは * つのネットワークが必
要であったが、
統合型 クラスタにおいては ) つのネットワークに統合することが出
来るため、ネットワーク構築コストと管理コストの削減を目指すことが出来る。しかし、ネット
ワーク統合によるネットワークバウンドによる性能低下が懸念される。
そこで本稿では、
統合型 クラスタの有効性を実証するために、さまざまなデータ
処理アプリケーションを実行し、解析、評価を行った。まず、システムの基礎評価として、ハー
トディスクベンチマークを用いた実験を行った後、並列データ処理アプリケーションによる実験
を行った。また、 の一般的な使われ方を考慮し、
対 % を 対 ) に接続するこ
とで、% と接続ネットワークに高負荷がかかる環境においても、同様の実験を行うことで、
より現実的なシステムの評価を行った。
第)章
序論
+
論文構成
次章以降の構成は以下の通りである.
第
章 統合型 クラスタ
ネットワークストレージの代表格である と、 を
機器だけで構築する として
期待されている 、 を用いた クラスタ、そして我々が提案する
統合型 ク
ラスタとその問題点について説明する。
第
章 データ処理アプリケーションとその並列化
統合型 クラスタを評価するアプリケーションとして、データマイニング、45%、
(4%+ について説明した後、それぞれの並列化について述べる。
第
章 並列データマイニング実行時の評価
対 対 並列データマイニングを実行したときの
第
統合型 クラスタの性能評価を行った。
章 ストレージを強化した 統合型 クラスタの導入と評価実験
対 対 の % ストレージの性能を強化した クラスタを構築し、ハードディスクベンチマー
クと並列データマイニングを用いて、評価実験を行った。
第
章 高負荷をかけた環境におけるデータ処理実行時の評価
対 対 と % を 対 ) に接続し % ストレージと接続ネットワークに高負荷をかけた環境
において、ハードディスクベンチマークと複数のデータ処理アプリケーションを使用し、システ
ムの動作解析を行った。
第
章 まとめと今後の課題
本研究のまとめを述べる。
,
第 章 統合型 クラスタ
本章では、ネットワークストレージの代表格である と、 を
として期待されている 機器だけで構築する
、 を用いた クラスタ、そして我々が提案する
統合型 クラスタとその問題点について説明する。
近年、情報システムにおいて処理されるデータの量が膨大になってきたことから、ストレージ
分野においてネットワークストレージ技術が発展し、サーバとストレージを結ぶネットワークで
ある が登場して、普及するようになった。# 分野では、 クラスタの記憶装置におい
て、計算ノード−ストレージ間のバックエンドのネットワークに を用いることが多くなって
いる。
とはサーバとストレージを高速に接続する専用ネットワークのことで、サーバとストレー
ジを「:」で接続することが可能となる。またこれにより、ストレージの統合と集中管理が実
現した。 自体はその上に位置するプロトコルやファイルシステムを意識しない。オープンシ
ステムでは, プロトコルを用い、データを「ブロック」という単位でストレージに対して読
み書きするのが一般的だが、 ではファイバチャネル 9-
:-;
や
プロトコル
を プロトコルと対応づけることで、 内でデータの読み書きを実現することができる。
したがって、 は「ブロックレベルの通信を仲介するネットワーク」と表現できる。 は
ファイルシステムに対して透過的で、サーバは自身が認識できるファイルシステムでストレージ
内のボリュームをフォーマットし、 の先に存在する外部ストレージに内蔵ディスクと同じよ
うにアクセスできる。
¯ メリット
"
他のストレージソリューションに比べて高性能
第*章
"
"
"
"
"
"
"
統合型 クラスタ
.
ディスク容量の拡大に対するスケーラビリティが優れている
高可用性を実現しやすい(堅牢性、仮想化)
ストレージ統合による % 削減効果が高い
5
フリーサーバーフリーのバックアップを実現できる
異機種混在(ヘテロジニアス)環境でのデータ共有が容易
ディザスタリカバリリモートミラーリングを実現しやすい
運用管理性が向上する
¯ デメリット
"
異なるファイルシステムを持つサーバー間ではデータ共有が難しくなる
には「ファイバチャネル」と呼ばれるシリアル トワークを利用する「
で接続する「-」と、
ネッ
」がある。次にこれらについて説明をしていく。
- は現在 の中で広く使用されているもので、サーバとストレージ間をファイバチャ
ネルで接続する。5 から独立したストレージ専用のネットワークを構築して、ストレージと
サーバを - で相互接続することにより、効率的なストレージの統合管理や、柔軟な運用を実現
することを目的としたストレージ接続形態である。「- によるストレージネットワーク」という
「新規のインフラ」を構築する必要がある。- は高速でかつ信頼性の高いデータ伝送に適
した設計になっている。
¯ メリット
"
"
"
複数サーバからのディスク使用ニーズに対し柔軟に対応できる
帯域幅の利用率が良く、高速で信頼性の高い通信が可能
頻繁にデータの読み書きを要求するようなデータベースや、大容量データの取り扱い
に適している
"
独自のストレージネットワークを構築するので、既存のネットワークに影響を与えない
第*章
統合型 クラスタ
/
¯ デメリット
"
"
"
"
新しいインフラを構築するので、(、 に比べ導入コストの負担が大きくなる
ストレージネットワークを管理するためのソフトウェアの導入が必要
-
などの管理スキルを習得する必要がある
データ共有実現が困難
は <
と %
を用いて構築するもので、5 に代表される通信技術をその
ままストレージ・ネットワークに利用することができる.
を抑えることができる。
は - と比べ導入コスト
のネットワークインフラとして、通常のネットワークで使われ
るアダプタやスイッチの流用が可能であるからだ。
また、ディザスタリカバリアプリケーションの実現が可能である。- には高速性や、信
頼性という大きなアドバンテージがあるが、ディザスタリカバリのアプリケーションを意識した
場合、距離の制約のない
の技術は必須ともいえる。
そしてセキュリティ技術のストレージネットワークへの展開も期待される。- の領域に
おいてもセキュリティに関する要求は高まりつつあり、セキュリティ技術を盛り込んだ製品の出
荷も始まっている。しかし現時点においては、ネットワーク技術の概念でとらえた場合、
トワークのセキュリティ技術の方が成熟しており、選択肢も幅広い。
¯ メリット
"
"
"
"
接続性が高い
データ共有実現が容易
なので将来性が非常に高い
接続距離に制限がない
¯ デメリット
"
対応ストレージ製品がまだ少ない
ネッ
第*章
統合型 クラスタ
0
で使用されるプロトコルとして、-
;、 9 ;
9- ;、-9 -
の + つがある。
の代表的なプロトコルに =)>
がある。 は コマンドを %
トでカプセル化する規格で、 により を
パケッ
機器だけで構築することが可能となる。一
方で図 *!) のように複雑な階層構成をとることになり、下位のプロトコルの限界性能を超えるこ
とはできない。また、 には長距離アクセスの実現が期待されているが、ギガビットクラス
の太い回線を用いた場合の遅延帯域積の問題も指摘されている。そこで における性能や信
頼性を向上する手法の実現が求められている。 の性能についての議論が数多くされている
=*>=+>=,>。
S erver (Initia tor)
Applica tion
S tora ge (T a rget)
F ile s ys tem
B lock/chara cter
device
S C S I driver
S C S I driver
iS C S I driver
iS C S I driver
TCP
TCP
IP
IP
E thernet driver
E thernet driver
E thernet
E thernet
IP
IP-S
-SAN
AN
図
の標準化は,
! の階層構造
<%- 9 < % -
; の ?
@
で行
われており、すでに *33+ 年に )!3 の標準化が完了している。 対応製品は、多くのベンダーが
発売を始めている状況で、少しずつ日本国内でも導入事例が広がりつつある。5 については
各ストレージベンダーが ドライバを提供しており、?
の 専用 の ?
*33+ でも がサポートされている状況である。米国では数多くの事例がある
ことからも、今後日本での普及に弾みがつくものと考えられている。
第*章
統合型 クラスタ
1
クラスタにおける の利用
図 *!* は、 を用いて構築した クラスタの例である。現在、 としては、- が
普及している。一般に、ディスクへの
処理を行うストレージアクセスはノード間通信と比べ
てバースト性が高く、転送データ量が多いため、計算ノード 9サーバ; −ストレージ間のバックエ
ンドには高速な - を用いることが多い。しかし - には、先に述べたように、- 用
のスイッチが高価であることなど、 クラスタに導入して管理するにはコスト面で障害がある。
Client
front-end network
LAN
Server
back-end network
SAN
Storage
図
! を用いた クラスタ
Client
LAN&IP-SAN
Server(Iniator)
図
は、% Storage(Target)
! 統合型 クラスタ
ネットワークで を構築する次世代の である。図 *!* に示す クラスタにおいて、- を用いて構築する従来の に代わり、バックエンドのネットワークを
で構築することにより、安価なコストで クラスタのストレージを導入、運用が出来
る。今後、@ <)3@ < が広く普及していくであろうことを考慮すると、
をバックエンドに持つ クラスタが使用されるようになると考えられる。
第*章
統合型 クラスタ
2
統合型 クラスタと性能への懸念
我々は、図 *!+ に示すように、計算ノード 9サーバ; −ストレージ間のバックエンドネットワー
クを、ノード間を接続するフロントエンドに統合した 接続の
統合型 クラスタ
を提案し、評価を行っている。
を使用した クラスタでは、一般にフロントエンド 5 とバックエンド 9
;
別々になっているため、* つの異なるネットワークの構築が必要になる。これに対し、
合型 クラスタでは、 を使用することで、双方のネットワークを %
が
統
と < を
用いたコモディティなネットワークに統一することができる。それにより、ネットワーク構築コ
ストの削減と運用管理の効率化が可能となる。
しかし、 統合型 クラスタは、フロントエンドにおけるノード間通信とバックエンド
のストレージアクセスにおけるバルクデータが、%
< である同一のネットワー
ク経由で混在して転送される。そのため、フロントエンドとバックエンドのネットワークを個々
に構築する非統合型と比較して、並列分散処理実行時のネットワークへの負荷が懸念される。例
えば、ノード間通信とストレージアクセスで同じネットワークリソースを使用するため、互いに
衝突する可能性がある。その結果、ストレージアクセスのバルクデータにより並列計算のための
ノード間通信が多大な影響を受け、全体の性能が劣化する可能性が推測される。従って、バック
エンドネットワークをフロントエンドネットに統合した
統合型 クラスタは、非統合
型 クラスタと比較して、統合がどの程度性能に影響を及ぼすかを評価する必要がある。
)3
第 章 データ処理アプリケーションとその
並列化
クラスタで行われる計算として、主にデータ処理が挙げられる。 クラスタ上でデータ
処理を実行させるには並列化が必要となってくる。本稿では、代表される + つのデータ処理アプ
リケーションを紹介し、それらの並列化について述べる。
データマイニングと相関関係抽出
相関関係抽出では、巨大なデータから有益な規則性や関係を抽出するために、あるパターンが
現れる頻度 9サポート値; を調べる。その頻度が多ければ、そのパターンから得られる関係は有意
義な情報となり、販売戦略などに活用出来る。
相関関係抽出で扱うデータはしばしば巨大であるため、データベースを分散し計算処理を並列
化して、多数台のコンピュータをネットワークで接続した クラスタなどの環境でマイニング
処理を実行する並列相関関係抽出の研究が行われている =0>。以下に相関関係抽出の代表的な * つ
のアルゴリズムの概要を説明し、本研究で用いる並列化アルゴリズムを紹介する。
)22,
アルゴリズム
年に らによって提案されたもので、発見された頻出アイテムセットから候補ア
イテムセットを生成し、繰り返し数え上げを行っていくアルゴリズムである =.>。
アルゴリズムには、候補アイテムセットを格納するために大容量のメモリが必要とな
る、何度も繰り返しデータベースをスキャンする可能性があるといった問題点がある。
をベースにした並列相関関係抽出のアルゴリズムはいくつか提案されているが、本研究
ではハッシュ関数を使用して を並列化する #
9# ;=/> を用いる。
第+章
データ処理アプリケーションとその並列化
))
アルゴリズム
*333 年に # らによって提案されたもので、巨大なトランザクションデータベースから相関
関係抽出に必要な情報をコンパクトに圧縮したデータ構造である - を利用している =0>。候
補パターンを生成せずに頻出パターンを抽出することで、
アルゴリズムの問題点を改善し
たアルゴリズムである。
-
は構築された - の性質を利用することにより、頻出パターンを発見していくア
ルゴリズムである。図 +!) に - の構築例を示す。-
の並列相関関係抽出のアルゴリ
TID
Items
Frequent Items
100
f,a,c,d,g,i,m,p
c,f,a,m,p
200
a,b,c,f,l,m,o
c,f,a,b,m
300
b,f,h,j,o
f,b
400
b,c,k,s,p
c,b,p
500
a,f,c,e,l,p,m,n c,f,a,m,p
item
frequency
c
4
f
4
a
3
b
3
m
3
p
3
図
root
c:4
f:1
f:3
b:1
a:3
p:1
m:2
b:1
p:2
m:1
b:1
head
! #
の構造例
ズムは、本研究では # を元に行われた既存研究 =1> で提案された -9& -
;
を用いる。
-
アルゴリズムは アルゴリズムと比較して極めて高速であると言われている。
ただしデータの性質によっては、- が巨大になってしまう可能性のある点が問題である。
バイオインフォマティクスと バイオインフォマティクスは、遺伝子情報の分析や活用により、実際に生命のシステムの、少
なくともその一部を、コンピュータの中に再現することを可能にしようと試みている。
第+章
データ処理アプリケーションとその並列化
)*
バイオインフォマティクスの手法として、問い合わせ配列 9核酸 またはアミノ酸配列; と相同性
の高い配列が (49データベース; に存在するかどうかを配列 (4 全体にわたって検索する相同性検
索がよく用いられる。相同性検索としてよく利用されるものに、45%94
%
; があり、これは (
5
の塩基配列あるいはタンパク質のアミノ酸配列のシーケンス
で、ペアワイズのシーケンスアライメントを実行するものである。
バイオインフォマティクスで扱うデータも巨大であるため、並列化してデータを処理すること
が求められる。45% を並列化したものに、A 環境で 45% を実行する 45% があり、
これをを本研究で用いる =2>。
トランザクション処理と トランザクション処理は関連する複数の処理をまとめて,一つのユニットとして実行する処理
方式であり、相互依存のある複数の操作が全て完了するか、全てキャンセルされることを保証す
ることでデータベースの一貫性を保つものである。
大規模なトランザクション処理を実行する際の性能を測定するベンチマークとして代表的なも
のに %9%
;#=)3> がある。%# は意思決定支援シ
ステムの評価を目的としており、データベースに対する複雑またはアドホックなクエリ処理とデー
タ更新を中心にしたテストベンチマークである。本研究では、%# と同等の処理を行う分析系
のアプリケーションをモデルとしたベンチマークである (5 (4%+9 (
5 ( 4 %
; を利用し、データベース並列化環境を クラスタに導入する
ことで、並列トランザクションデータ処理を行い、システムを評価する。
)+
第 章 並列データマイニング実行時の評価
対 対 #
アルゴリズムと - アルゴリズムの並列化プログラムについて、アイテム数を )333 と
し、トランザクション数が )A、*A、,A、1A、)/A のトランザクションデータを用い、最小サ
ポート値を 3!0 %として、ローカルデバイス 9 ディスク; を用いた クラスタ、
統
合型 クラスタで実行し、そのときの実行時間をそれぞれ測定した。実験には図 ,!) のように
, 台の を @ < で接続した クラスタを用いる。 を用いる場合には、図
,!* のように ターゲット用の がもう , 台接続されている。
OCUVGT
PQFG
OCUVGT
PQFG
)KICDKV
'VJGTPGV
5YKVEJ
)KICDKV
'VJGTPGV
5YKVEJ
5%5+
図
PQFG
UVQTCIG
KPKVKCVQT
VCTIGV
! ローカルデバイス
表 ,!) にクラスタノードのスペックを示す。
図
! 統合型 クラスタ
と % とも同じスペックのマシンを用
いた。
表
! $%&'( )&:
*()(
!"
##
"
第,章
並列データマイニング実行時の評価 9
対 %:) 対 );
),
図 ,!+ に同じ大きさのトランザクションデータにおける * つのアルゴリズムの実行時間を示す。
この結果から、明らかに - アルゴリズムの方が速いことがわかる。これは、# アルゴリズ
ムが頻出アイテムセットから候補アイテムセットを作るという動作を、データの大きさに関係な
く何度も繰り返し行っているためである。反対に - アルゴリズムはデータの大きさによって、
- の大きさが変わるため、良い結果が出たと考えられる。
1400
1200
(s)
1000
800
HPA
PFP
600
400
200
0
1M
図
2M
4M
トランザクションデータ
8M
! 統合型 クラスタにおける各アルゴリズムの実行結果
図 ,!, に # アルゴリズム、図 ,!. に - アルゴリズムのそれぞれのクラスタにおける実行時
間を示す。この結果から、どのクラスタにおいても実行時間はほとんど変わらなかった。
統合型 クラスタは、バックエンドとフロントエンドで同じネットワークを使用するため性能
が落ちる可能性が予想されたが、性能は変わらないということが分かった。
1200
1200
1000
1000
800
local SCSI
iSCSI
iSCSI
600
400
(s)
(s)
800
400
200
200
0
10KB
20KB
40KB
80KB
160KB
0
1M
トランザクション
!
local SCSI
iSCSI
600
図
各クラスタにおける
の実行結果
2M
4M
8M
トランザクションデータ
16M
+
アルゴリズム 図 ! 各クラスタにおける #
アルゴリズムの
実行結果
).
第 章 ストレージを強化した 統合
型 クラスタの導入 対
対 前章における実験結果より、# プログラムと - プログラムどちらのアルゴリズムにお
いてもどの クラスタも同程度の性能であることが分かった。フロントエンドとバックエンド
のネットワークを同じネットワークに統合することで、ノード間通信とストレージアクセスが互
いに衝突するため、全体の性能が劣化する可能性が考えられたが、実験結果から性能が劣化しな
かった。
そこでネットワーク越しにストレージへアクセスする
を使いながらも性能が落ちなかっ
た原因を解明するため、ノード間通信とネットワークストレージアクセスを並行して複数のプロ
セスにより動作させ、ネットワークに高負荷をかけ、性能への影響を評価した =))>。その結果、
ネットワークと比較してローカルストレージの帯域幅が低いことなどによりネットワーク帯域に
余裕があるため、
統合型 クラスタの性能が落ちないということが分かった。
そこで本章では、以前の実験環境よりもストレージ性能を強化した新しい
統合型 クラスタを構築した。その際に、クラスタ管理システムである B
=)*> を用いた。アクセス性
能が良いとされる ディスクをデータの読み書きを高速化する B
(3 で構成することで、図
.!) のように、より高性能なストレージを実現した。このように構築した新しい環境において、並
列相関関係抽出アルゴリズムをローカルデバイスを用いた クラスタおよび
統合型 クラスタ上でそれぞれ実行し、その時の通信状況をモニタリングツールである @=)+> を用い
て観察することで、
統合型 クラスタの動作解析を行った。
第 . 章 ストレージを強化した
Storage
(SATA)
統合型 クラスタの導入 9 対 %:) 対 );)/
Storage
(SATA)
Storage
(SATA)
Storage
(SATA)
・・・・・
CPU
CPU
CPU
Initiator
CPU
ネットワーク
ネットワーク
Storage
Storage
(SAS:RAID0) (SAS:RAID0)
Storage
Storage
(SAS:RAID0) (SAS:RAID0)
Target
・・・・・
図
! 新しい実験環境
基本性能測定
まず、今回新しく導入したディスクの基本性能を測定するために、ハードディスクベンチマー
クの 66=)/> を用いて、% ディスクと ディスク 9B
イス、および ディスク 9B
(3 構成; であるローカルデバ
(3 構成; を % ストレージとして と % を ) 対 )
接続させた の計 + 種類のストレージについて "
と " を測定し
た。その結果を図 .!* に示す。
この結果から、ローカルディスクとして ディスク 9B
(3 構成; を用いた場合の性能が格
段に良いことが分かる。また、 を用いた通信の方がローカルディスクとして % ディス
クを用いた場合よりも性能が良いことが分かる。これらにより、今回高性能のディスクを
統合型 クラスタに導入できたということが確認できた。
並列データマイニング
#
アルゴリズムと - アルゴリズムの並列化プログラムについて、アイテム数を )333 と
し、トランザクション数が )A、*A、,A、1A のトランザクションデータを用い、最小サポート
値を 3!0 %として実行した。プラットフォームとしては、ローカルデバイス 9 ディスク B
(3
第 . 章 ストレージを強化した
統合型 クラスタの導入 9 対 %:) 対 );)0
MB/ se c
250
200
150
Sequential write
Sequential read
100
50
0
local SATA
図
local SAS(RAID0)
iSCSI
! ,--による .)( と の実行結果
構成; を用いた クラスタ、ローカルデバイス 9% ディスク; を用いた クラスタ、 統合型 クラスタで実行し、実行時間をそれぞれ測定して、そのときのネットワークトラフィッ
ク、7 使用率、メモリ使用率をモニタリングした。実験には 1 台の を @
接続した クラスタを用いる。
を用いる場合には、
< で
ターゲット用の がもう 1
台接続されている。表 .!) にクラスタノードのスペックを示す。また、 のイニシエータとし
表
! $%&'( )&:
*()
$ !
%& $ !
$ ' %& $ ()* ' $ "
%& $ "
##
$ +" ,%,
%& $ " , × -.,# +/
て *!31/.、ターゲットとして < %9 <%;3!,!).
を使用した。
図 .!+ に # アルゴリズム、図 .!, に - アルゴリズム実行時の各クラスタにおける実行時間
を示す。
この結果から、# においてはどのクラスタにおいても実行時間はほとんど変わらず、- に
おいてはベンチマークで格段に性能が良かった ディスクを用いた クラスタの実行時間が
第 . 章 ストレージを強化した
統合型 クラスタの導入 9 対 %:) 対 );)1
(S)
300
250
200
150
100
50
0
1M
2M
4M
トランザクション
8M
memory2G(SASディスク RAIO0)
memory4G(SATAディスク)
memory4G+iSCSI(Initijator:SATA,Target:SAS )
図
! 各クラスタにおける +
アルゴリズムの実行時間
(S)
40
35
30
25
20
15
10
5
0
1M
2M
4M
トランザクション
8M
memory2G(SASディスク RAIO0)
memory4G(SATAディスク)
memory4G+iSCSI(Initijator:SATA,Target:SAS )
図
! 各クラスタにおける #
アルゴリズムの実行時間
一番遅く、あとの * つのクラスタにおいてはほとんど変わらないということが分かった。
図 .!. に # アルゴリズム、図 .!/ に - アルゴリズム実行時の各クラスタにおけるネット
ワークトラフィックを示す。
この結果から、どちらのアルゴリズムにおいてもどのクラスタもネットワークの帯域にはまだ
余裕があることが分かる。 を用いた場合も、 のトラフィックはネットワークにあま
り大きな影響を与えていない。バックエンドネットワークをフロントエンドネットに統合しても
ネットワークの帯域を使い切ることはなく、
統合型 クラスタが有効であることが分
かった。
図 .!0 に #、図 .!1 に - アルゴリズム実行時の各クラスタにおける 7 使用率を示す。
第 . 章 ストレージを強化した
統合型 クラスタの導入 9 対 %:) 対 );)2
Memory2G + SASデ ィ ス ク( RAID0 ) Memory2G + SASデ ィ ス ク( RAID0 ) Memory4G + SATAディスク
Memory4G + SATAディスク
Memory4G + iSCSI ( Initiator : SATA , Target : SAS )
Memory4G + iSCSI ( Initiator : SATA , Target : SAS )
!
+
!
#
図
各クラスタにおける
アルゴリズム 図
各クラスタにおける
アルゴリズム実
実行時のネットワークトラフィック
行時のネットワークトラフィック
Memory2G + SASデ ィ ス ク( RAID0 ) Memory2G + SASデ ィ ス ク( RAID0 ) Memory4G + SATAディスク
Memory4G + SATAディスク
Memory4G + iSCSI ( Initiator : SATA , Target : SAS )
Memory4G + iSCSI ( Initiator : SATA , Target : SAS )
!
図
各クラスタにおける
の実行時の
使用率
/
+
アルゴリズム 図 0! 各クラスタにおける #
アルゴリズムの
実行時の / 使用率
第 . 章 ストレージを強化した
統合型 クラスタの導入 9 対 %:) 対 );*3
この結果から、# においてはトランザクション数を多くした場合には、どのクラスタ上で
実行させた際も 7 をほぼ )33 %使用しており、- においてはまだ 7 に余裕があること
が分かる。これは、# では頻出アイテムセットから候補アイテムセットを生成していくことを
繰り返すので、この過程において計算量が増えるためであると考えられる。それに対し、- は
-
の構築が出来れば、そこから頻出アイテムを見つけていくのはあまり計算量が多くなら
ないため、7 にあまり負荷がかからないためであると考えられる。
図 .!2 に # アルゴリズム、図 .!)3 に - アルゴリズム実行時の各クラスタにおけるメモリ
使用率を示す。
Memory2G + SASデ ィ ス ク( RAID0 ) Memory2G + SASデ ィ ス ク( RAID0 ) Memory4G + SATAディスク
Memory4G + SATAディスク
Memory4G + iSCSI ( Initiator : SATA , Target : SAS )
Memory4G + iSCSI ( Initiator : SATA , Target : SAS )
!
図
各クラスタにおける
の実行時のメモリ使用率
+
アルゴリズム 図 !
各クラスタにおける
の実行時のメモリ使用率
#
アルゴリズム
この結果から、,@4 のメモリを搭載しているノードがその多くを消費しているケースがあり、
メモリ使用率の性能への影響が考えられる。
以上の結果から、# においてはどのクラスタにおいても性能はほとんど変わらず、- に
おいてはベンチマークで格段に性能が良かった ディスクを用いたクラスタの性能がやや劣る
というこが分かった。また、ネットワークトラフィックのモニタリングにより、今回の実験では
のトラフィックを統合してもネットワークの帯域にまだ十分余裕があることが分かった。
これらから、今回使用した # のプログラムはディスクアクセスの性能やメインメモリ容量の
第 . 章 ストレージを強化した
統合型 クラスタの導入 9 対 %:) 対 );*)
影響を受けにくく、また、- のプログラムはディスクアクセスの性能の影響は受けにくいが、
メインメモリ容量の影響を受けやすいと考えられる。したがって、 統合型 クラスタは
どちらのプログラムを実行させたときでも有効であると言える。
**
第 章 高負荷をかけた環境におけるデータ
処理実行時の評価 対
対 これまでの実験においては、
統合型 クラスタの と % を ) 対 ) 接続し
ていたが、 の用いられ方を考えると、数台の
が ) 台の % にアクセスする形が
一般的であると考えられる。その際には % およびその接続ネットワークにトラフィックが集
中し、高い負荷がかかる。
そこで本章では、既存研究で構築したストレージ性能を強化した クラスタ上で、よりネッ
トワークに高負荷がかかる環境を作り、並列相関関係抽出のアルゴリズムをローカルデバイスを
用いた クラスタおよび
統合型 クラスタ上でそれぞれ実行する。その時の通信状
況を @ を用いて観察することで、
は以下の図 /!) から図 /!, のように
統合型 クラスタの動作解析を行う。具体的に
と % を 対 ) で接続させることでネットワーク
に高負荷をかける。
master
node
master
node
Gigabit
Ethernet
Switch
Gigabit
Ethernet
Switch
SAS
(RAID0)
Initiator
(Server)Target
(Storage)
図
SAS
(RAID0) ・・・・・
・・・・・
! 対 ! 対 Initiator Target
(Server)(Storage)
図
! 対 ! 対 第/章
高負荷をかけた環境におけるデータ処理実行時の評価 9
対 %: 対 );
master
node
master
node
Gigabit
Ethernet
Switch
Gigabit
Ethernet
Switch
SAS
(RAID0)
SAS
(RAID0)
Initiator
(Server)
図
*+
Initiator
(Server)
Target
(Storage)
! 対 ! 対 図
Target
(Storage)
! 対 !0 対 まず、複数
から単数 % にアクセスすることで、ネットワークと % に高負荷
をかけた実験システムの評価をハードディスクベンチマークツールである =)/> を用いて行った。
B (3 で構成された ディスクを用いたローカルデバイスと ディスクを トレージとした アクセスにおけるの "
図 /!. に % における
アクセスと アクセスを測定した。
からのアクセスの合計スループットを示す。
250
200
Throughput
[MB/s]
150
read
100
write
50
0
local
1:1
2:1
4:1
8:1
Numbers of initiators versus target
図
の % ス
! .)( アクセスと .)( アクセス
第/章
高負荷をかけた環境におけるデータ処理実行時の評価 9
対 %: 対 );
*,
図 /!. の結果から、まずローカルアクセスと アクセスを比較した結果、ローカル が
極めて速いことから、
はその半分以下に留まっているが、ローカル と比較して
はその *+ 近い性能が出ている。また、" アクセスの場合においては、)
対 )、* 対 )、, 対 )、1 対 ) のどの場合においても合計スループットは殆んど変わらず、"
アクセスの場合においては、) 対 )、* 対 )、, 対 )、1 対 ) と負荷を高くしていくごとにス
ループットがやや低下するということがわかる。
次に、図 /!/ に
のネットワークトラフィック、図 /!0 に % のネットワークトラフィッ
クを示す。
I n i t i a t o rT a r g e t : 11
Iniator Target 1 1
I n i t i a t o rT a r g e t : 21
Iniator Target 㧞 1
I n i t i a t o rT a r g e t : 41
Iniator Target 4 1
I n i t i a t o rT a r g e t : 81
Iniator Target 8 1
! ,--
図
を実行したときの
ネットワークトラフィック
の 図 ! ,--を実行したときの の
ネットワークトラフィック
これれの結果から、どの場合においても最大 /3A9約 .33A; のトラフィックしか流
れておらず、本実験では @
< を使用しているため、ネットワーク帯域にはまだ余裕
があることがわかる。) 台の % が処理するデータ量が ) 対 )、* 対 )、, 対 )、1 対 ) と負荷を
高くしていくごとに増加していくため、処理時間が長くなっているが、図 /!0 に示されるように
% のネットワークトラフィックの最大値はどの場合もほぼ一定であり、ネットワークにはそ
れ以上の負荷はかかっていないことがわかる。
次に、図 /!1 に
の 7 使用率、図 /!2 に % の 7 使用率、図 /!)3 に と
第/章
高負荷をかけた環境におけるデータ処理実行時の評価 9
対 %: 対 );
*.
% を 1 対 ) に接続したときの % のストレージ をそれぞれ示す。
I n i t i a t o rT a r g e t : 11
Ini ator Targ et 1 1
I n i t i a t o rT a r g e t : 21
Ini ator Targ et 㧞 1
I n i t i a t o rT a r g e t : 41
Ini ator Targ et 4 1
I n i t i a t o rT a r g e t : 81
Ini ator Targ et 8 1
0! ,--を実行したときの の 図 ! ,--を実行したときの の
/ 使用率
/ 使用率
図
120
100
80
I/O
Throughput
[MB/s]
60
read
40
write
20
0
0
1720
3300
4900
me[S]
図
! ,--を実行したときのストレージ 12 ! 0 ! 7 使用率の結果から、 と % のどちらとも、負荷が高くなるにつれて実行時間が
長くなり、% にアクセスが集中した場合においても 7 は実行時間に比べて待ち時間が長
第/章
高負荷をかけた環境におけるデータ処理実行時の評価 9
対 %: 対 );
*/
く、ストレージアクセスのための 7 処理にはまだ余裕があると言える。これに対し、図 /!2 に
示された % の 7 の待ち時間もそれに伴い長くなっている。図 /!)3 の結果から、ストレー
ジ
は最大限に行われており、これがボトルネックとなっていると考えれる。
以上の結果から、"
アクセスの場合においては、) 対 )、* 対 )、, 対 )、1 対 ) の
どの場合においてもスループットは変わらず、"
アクセスの場合においては、) 対
)、* 対 )、, 対 )、1 対 ) と負荷を高くしていくごとにスループットが低下するということがわかっ
た。ネットワークにはまだ余裕があり、7 も待ち時間が長い状態であるが、パケット
トルネックとなり、% にアクセスを集中させた場合の "
がボ
アクセスの性能が低
下していると考えられる。
並列データマイニング
次に、実アプリケーションを用いて、複数
から単数 % にアクセスしたときの 統合型 クラスタの評価を行った。# アルゴリズムと - アルゴリズムの並列データマイ
ニングプログラムについて、アイテム数を )333 とし、トランザクション数が )A、*A、,A、1A
のトランザクションデータを用い、最小サポート値を 3!0 %として実行した。プラットフォーム
としては、先の 4
66実験時と同じ環境を用いた。
図 /!)) に # アルゴリズム、図 /!)* に - アルゴリズム実行時の各クラスタにおける実行
時間を示す。
この結果から、#、- どちらのアルゴリズムにおいても、どの接続方式においても実行時
間はほとんど変わらないことがわかる。
# アルゴリズム実行時の各接続方式における と % のネットワークトラフィック
をそれぞれ図 /!)+ と図 /!), に、- アルゴリズム実行時の各接続方式における
と %
のネットワークトラフィックをそれぞれ図 /!). と図 /!)/ に示す。
ネットワークトラフィックのモニタリングの結果から、どちらのアルゴリズムにおいてもネッ
トワークの帯域にはまだ余裕があることがわかる。 を用いた場合も、 のトラフィック
はネットワークにあまり大きな影響を与えておらず、バックエンドネットワークをフロントエン
ドネットに統合してもネットワークの帯域を完全に使い切ることはない。
# アルゴリズム実行時の各接続方式における の 7 使用率とメモリ使用率をそれ
第/章
高負荷をかけた環境におけるデータ処理実行時の評価 9
対 %: 対 );
*0
300
250
200
1M
(S) 150
2M
4M
100
8M
50
0
local
図
11
21
41
81
! それぞれのクラスタにおける +
の実行時間
40
35
30
25
1M
(S) 20
2M
15
4M
8M
10
5
0
local
図
11
21
41
81
! それぞれのクラスタにおける #
の実行時間
ぞれ図 /!)0 と図 /!)1 に、- アルゴリズム実行時の各接続方式における
の 7 使用率
とメモリ使用率をそれぞれ図 /!)2 と図 /!*3 に示す。
これらの結果から、# においては何回もデータベーススキャンを繰り返し行うため、 の 7 使用率が高くなっており、同時にストレージ
においては、計算量が少ないため、あまり
の量も多くなっていることがわかる。-
の 7
が使われておらず、ストレージ
も少ないことがわかる。また、どちらの場合においても、% の 7 はほとんど使用されて
第/章
高負荷をかけた環境におけるデータ処理実行時の評価 9
対 %: 対 );
*1
I n i t i a t o rT a r g e t : 11
I n i t i a t o rT a r g e t : 11
I n i t i a t o rT a r g e t : 21
I n i t i a t o rT a r g e t : 21
I n i t i a t o rT a r g e t : 41
I n i t i a t o rT a r g e t : 41
I n i t i a t o rT a r g e t : 81
I n i t i a t o rT a r g e t : 81
! +
図
を実行したときの
トワークトラフィック
のネッ 図 ! +
を実行したときの のネッ
トワークトラフィック
I n i t i a t o rT a r g e t : 11
I n i t i a t o rT a r g e t : 11
I n i t i a t o rT a r g e t : 21
I n i t i a t o rT a r g e t : 21
I n i t i a t o rT a r g e t : 41
I n i t i a t o rT a r g e t : 41
I n i t i a t o rT a r g e t : 81
I n i t i a t o rT a r g e t : 81
! #
図
を実行したときの
トワークトラフィック
のネッ 図 ! #
を実行したときの のネット
ワークトラフィック
第/章
高負荷をかけた環境におけるデータ処理実行時の評価 9
対 %: 対 );
*2
I n i t i a t o rT a r g e t : 11
I n i t i a t o rT a r g e t : 11
I n i t i a t o rT a r g e t : 21
I n i t i a t o rT a r g e t : 21
I n i t i a t o rT a r g e t : 41
I n i t i a t o rT a r g e t : 41
I n i t i a t o rT a r g e t : 81
I n i t i a t o rT a r g e t : 81
! +
を実行したときの の 図 0! +
を実行したときの のメ
モリ使用率
/ 使用率
図
I n i t i a t o rT a r g e t : 11
I n i t i a t o rT a r g e t : 11
I n i t i a t o rT a r g e t : 21
I n i t i a t o rT a r g e t : 21
I n i t i a t o rT a r g e t : 41
I n i t i a t o rT a r g e t : 41
I n i t i a t o rT a r g e t : 81
I n i t i a t o rT a r g e t : 81
! #
を実行したときの の 図 ! #
を実行したときの のメモ
リ使用率
/ 使用率
図
第/章
高負荷をかけた環境におけるデータ処理実行時の評価 9
対 %: 対 );
+3
いない。
以上の結果から、# アルゴリズムと - アルゴリズムのどちらの場合においても、
統合型 クラスタにおいて % にアクセスを集中させた場合の性能はほとんど変わらないと
いうことがわかった。また、ネットワークトラフィックのモニタリングにより、今回の実験では
のトラフィックを統合してもネットワークの帯域にまだ十分余裕があることがわかった。
これらは、今回使用した # のプログラム、- プログラムどちらの場合においても、ノード間
通信やストレージアクセスといった処理だけでなく、これは計算処理が主に行われており、ノー
ド間通信とストレージアクセスを行うパケットの衝突がネットワーク上であまり起こることがな
いためだと考えられる。
複数プロセス
次に、複数プロセスを用いて、複数
から単数 % にアクセスしたときの 統合
型 クラスタの評価を行った。
66を実行させながら # アルゴリズムと - アルゴリ
ズムの並列データマイニングプログラムについて、アイテム数を )333 とし、トランザクション数
が )A、*A、,A、1A のトランザクションデータを用い、最小サポート値を 3!0 %として実行し
た。プラットフォームとしては、先の実験時と同じ環境を用いた。
図 /!*) に 66を実行させたながら # プログラムを実行させたときの実行時間を、図
/!** に 66を実行させたながら - プログラムを実行させたときの実行時間を示す。
先ほどの実験と異なり、# と - どちらの場合においても、高負荷をかけたときに実行時
間が長くなっている。さらに、) 台の % に接続される
の数増えるにつれて実行時間
が長くなっている。
図 /!*+ に 66を実行させながら # を実行させたときの % のネットワークトラ
フィックを示す。
この結果から、先の実験と同様に、% のネットワークスループットは最大 /3A
9約 .33A;
であり、ネットワーク帯域にはまだ余裕があることがわかる。したがって、スト
レージアクセスとデータマイニングを同時に実行することで高負荷をかけても、ネットワークの
性能には影響を与えることはない。
図 /!*, に
の 7 使用率、図 /!*. に % の 7 使用率、図 /!*/ に
と
第/章
高負荷をかけた環境におけるデータ処理実行時の評価 9
対 %: 対 );
+)
700
600
Number of
Transacon
500
400
Execuon
Times[S] 300
1M
2M
4M
200
8M
100
0
1:1
2:1
4:1
8:1
Number of iniators versus target
図
! ,--と +
を実行させたときの実行時間
700
600
Number of
Transacon
500
400
Execuon
Times[S] 300
1M
2M
4M
200
8M
100
0
1:1
2:1
4:1
8:1
Number of iniators versus target
図
! ,--と #
を実行させたときの実行時間
% を 1 対 ) に接続させたときのストレージ をそれぞれ示す。
図 /!*, に示すように、単数
から単数 % にアクセスしたときは、 のC7<B
7Cが高くなり、ストレージアクセスとデータマイニングが忙しく実行されていることがわか
る。そのときの % の 7 は図 /!*. から
それに対して、単数 % に接続する
どんとがC?
レスポンス待ち状態であると考えられる。
の数が増えていくと、 も %
もほ
% 7Cとなっており、図 /!*/ の結果からこの場合はストレージ負荷が高くなって
第/章
高負荷をかけた環境におけるデータ処理実行時の評価 9
対 %: 対 );
+*
Iniator Target 1 1
Iniator Target 㧞 1
Iniator Target 4 1
Iniator Target 8 1
図
! ,--と +
を実行させたときの のネットワークトラフィック
Ini ator Targ et 1 1
Ini ator Targ et 1 1
Ini ator Targ et 㧞 1
Ini ator Targ et 㧞 1
Ini ator Targ et 4 1
Ini ator Targ et 4 1
Ini ator Targ et 8 1
Ini ator Targ et 8 1
! ,--と +
を実行させたときの 図 ! ,--と +
を実行させたときの
の / 使用率
の / 使用率
図
第/章
高負荷をかけた環境におけるデータ処理実行時の評価 9
対 %: 対 );
++
60
50
40
I/O
Throughput 30
[MB/s]
20
read
write
10
0
0
500
1000
1500
2000
mes[S]
! ,--と +
を実行させたときの のストレージ 12 !
0 ! 図
いることがわかる。
これらの結果から、% におけるストレージアクセスが軽い場合は、 の 7 がボト
ルネックとなり、% にストレージが集中した場合は、% のストレージ
がボトルネッ
クとなる。結果として、 のトラフィックを統合してもネットワークには影響を与えないとい
うことが分かった。
+,
第 章 まとめと今後の課題
本研究では、爆発的に増大する情報量を処理するために、フロントエンドとバックエンドの
ネットワークを同一のネットワークに統合した
統合型 クラスタを提案、構築し、並
列データ処理アプリケーションを用いて評価することで、システムの動作解析を行った。
まず、ローカルデバイスを用いた クラスタ、 と % を ) 対 ) に接続した
統合型 クラスタにおいて、並列データマイニングである # プログラムと - プログラム
を実行した。その結果、# プログラムと - プログラムどちらのアルゴリズムにおいてもど
の クラスタも同程度の性能であることが分かった。
ネットワーク統合によるネットワークバウンドが懸念されたが、ネットワークと比較してロー
カルストレージの帯域幅が低いことなどによりネットワーク帯域に余裕があるため、
統
合型 クラスタの性能が落ちなかったと考えられるので、これまでよりストレージ性能を強化
した
統合型 クラスタの構築を行った。
。
新しく導入したディスクの基本性能を測定するために、ハードディスクベンチマークの 66
を用いて、"
アクセスと " アクセスを測定した。その結果、
を
用いた通信の方がローカルディスクとして % ディスクを用いた場合よりも性能が良いことが
分かり、今回高性能のディスクを
統合型 クラスタに導入できたということが確認で
きた。
そこで、次に新しく構築した
統合型 クラスタとローカルデバイスを用いた ク
ラスタ上で、並列データマイニングである # プログラムと - プログラムを実行した。その
結果、# においてはどのクラスタにおいても性能はほとんど変わらず、- においてはベン
チマークで格段に性能が良かった ディスクを用いたクラスタの性能がやや劣るということ、
のトラフィックを統合してもネットワークの帯域にまだ十分余裕があることが分かった。
の用いられ方を考えると、数台の
が ) 台の % にアクセスする形が一般的で
あると考えられるため、% およびその接続ネットワークにトラフィックが高い負荷がかかる
第0章
まとめと今後の課題
+.
環境を作り、ハードディスクベンチマーク、並列データマイニング、複数プロセスによる
統合型 クラスタの評価を行った。その結果、本研究での実験範囲においては、どの場合にお
いても当初懸念されたネットワークバウンドにはならず、7 バウンド又は
ことが分かった。したがって、我々が提案している
言え、
バウンドとなる
統合型 クラスタは有効であると
統合型 クラスタの柔軟なシステム構成を実現することが可能である。
今後は、他のプログラムによる評価を行うことで、より広範囲におけるシステムの有効性を実
証し、 に対してカーネルモニタなどの導入を行い、更なる
特性解析を行っていきたいと考えている。
統合型 クラスタの動作
+/
謝辞
指導教官である、お茶の水女子大学理学部の小口正人教授には、本研究を進めるにあたり、貴
重な時間を割いて何度も議論に付き合って頂き、適切な助言をして頂いたり、必要な環境を整え
て頂き、大変お世話になりました。研究以外の面でも、勉強になることがたくさんあり、研究室
に配属されてからの + 年間を、内容の濃い充実したものにできたと思います。深く感謝致します。
工学院大学 工学部 山口 実靖准教授には、私の論文の共著を快くお引き受けくださり、大変お
忙しい中であったのにもかかわらず、いろいろとご面倒をみていただき、本当にありがとうござ
いました。
%
神坂 紀久子さんには、私の論文の共著を快くお引き受けくださり、また研究のことに関
して何もわからなかった私に根気よく丁寧にアドバイスをしてくださいました。大変お忙しい中
であったのにもかかわらず、いろいろとご面倒をみていただき、本当にありがとうございました。
副査をお引き受けくださいましたお茶の水女子大学理学部情報科学科の渡辺 知恵美先生に深く
感謝いたします。着手発表や中間発表など定期的に進捗具合を聞いていただき,本研究に関する
貴重なコメントをたくさんいただきました。
お茶の水女子大学理学部情報科学科の瀬々 潤准教授には、本研究を進めるに当たり、大変有用
なアドバイスを頂きました。本当にありがとうございました。
小口研究室同期の皆様、卒業生の皆様、また、現在の小口研究室の皆様に御礼申し上げます。
私がここまで楽しく研究を進めてこれましたのも、皆様方との日々があったからこそです。あり
がとうございました。
最後に、私をここまで育ててくれ、支えてくれた家族や、その他ご支援くださいました皆様に
感謝致します。
+0
参考文献
=)> B-8 8!!
+0**! =*> (! D 4 A! (! -
” A%*33.
”
<
*33.!
=+> ! E
A! <! F
-! 5! 4
”
# ” 7< D -% *33. !*/0*13 ( *33.!
=,> 4! F! F @! A! F! @
% =.> B! %!
” A%*330
! 8
5 (
=/>
<
A
*330!
”A
”G5(4)22,
”
B A !,10,22 )22,!
小口正人、喜連川優8 ”%A 結合 クラスタにおける動的リモートメモリ利用方式を用い
た並列データマイニングの実行 ” 電子情報通信学会論文誌G
!E1,(
!2 !)++/)+,2
*33) 年 2 月
=0> E! # E! H! H8
”A
-" @
”
A @A(*333 !))* A *333!
=1>
A F8
A ”(<D*33+
-" !.+0.+2 *33+!
=2> 45%8 8!!
=)3> %#8 8!!
”%
参考文献
=))>
+1
神坂紀久子、山口実靖、小口正人8 ” 統合型 クラスタにおける複数プロセスによ
る同時アクセス時の性能評価 ”分散、協調とモバイル 9(
年0月
=)*> B
8 8!
!
=)+> @ A
8 8!!
=),> 8 8!
!
=).> < %8 8
!
I
=)/> 4
668 8!
!
!
66
=)0> "8 8!
"!I
=)1> 8 8!!
!I
A*330; シンポジウム *330
+2
発表文献
)!
原 明日香,神坂 紀久子,小口 正人:
“ 並列相関関係抽出実行時の
統合型 マルチメディア 分散 協調とモバイル 9(
*!
クラスタの特性評価 ”
A*330; シンポジウム *330 年 0 月
原 明日香,神坂 紀久子,山口 実靖,小口 正人:
“
統合型 クラスタにおける並列相関関係抽出実行時のシステム特性解析,”
電子情報通信学会第 )2 回データ工学ワークショップ 9(<?*331;
+!
原 明日香,神坂 紀久子,小口 正人:
“ 並列データマイニング実行時の
情報処理学会第 03 回全国大会
,!
*331 年 + 月
統合型 クラスタの動作解析,”
*331 年 + 月
原 明日香 神坂 紀久子 山口 実靖 小口 正人:
“ 並列データマイニング実行時の
統合型 マルチメディア,分散,協調とモバイル 9(
クラスタのネットワーク特性解析,”
A*331; シンポジウム *331 年 0 月
9ヤングリサーチャー賞受賞;
.! # F
F H A
:
“ &
( ”
! *3
%<(
( 9(*331; *331
/!
原 明日香 神坂 紀久子 山口 実靖 小口 正人:
“
統合型 クラスタにおける並列データ処理アプリケーション実行時の特性解析 ”
コンピュータシステム研究会 9H;
*331 年 )* 月
発表文献
0!
,3
原 明日香 神坂 紀久子 山口 実靖 小口 正人:
“ 並列データ処理アプリケーション実行時の
統合型 クラスタの動作解析
データ工学と情報マネジメントに関するフォーラム 9(<
A*332;,*332 年 + 月
”
Fly UP