...

月震分類に適した機械学習手法の検討

by user

on
Category: Documents
14

views

Report

Comments

Transcript

月震分類に適した機械学習手法の検討
DEIM Forum 2016 G4-1
月震分類に適した機械学習手法の検討
菊池
栞†
山田 竜平††
山本
幸生†††
横山 昌平††††
石川
博†††††
† 首都大学東京 システムデザイン学部 〒 191–0065 東京都日野市旭が丘 6–6
†† 国立天文台 RISE 月惑星探査検討室 〒 181–8588 東京都三鷹市大沢 2–21–1
††† 宇宙航空研究開発機構宇宙科学研究所 〒 252–5210 神奈川県相模原市中央区由野台 3–1–1
†††† 静岡大学 情報学部 〒 432–8011 静岡県浜松市中区城北 3–5–1
††††† 首都大学東京大学院 システムデザイン研究科 〒 191–0065 東京都日野市旭が丘 6–6
E-mail: †[email protected], ††[email protected], †††[email protected],
††††[email protected], †††††[email protected]
あらまし
1969 年から 1977 年の間に NASA によって行われた,月面に地震計を設置する計画によって,膨大な量の
月震(月における地震)波形データが取得された.これらの月震波形データは,月震の種類と震源ごとに分類され,
月内部構造の解明や,月震の発生原因の解明といった研究に用いられている.月震の分類に機械学習を用いることで,
これまでの分類とは異なる新たな特徴を用いた震源の分類や,分類を行う際の人的コストの削減が期待できる.そこ
で本研究では,機械学習手法を用いて,特に大量のイベントが存在する,深発月震を高精度に分類する手法を比較・
検討する.具体的には,Neural Network,Random Forest,Support Vector Machine (SVM),ロジスティック回帰,
AdaBoost といった手法を用いて,手法ごとにその分類性能を比較し,深発月震の分類に適した手法を考察する.
キーワード
月地震,波形解析,教師あり学習
1. は じ め に
とがわかっている [3], [4].その原因として月と地球間に働く潮
汐力が関連していると考えられているが,潮汐力が支配的原因
NASA のアポロミッションによって,Apollo Lunar Surface
とする説 [5], [6] と,構造的な応力場に潮汐力がトリガーとして
Experiments Package (ALSEP) と呼ばれる観測装置群が設置
作用しているとする説 [7] の 2 つがあり,これらの説を考慮し
された.ALSEP を用いた実験のひとつである Passive Seismic
て深発月震の発生原因について研究が進められている.
Experiment (PSE) は,ALSEP に含まれる地震計を用いて月
深発月震の発生原因の研究と合わせて,深発月震の震源を推
面上で月震の連続観測を行う実験である.本実験では,合計 5
定する研究も盛んに行われている.その成果のひとつとして,
つの地震計が月面に設置されており,約 7 年半に渡る月震の記
一部の深発月震には震源を表すラベルが付与されており,月震
録が取得された.これらのデータは,長周期地震計の 3 軸成分
イベントカタログ(注 2) として公開されている [8] (注 3).ラベル
と短周期地震計の Z 軸成分で構成されている.
は,Apollo の頭文字をつけて A1,A2,・
・
・と名付けられてお
PSE によって得られた月震の観測データは,現在も解析が行
り,109 のグループに分類されている.これらのラベルを正確
われており,月震の発生原因,活動度,および月の内部構造の
に付与するためには,月震の震源推定を行う必要がある.震源
予測について多くの知見が得られている [1], [2].これらの解析
を推定する一般的な方法として,3 つの観測点で観測した結果
の一環として,月震のクラス分類が行われており,波形 (注 1) か
が用いられる.しかし,複数の点で観測されたイベントが少な
ら予測された発生深度や,発生要因をもとに,各月震に対して
く,波形の振幅も小さくノイズも多い.そのため,カタログで
ラベルを付与している.付与されているラベルは,熱月震,人
は,波形の類似性を用いた震源推定とラベルの付与が行われて
工衝突の信号,隕石衝突,浅発月震,深発月震の 5 種類である.
いる [9].しかし,従来手法では,震源を推定することが困難な
熱月震は,日の出と,日の入りの際に多く観測されており,熱
月震が多数存在する.この問題に対して,機械学習を用いるこ
で月の表面が割れた時に発生する揺れがである.人工衝突の信
とで,従来手法で分類された深発月震の,震源ごとに共通する
号は,アポロ着陸船の着陸時や,燃料タンクをぶつけて起こし
特徴を新たに発見することで,未分類の深発月震の震源の推定
た揺れであり,月の浅部構造の推定に用いられている.隕石衝
が可能になると考えられる.また,これまでにラベルが付与さ
突は,隕石の衝撃で起こった揺れである.浅発月震は,震源の
れていないイベントにラベルを付与する際の,人的コストの削
深さが約 300km 程度とされる揺れで,観測された数は少ない.
減も可能と考えられる.そこで,我々は,月震の震源推定を多
深発月震は深さ約 1,000km で発生する月震であり,これまでに
クラス分類問題と捉え,従来の分類結果を教師データとした教
観測された数が最も多いイベントである.特に深発月震は,同
一震源から周期的に発生し,同じ震源の波形は類似しているこ
(注 2):以下,カタログとする.また,このカタログに合わせて,発生した,深
発月震が強く疑われる個々の現象を,イベントと呼称する.
(注 1):以後,特に明示のない場合は,波形は月震の波形を表す.
(注 3):DARTS as ISAS/JAXA http://www.darts.isas.jaxa.jp
師あり学習を行うことで,自動的に深発月震の震源を分類し,
を用いている.本研究でもこれらの研究と同様に,特徴量とし
分類結果をラベルとして深発月震に付与することを目指す.
て PSD を用いて実験を行う.
本研究では,代表的な教師ありの学習の手法を用いて深発月
2. 3 教師あり学習法の比較の研究
震の分類を行い,分類性能を比較する.比較する手法は,Neural
複数の教師あり学習を比較する研究として,金ら [19] や,村
Network,SVM [10],ロジスティック回帰 [11],アンサンブル
田ら [20] の研究が挙げられる.金ら [19] は,教師あり学習を
学習から Random Forest [12] とブースティングの 5 つを用い
用いて,文章の書き手の同定を試みている.その際の文章に,
た.SVM では Linear カーネルと,RBF カーネルを,ブース
小説,作文,日記の長さの異なる 3 種類を用いて,この問題に
ティングでは AdaBoost [13] を用いた.そして,手法ごとに分
適した教師あり学習を比較,検討している.手法は,Random
類性能を比較することで,深発月震に適した教師あり学習の方
Forest,k 最近傍法,学習ベクトル量子化法,SVM,バギング
法を検討する.
法,AdaBoost の 6 種類を用いており,F 値による評価を行なっ
本論文の構成は次の通りである.2 章では,本研究に関連す
ている.また,村田ら [20] の研究では,文節のまとめ上げの問
る技術や研究について述べる.3 章では,各手法のアルゴリズ
題に対して,教師あり学習を用いている.手法は,決定木,最
ムについて述べる.4 章では,各手法の実行結果を示し,考察
大エントロピー法,類似度を利用した用例ベースの手法,さら
を述べる.5 章では,本論文のまとめと今後の課題について述
に著者が提案する 2 つの手法を用いて,F 値による評価を行
べる.
なっている.この研究では,データセットのデータ数を変更や,
2. 関 連 研 究
2. 1 月震と機械学習に関する研究
深発月震の震源域を推定に関する研究として,Nakamura
ら [14] や,Bulow ら [15],Endrun ら [16] の研究が挙げられる.
Nakamura ら [14] の研究では,深発月震イベントに対して,最
異なる学習セットでの F 値を比較している.本研究でも,分類
性能を F 値で評価し,手法を比較する.また,データセットの
変更を行なった場合でも評価を行なった.
3. 比較する手法
イベントの特徴を学習するために用いる,代表的な教師あり
短距離法を用いた階層的クラスタリングを適用し,その結果に
学習の手法について述べる.
基づいて人手による深発月震の震源域の推定を行っている.ま
3. 1 Neural Network
た,Bulow ら [15] は,前処理方法を工夫し,新しいイベントの
Neural Network は,様々な研究者達によって構築された機
検知を行なっている.はじめに,バンドパスフィルタ,デスパ
械学習のアルゴリズムである.2012 年の画像コンテスト (注 4)
イキングなどを用いて波形のノイズ除去を行った.そして,相
において,Hinton らがこの手法を用いて,その有用性に注目が
互相関を類似度としたクラスタリングを行い,多数の深発月震
集まった.本研究では,Neural Network の一種である,多層
を新たに発見した.特に,A1 を震源とする深発月震が多く発
パーセプトロンを用いる.入力データを各ニューロンで,重み
見され,震源が A1 である深発月震は特徴が顕著であることが
や活性化関数を用いながら値の変更を行っていく.そして,出
判明している.これらの研究の推定結果は,月震イベントカタ
力層での出力と,正解データとを比較し,その誤差を逆伝播さ
ログに反映されている.Endrun ら [16] の研究では,隠れマル
せることで重みを更新し,学習を行う.多層パーセプトロンは,
コフモデルを用いて,Apollo16 で観測された波形に含まれる,
入力層と出力層の 2 層のみでは線形分類と等価であるが,中間
未分類の月震の 50 %以上の震源の分類に成功している.また,
層を追加すると,非線形分類が可能になる.本研究は,多クラ
この研究では,200 以上の新たな月震イベントの発見にも成功
ス分類を行うため,出力層の誤差関数にはクロスエントロピー
している.本研究では,近年,注目されている Neural Network
を用い,活性化関数には,ソフトマックス関数を用いた.ソフ
を用いて震源の分類を試みる.
トマックス関数とは,出力の値の総和を 1 とすることで,分類
2. 2 地震と特徴量に関する研究
されるクラスを確率分布にするための関数である.出力層の
教師あり学習によって学習,分類するためには,対象となる
ニューロン数は,本研究で行う分類のクラス数である 5 とした.
データを特徴量に変換する必要がある.波形を特徴量に変換す
るため,本研究では,地球の地震の解析に多くの研究で用いら
3. 2 Random Forest
アンサンブル学習の一種である Random Forest は,2001 年
れている,Power Spectral Density (PSD) を用いる.PSD は,
に Leo Breiman が提案した機械学習のアルゴリズムである.
周波数成分毎に振幅の強度を計算したものであり,PSD を特
Random Forest は,ブートストラップサンプルから複数の決
徴量としている研究の例として,笠原ら [17] や,五十子ら [18]
定木で学習する.そして,それぞれの決定木による分類結果を
の研究が挙げられる.笠原ら [17] らの研究では,PSD を用い
統合し.最終的な分類結果とする.この手法の特徴として,学
て,首都圏に設置された中感度地震計を用いて観測された波形
習が高速であることや,データの欠損や偏りがある場合でも性
に含まれる,地震以外の成分について考察を行なっている.ま
能の低下が少ないことが挙げられる.
た,五十子ら [18] の研究では,免震構造物の地震時応答変位に
着目し,応答変位に直接的に反応して減衰力を発揮する変位依
存型ダンパーのモデルとして複素減衰について検討している.
その複素減衰ダンパーの優位性を論じる際に,地震動の PSD
(注 4):ImageNet Large Scale Visual Recognition Challenge
http://image-net.org/challenges/LSVRC/2012/index
SVM は 1995 年頃に Vladimir N. Vapnik が提案したパター
ン識別用の機械学習のアルゴリズムである.与えられた教師
データから識別境界面を設定し,識別境界面に最も近いデータ
LPX Amplitude
3. 3 SVM
分類されるかを判定する.この手法の特徴として,データの次
元数が大きい場合でも分類の性能が高いことや,設定するパラ
メータが比較的少ないことが挙げられる.本研究では,線形分
LPY Amplitude
点の識別境界面かたの距離を最大化し,未知データがどちらに
うために用いられる,RBF カーネルをそれぞれ用いた.本論
文では,それぞれを SVM-Linear と SVM-RBF と表記する.
3. 4 ロジスティック回帰
LPZ Amplitude
類を行うために用いられる,線形カーネルと,非線形分類を行
moonquake example 20min
10
5
0
−5
−10
0
5
10
15
20
0
5
10
15
20
0
5
10
15
20
10
5
0
−5
−10
10
5
0
−5
−10
Time [min]
ロジスティック回帰は David Cox が提案したアルゴリズムで
図1
ある.ロジスティック回帰は,ロジスティック関数を用いて,与
えられた説明変数を基に,ある要素がどのカテゴリに属するか
月震波の例
表 1 実験に用いた震源ごとの月震イベントの数
の条件付き確率を予測するアルゴリズムで,分類モデルとして
震源名
A1
A6 A8 A18 A20
利用することができる.出力が 0 から 1 の間であること以外は
イベント数
173
32
39
36
48
線形回帰と同じ振る舞いをするが,ロジスティック回帰では閾
値を設けてクラスの予想を行なっている.
3. 5 AdaBoost
ブースティングの一種である AdaBoost は,Yoav Freund と
Robert E. Schapire が提案した機械学習のアルゴリズムであ
る.ブースティングとは,教師付きデータを用いて学習を行い,
その学習結果を踏まえて逐次に重みの調整を繰り返すことで複
数の学習結果を求め,その結果を組み合わせることで性能を向
上させる手法である.そのブースティングの代表的な手法であ
る AdaBoost は,分類精度が 50 %を少し超える程度の,弱い
分類器を大量に用意し,その 1 つ 1 つに重みを付けることで強
い分類器を作成し,分類を行う.本研究では弱い分類器として
決定木を用いた.この手法の特徴として,ノイズが多いデータ
や異常値に影響を受けてしまうものの,他のブースティング手
法より比較的に過学習が起きにくいことが挙げられる.
4. 実 験 結 果
本研究では,比較的解析が進んでいる,AP12 と呼ばれる 1
つの観測点で観測された月震のみを用いる.分類する対象であ
る震源は,従来手法でラベルが付与されているイベントが 30 以
上ある 5 つの震源を用いた.各震源のイベント数を表 1 に示す.
本研究では,イベント数をそのまま用いた不均衡データでの
比較と,各震源のイベント数を同一にした均衡データでの比較
を行う.月震データは物理データのため,オーバーサンプリン
グを行うことは適切でないため,最も少ないイベント数である
32 に合わせ,他の全ての震源のイベント数にアンダーサンプリ
ングを行なったデータを均衡データとした.月震分析において
は,イベントの開始時間の取得は可能であるが,終了時間の取
得は困難である.このため,分析に用いるイベントの長さは,
通常,不明である.本実験では,5 分刻みで 5 分から 30 分でイ
ベントの長さを変更し,分類性能を比較する.以後,特に明示
のない場合は,イベントの長さをイベント長と呼称する.
4. 2 評 価 指 標
本章では,3 章で述べたをそれぞれの手法を用いて,深発月
震の分類を行い,その分類性能を評価する.
4. 1 データセット
本研究では評価の指標として,適合率と再現率の調和平均で
ある F 値を用いる.適合率,再現率,F 値は以下の式で定義さ
れる.
本論文ではイベントの数が特に多い深発月震のみを扱い,以
後,特に明示のない場合は,深発月震を月震と呼称する.月震
適合率 =
正と予測して正解した数
正と予測した数
再現率 =
正と予測して正解した数
全体の正の数
は X 軸,Y 軸,Z 軸の 3 方向の成分を持つ観測データである.
本実験では,長周期地震計のデータを用いて,X 軸,Y 軸,Z
軸の月震成分をそれぞれ LPX,LPY,LPZ として表記する.
月震の波形は,多くのノイズを含むため,本研究では,前処理
を適用した波形を用いて分類を行う.前処理として,平均引き,
F値=
2 ∗ 再現率 ∗ 適合率
再現率 + 適合率
トレンド引きを行った後,0.3-1.5Hz のバンドパスフィルタを
4. 3 本研究で用いる特徴量
適用し,スパイク除去処理を行った.1 つの波形に対して,月
本研究では,月震の波形を用いて Power Spectral Density
震成分ごとに前処理を行なった後の,3 つのそれぞれの月震成
(PSD) を計算したものを特徴量として用いる.PSD は,周波
分の例を図 1 に示す.図 1 において,横軸は時間を示し,縦軸
数成分毎に振幅の強度を計算したものであり,時系列データの
は振幅を示す.図 1 より,1 つの月震において,月震成分の違
時間相関分析などに用いられる.本実験では,Welch 法を用い
いによって波形が異なることがわかる.
て,PSD の推定を行なっている.その際に,FFT を用いてス
ペクトルの計算を行なっているため,2 の累乗となるように,
行なった.
サンプリング数を決定する必要がある.そこで,PSD のサンプ
4. 5 分類性能の比較
リング数を 256, 512, 1024, 2048 と変更し,それぞれの分類性
PSD のサンプリング数と,イベント長がそれぞれ異なる,3
能を比較する.
方向の月震成分に対して分類手法を適用し,分類性能の比較を
4. 4 分類を行う手法のパラメータの設定
行う.不均衡データに分類手法を適用した際の,分類した結果
本研究で月震の分類に用いる各手法には,それぞれハイパー
から算出した F 値をそれぞれ表 3 に示す.また,均衡データに
パラメータが存在する.分類性能を上げるためにはこれらのハ
分類手法を適用した際の,各手法での分類結果の F 値を表 4 に
イパーパラメータを調節する必要がある.
示す.これらの表 3,表 4 中で太字になっている数字はその手
Neural Network については予備実験を行い,ハイパーパラ
法で観測された最大の F 値を表している.表 3 において,各分
メータである中間層のニューロン数,層の数,用いる関数を決
類手法を不均衡データに適用した際の,分類結果の F 値の最大
定する.本研究では中間層のニューロン数,層の数,用いる関
値と平均値を表 5 に,表 4 において,各分類手法を均衡データ
数を変更し分類を行い,それぞれの分類結果について,F 値を
に適用した際の分類結果の F 値の最大値と平均値を表 6 にそれ
求めることで適切なハイパーパラメータを決定する.なお,予
ぞれ示す.
備実験では LPZ についての PSD を用いた.PSD のサンプリン
表 5,表 6 より,不均衡データと均衡データのどちらを分類
グについては,サンプリング数の変更に伴い,Neural Network
する際にも,Neural Network を用いて分類を行なった場合に,
の入力層のニューロン数を変更する必要があるため,入力す
分類結果の F 値の平均値は最も高くなった.本研究で用いた
る PSD のサンプリング数によってチューニングを行う.また,
Neural Network は中間層が存在し,非線形の分類を行うこと
データ数の変化によって適した Neural Network のチューニン
のできるモデルで,その中間層において,適切に特徴量が抽出
グがあると考えられ,不均衡データを用いたチューニングと,
ができたため,少ないデータセットでも分類性能が高くなった
均衡データを用いたチューニングを行なう.はじめに,1 つ目
と考えられる.
の中間層のニューロン数を決定する.ニューロン数を増加させ
表 5,表 6 より,Neural Network の次に分類結果の F 値の
ながら分類を行い,ニューロン数の増加によって,分類結果の
平均値が高くなったのは,SVM-Linear を用いて分類を行なっ
F 値の変動がほとんど起こらなくなる時点でのニューロン数を
た場合であった.SVM-Linear は,SVM で線形分類を行う場
本研究で用いるパラメータとする.
合である.一般的に,次元数の高いデータにおける高次元空間
中間層の数と,追加される中間層のニューロン数を決定する.
では,データの分離に複雑な識別平面を要さない事が多いた
中間層の層の数を増加させ,分類結果の F 値の変化を確認し,
め,線形分類と非線形の分類性能に,あまり違いが出ないこと
F 値が上昇した場合,層の数を増加させる.このとき,新たに
が知られている.PSD のサンプリング数は最低で 256 であり,
追加した層について,ニューロン数を 1 つ目の層の場合と同様
PSD は偶関数のため,月震データは最低 129 次元である.こ
に決定する.これを,分類結果の F 値が上昇しなくなるまで繰
の場合でも,線形分類の結果の F 値が高いことから,月震デー
り返す.
タは線形識別器でも高精度で分類可能であると考えられる.ま
各層に適用する各種関数を決定する.活性化関数 sigmoid,
た,SVM-Linear は,非線形での分類を行う SVM-RBF より
tanh,ReLU のうち,分類を行なった際に最も F 値が高くなる
も,分類結果の F 値が高くなった.これは,学習データが少な
関数を各層に適用する.
い場合に,線形分類を行う SVM-Linear が,境界面を決定する
Neural Network においては,学習中にランダムに選んだ一
際のパラメータ数が少ないために,分類性能が高くなったと考
部のニューロンの働きを停止させることによって,頑健な学
えられる.また,SVM-Linear と同じく,線形分類を行う手法
習を実現する,Dropout と呼ばれる手法の有効性が示唆され
であるロジスティック回帰については,分類結果の F 値の最大
ている.Dropout を適用するかどうかを次のようにして決定
値は高いものの,平均値は低くなった.表 3 より,不均衡デー
した.Dropout を無効にした状態で分類を行なった結果,全
タの LPX に対して,ロジスティック回帰を用いて分類を行った
ての Neural Network において,過学習を起こしていることが
際の F 値は,全て 0.33 になっているが,これは,全てのテス
観測された.そのため,全ての Neural Network の中間層には
トデータが A1 に分類されてしまっていることが原因となって
Dropout を適用した.
いる.また,表 4 より,均衡データに対して,ロジスティック
最後に,最適化関数を決定する.最適化関数として Adam [21],
回帰を用いて分類を行なった際の,分類結果の F 値も低くなっ
AdaGrad,AdaDelta,SGD のそれぞれを用いて分類を行い,
ていることから,LPX のに対してロジスティック回帰を用いて
分類結果の F 値が最も高くなる最適化関数を本研究で用いるパ
分類を行うことは難しいことがわかった.
ラメータとする.チューニングを行なった結果,サンプリング
表 5,表 6 より,Random Forest と AdaBoost は,他の 4 つ
数の異なる各 Neural Network に適用するパラメータを表 2 に
の手法に比べ分類結果の F 値が値が低くなった.決定木をベー
示す.
スとした AdaBoost は決定木自体がデータ集合の細部に対して
Neural Network については,Python のモジュールである
非常に敏感であり,過学習を起こしやすいことが知られている.
Chainer [22] を用いた.その他の手法については scikit-learn [23]
また,決定木を組み合わせた Random Forest は,学習データ
を用いて,グリッドサーチによるハイパーパラメータの決定を
が少ない場合に過学習を起こしやすいことが知られている.こ
表 2 サンプリング数による Neural Network のハイパーパラメータ
データセット サンプリング数 ニューロン数 (一層目) ニューロン数 (二層目)
活性化関数 最適化関数 Dropout
256
1200
100
ReLU
Adam
あり
不均衡
512
600
100
ReLU
Adam
あり
データ
1024
100
30
tanh
Adam
あり
2048
60
40
tanh
Adam
あり
256
400
0
ReLU
Adam
あり
均衡
512
300
100
ReLU
Adam
あり
データ
1024
60
40
tanh
Adam
あり
2048
60
100
tanh
Adam
あり
れらの手法については,過学習が発生したため,分類性能が低
くなったと考えられる.
ここでは,イベント長について考察する.表 3,表 4 より,
均衡データ,不均衡データの両方の殆どの手法において,イベ
ント長が 15 分,20 分の時に分類結果の F 値が高い.このこ
とより,イベント長が短すぎても,長すぎても分類性能は低下
するため,分類に適切なイベント長に設定する必要があるこ
て分類を行う場合,PSD のサンプリング数が高く,イベント長
が 15 分または 20 分のデータを用いると,分類性能が高くなる
ことがわかった.また,その際に,月震の LPZ 成分を用いた
場合,分類性能が高くなることがわかった.
5. ま と め
本論文では月震分類に適した分類手法を検討するため,機械
とが分かる.F 値が特に高い,Neural Network,SVM-Liner,
学習の複数手法の分類性能の比較を行なった.その結果,Neural
SVM-RBF については,イベント長が 15 分,20 分の時に高
Network による分類の分類性能が,本研究で用いた手法の中で
い F 値になっているため,本論文の実験では,それらの値が適
は最も高くなった.また,分類を行う際に用いた,PSD のサ
切であると考えられる.しかし,Neural Network においては,
ンプリング数と,イベント長の変化による分類結果の F 値の比
イベント長が 20 分のデータでチューニングを行なっているた
較を行なった.その結果,PSD を用いた月震の分類は,PSD
め,イベント長ごとにチューニングを行うことで,イベント長
のサンプリング数が多く,イベント長が 15 分または 20 分の時
が異なる月震に対して分類を行った際の F 値が向上する可能性
により良い結果が得られることがわかった.そして,3 方向そ
はある.
れぞれの月震成分を用いて分類を行うと,LPZ 成分を用いる
次に,サンプリング数についての考察を述べる,表 3,表 4
と,良い分類結果が得られることがわかった.この手法を用い
において,ほとんどの結果において,サンプリング数を増加さ
る事で,ラベルが付与されていないイベントに高精度でラベル
せると F 値が高くなるのがわかる.そのため,本論文の実験で
を付与できることが期待される.また Neural Network の出力
は,サンプリング数を高くする必要があることがわかる.サン
は確率での出力になるため,確率を付与したラベル付けも可能
プリング数と,前述したイベント長の結果より,PSD を特徴量
である.
とした月震の分類には,サンプリング数が高いほど適しており,
今後の課題として,3 方向の月震成分を独立で分類するので
イベント長が 15 分または 20 分で行うことで高い分類性能を得
はなく,3 方向の月震成分を全て考慮した分類などを行うこと
られることが考えられる.
が考えられる.また,本研究では,イベント数が 30 以上観測
同じイベント長,同じサンプリング数において,月震成分ご
されている震源を用いて分類を行なったが,イベント数が 30
とに分類を行なった際の F 値を比較した時,最も高かった月震
以下の震源を用いて分類を行うことも,今後の課題として挙げ
成分の数を表 7 に表す.表 7 より,LPZ 成分を利用した際に,
られる.
多くの手法で高い F 値が得られた.また,AdaBoost 以外の手
法において,LPZ を用いて分類を行なった場合に,全ての分類
謝
辞
結果の F 値の中で,最も高い F 値が観測された.また,均衡
本稿の執筆にあたって多数の有益な助言を頂いた,大分工業
データを用いた分類では,LPY と LPZ の差が少なくなったも
高等専門学校情報工学科助教の廣田 雅春氏,首都大学東京特任
のの,LPZ を用いて分類を行なった F 値が高くなる傾向が見
助教の江原 遥氏に感謝いたします.
られた.イベント長と同様に,Neural Network は LPZ を用い
本研究(の一部)は傾斜的研究(全学分)学長裁量枠戦略的
てチューニングを行なっているため,他の月震成分でチューニ
研究プロジェクト戦略的研究支援枠「ソーシャルビッグデータ
ングを行うことで,分類結果の F 値の向上が望めるが,ロジス
の分析・応用のための学術基盤の研究」による.
ティック回帰,Random Forest,SVM-Linear,SVM-RBF で
も LPZ を用いた分類は高い F 値を観測しているため,月震分
類において,LPZ は有効であると考えられる.
これらより,Neural Network が月震の分類において,分類
性能が高い手法であることがわかった.月震を PSD をによっ
文
献
[1] Y. Nakamura, G. V. Latham, and H. J. Dorman. Apollo
lunar seismic experiment—final summary. Journal of Geophysical Research: Solid Earth (1978–2012), Vol. 87, No.
S01, pp. A117–A123, 1982.
表3
各手法を用いて分類を行った際の F 値:不均衡データ
手法名
PSD
月震
サンプリング数
成分
256
512
Neural Network
1024
2048
512
ロジスティック回帰
1024
2048
512
Random Forest
1024
2048
512
SVM-Linear
1024
2048
256
512
SVM-RBF
1024
2048
512
AdaBoost
1024
2048
成分
5
10
15
20
25
30
LPX
0.83
0.75
0.70
0.55
0.48
0.48
LPY
0.78
0.75
0.71
0.68
0.65
0.61
LPZ
0.75
0.75
0.77
0.75
0.75
0.75
LPX
0.72
0.70
0.76
0.72
0.67
0.65
LPY
0.85
0.88
0.83
0.80
0.75
0.80
LPZ
0.78
0.87
0.82
0.87
0.85
0.74
LPX
0.45
0.82
0.82
0.82
0.85
0.75
LPY
0.48
0.85
0.88
0.88
0.87
0.87
0.90 0.87
LPZ
0.44
0.85
0.90
0.87
0.87
0.87
0.84
0.83 0.83
LPX
0.92
0.90
0.82
0.80
0.83
0.80
0.88
0.87 0.85
LPY
0.87
0.90
0.97
0.90
0.80
0.82
LPZ
0.80
0.85 0.97
0.93
0.97 0.95
LPX
0.11
0.13
0.12
0.12
0.12
0.10
LPY
0.79
0.77
0.75
0.70
0.75
0.67
0.75
0.71
0.65 0.67
LPY 0.82 0.74
0.74
0.76
0.74 0.70
LPZ
0.81 0.82
0.83
0.83
0.81 0.84
LPX 0.78 0.80
0.84
0.84
0.75 0.71
LPY 0.84 0.83
0.89
0.79
0.78 0.82
LPZ
0.83 0.94
0.92
0.91
0.88 0.87
LPX 0.53 0.81
0.87
0.84
0.84 0.80
LPY 0.57 0.89
0.88
0.85
0.84 0.85
LPZ
0.64 0.93
0.89
0.93
LPX 0.85 0.85
0.87
LPY 0.88 0.88
0.90
25
30
手法名
256
512
Neural Network
1024
2048
0.95 0.93 0.99 0.99 0.96 0.94
イベント長 (min)
LPX 0.33 0.33
0.33
0.33
0.33 0.33
LPY 0.72 0.74
0.71
0.60
0.63 0.66
LPZ
0.76 0.76
0.80
0.72
0.75 0.74
LPZ
0.62
0.67
0.72
0.70
0.75
0.72
LPX 0.33 0.33
0.33
0.33
0.33 0.33
LPX
0.15
0.15
0.14
0.13
0.14
0.16
LPY 0.83 0.80
0.86
0.76
0.75 0.78
LPY
0.79
0.78
0.76
0.75
0.78
0.83
LPZ
0.77 0.89
0.88
0.86
0.77 0.86
LPZ
0.68
0.72
0.74
0.85
0.82
0.69
LPX 0.33 0.33
0.33
0.33
0.33 0.33
LPX
0.12
0.15
0.14
0.16
0.16
0.19
LPY 0.49 0.83
0.86
0.72
0.80 0.80
LPY
0.37
0.80
0.90
0.83
0.85
0.78
LPZ
0.47 0.84
0.83
0.87
0.82 0.78
LPZ
0.50
0.80
0.83
0.82
0.80
0.73
LPX 0.33 0.33
0.33
0.33
0.33 0.33
LPX
0.23
0.23
0.18
0.18
0.17
0.18
LPY 0.81 0.81
0.85
0.82
0.80 0.72
LPY
0.75
0.75
0.82
0.77
0.80
0.82
0.80 0.80 0.92
0.90
0.89 0.87
LPZ
0.80
0.80
0.92
0.93
0.85
0.88
LPX
0.62
0.46
0.40
0.43
0.37
0.39
LPY
0.50
0.43
0.41
0.55
0.55
0.49
256
512
ロジスティック回帰
1024
2048
LPX 0.56 0.51
0.50
0.46
0.49 0.50
LPY 0.53 0.51
0.55
0.53
0.45 0.44
LPZ
0.58 0.45
0.56
0.50
0.49 0.53
LPZ
0.61
0.66
0.53
0.60
0.58
0.58
LPX 0.68 0.57
0.59
0.55
0.55 0.44
LPX
0.72
0.57
0.61
0.50
0.49
0.50
LPY 0.54 0.65
0.62
0.60
0.59 0.52
LPY
0.61
0.66
0.57
0.52
0.45
0.51
LPZ
0.50 0.50
0.53
0.53
0.49 0.52
LPZ
0.61
0.56
0.47
0.49
0.60
0.54
LPX 0.42 0.59
0.55
0.55
0.53 0.43
LPX
0.50
0.67
0.56
0.56
0.44
0.50
LPY 0.50 0.67
0.56
0.56
0.45 0.49
LPY
0.38
0.57
0.48
0.60
0.52
0.43
LPZ
0.42 0.61
0.62
0.65
0.62 0.51
LPZ
0.52
0.76
0.72
0.60
0.59
0.56
LPX 0.71 0.63
0.60
0.66
0.55 0.61
LPX
0.69
0.82 0.76
0.66
0.55
0.54
LPY 0.65 0.60
0.63
0.67
0.53 0.60
LPY
0.71
0.72
0.72
0.63
0.64
0.64
0.65 0.59 0.77
0.67
0.66 0.59
LPZ
0.71
0.66
0.71
0.74
0.74
0.59
LPX
0.75
0.70
0.70
0.60
0.55
0.51
LPY
0.75
0.77
0.70
0.72
0.70
0.73
256
512
Random Forest
1024
2048
LPX 0.74 0.66
0.70
0.71
0.61 0.53
LPY 0.77 0.74
0.80
0.74
0.70 0.72
LPZ
0.84 0.80
0.82
0.81
0.76 0.75
LPZ
0.67
0.77
0.80
0.78
0.80
0.75
LPX 0.68 0.71
0.71
0.70
0.71 0.71
LPX
0.72
0.61
0.61
0.55
0.60
0.63
LPY 0.82 0.84
0.84
0.78
0.81 0.81
LPY
0.78
0.80
0.75
0.78
0.75
0.78
LPZ
0.82 0.86
0.88
0.95 0.86 0.83
LPZ
0.77
0.82
0.87
0.92
0.85
0.75
LPX 0.43 0.79
0.75
0.76
0.79 0.73
LPX
0.46
0.77
0.77
0.77
0.74
0.78
LPY 0.49 0.85
0.86
0.77
0.85 0.82
LPY
0.48
0.87
0.88
0.83
0.85
0.80
LPZ
0.54 0.91
0.87
0.88
0.87 0.86
LPZ
0.46
0.87
0.87
0.87
0.78
0.80
LPX 0.76 0.75
0.70
0.78
0.75 0.72
LPX
0.74
0.72
0.78
0.79
0.76
0.77
LPY 0.86 0.86
0.88
0.86
0.78 0.76
LPY
0.78
0.78
0.83
0.82
0.72
0.82
LPZ
0.84 0.84
0.92
0.90
0.91 0.92
LPZ
0.77
0.77 0.92
0.90
0.85
0.85
LPX 0.71 0.64
0.72
0.57
0.61 0.64
LPX
0.70
0.59
0.51
0.42
0.65
0.43
LPY 0.67 0.69
0.66
0.61
0.60 0.66
LPY
0.65
0.57
0.60
0.59
0.59
0.51
LPZ
0.70 0.79
0.75
0.71
0.68 0.70
LPZ
0.63
0.71
0.78
0.68
0.74
0.64
LPX 0.70 0.72
0.67
0.69
0.80 0.79
LPX
0.62
0.59
0.53
0.58
0.52
0.53
LPY 0.82 0.74
0.73
0.73
0.69 0.72
LPY
0.80
0.65
0.66
0.78
0.70
0.62
LPZ
0.69 0.83
0.79
0.74
0.74 0.70
LPZ
0.77
0.66
0.76
0.75
0.56
0.66
LPX 0.50 0.69
0.77
0.76
0.78 0.76
LPX
0.42
0.64
0.69
0.72
0.70
0.61
LPY 0.36 0.78
0.75
0.71
0.82 0.74
LPY
0.32
0.76
0.77
0.80
0.74
0.67
LPZ
0.44 0.82
0.75
0.75
0.75 0.77
LPZ
0.52
0.74
0.69
0.70
0.68
0.72
LPX 0.65 0.65
0.78
0.78
0.76 0.74
LPX
0.60
0.60
0.77
0.60
0.65
0.52
LPY 0.78 0.78
0.83
0.80
0.73 0.73
LPY
0.67
0.67
0.74
0.74
0.68
0.60
0.79 0.79 0.92
0.90
0.86 0.89
LPZ
0.70
0.73 0.82
0.79
0.77
0.64
LPX
0.54
0.35
0.31
0.34
0.31
0.32
LPY
0.29
0.27
0.34
0.37
0.18
0.44
LPZ
256
月震
LPX 0.67 0.75
LPZ
256
10
PSD
20
LPZ
256
5
表 4 各手法を用いて分類を行った際の F 値:均衡データ
サンプリング数
15
LPZ
256
イベント長 (min)
256
512
SVM-Linear
1024
2048
256
512
SVM-RBF
1024
2048
LPX 0.36 0.33
0.33
0.33
0.33 0.33
LPY 0.48 0.40
0.33
0.33
0.33 0.33
LPZ
0.57 0.36
0.36
0.44
0.47 0.41
LPZ
0.56
0.42
0.41
0.23
0.24
0.21
LPX 0.41 0.42
0.45
0.33
0.33 0.33
LPX
0.53
0.44
0.40
0.25
0.34
0.27
LPY 0.37 0.43
0.36
0.33
0.33 0.33
LPY 0.59 0.42
0.49
0.29
0.33
0.47
LPZ
0.53 0.41
0.33
0.49
0.33 0.33
LPZ
0.46
0.39
0.42
0.30
0.46
0.39
LPX 0.33 0.48
0.33
0.41
0.33 0.33
LPX
0.31
0.44
0.36
0.23
0.29
0.31
LPY 0.33 0.33
0.44
0.52
0.33 0.38
LPY
0.27
0.58
0.45
0.18
0.18
0.10
LPZ
0.33 0.52
0.46
0.40
0.40 0.45
LPZ
0.25
0.50
0.22
0.47
0.46
0.32
LPX 0.42 0.42
0.49
0.46
0.37 0.45
LPX
0.51
0.58
0.47
0.34
0.42
0.36
LPY 0.45 0.45
0.43
0.55
0.42 0.40
LPY
0.56
0.46
0.21
0.42
0.36
0.20
LPZ
0.51
0.68 0.42 0.44
LPZ
0.36
0.36
0.27
0.52
0.38
0.26
0.48 0.48
256
512
AdaBoost
1024
2048
表 5 PSD サンプリング数とイベント長を変更した際の F 値の最大値
と平均値:不均衡データ
分類手法
最大 F 値
平均 F 値
[12]
[13]
Neural Network
0.99
0.83
ロジスティック回帰
0.92
0.63
Random Forest
0.77
0.56
SVM-Linear
0.95
0.78
SVM-RBF
0.92
0.73
AdaBoost
0.68
0.40
[14]
[15]
表 6 PSD サンプリング数とイベント長を変更した際の F 値の最大値
と平均値:均衡データ
分類手法
最大 F 値
平均 F 値
Neural Network
0.97
0.78
ロジスティック回帰
0.93
0.56
Random Forest
0.76
0.57
SVM-Linear
0.92
0.75
SVM-RBF
0.82
0.65
AdaBoost
0.59
0.37
[16]
[17]
[18]
表 7 同サンプリング数,同イベント長の,F 値の最も高い月震成分
[19]
の数
分類手法
不均衡データ
均衡データ
[20]
LPX LPY LPZ LPX LPY LPZ
Neural Network
0
2
22
4
12
15
ロジスティック回帰
0
6
18
0
14
13
Random Forest
6
10
12
4
6
16
SVM-Linear
0
3
22
1
11
16
SVM-RBF
6
2
16
1
7
16
AdaBoost
2
4
16
7
8
9
[2] P. Lognonné, J. Gagnepain-Beyneix, and H. Chenet. A new
seismic model of the moon: implications for structure, thermal evolution and formation of the moon. Earth and Planetary Science Letters, Vol. 211, No. 1, pp. 27–44, 2003.
[3] D. R. Lammlein. Lunar seismicity and tectonics. Physics
of the Earth and Planetary Interiors, Vol. 14, No. 3, pp.
224–273, 1977.
[4] R. C. Bulow, C. L. Johnson, B. G. Bills, and P. M. Shearer.
Temporal and spatial properties of some deep moonquake
clusters. Journal of Geophysical Research: Planets (1991–
2012), Vol. 112, No. E9, 2007.
[5] Y. Nakamura. A1 moonquakes-source distribution and
mechanism. In Lunar and Planetary Science Conference
Proceedings, Vol. 9, pp. 3589–3607, 1978.
[6] J. Koyama and Y. Nakamura. Focal mechanism of deep
moonquakes. In Lunar and Planetary Science Conference
Proceedings, Vol. 11, pp. 1855–1865, 1980.
[7] H. Araki. Focal processes of deep moonquakes. 測地学会誌,
Vol. 47, No. 1, pp. 508–513, 2001.
[8] 山田竜平, 山本幸生, 桑村潤, 中村吉雄. アポロ月地震データ公開
システムの開発. 宇宙科学情報解析論文誌 宇宙航空研究開発機
構研究開発報告, No. 1, pp. 121–131, 2012.
[9] Y. Nakamura, G. Latham, J. Dorman, and J. Harris. Passive seismic experiment long-period event catalog. Galveston Geophysics Laboratory Contribution, Vol. 491, p. 314,
1981.
[10] V. N. Vapnik and V. Vapnik. Statistical learning theory,
Vol. 1. Wiley New York, 1998.
[11] D. R. Cox. The regression analysis of binary sequences.
[21]
[22]
[23]
Journal of the Royal Statistical Society. Series B (Methodological), pp. 215–242, 1958.
L. Breiman. Random forests. Machine learning, Vol. 45,
No. 1, pp. 5–32, 2001.
Y. Freund and R. E. Schapire. A desicion-theoretic generalization of on-line learning and an application to boosting. In
Computational learning theory, pp. 23–37. Springer, 1995.
Y. Nakamura. New identification of deep moonquakes in
the apollo lunar seismic data. Physics of the Earth and
Planetary Interiors, Vol. 139, No. 3, pp. 197–205, 2003.
R. C. Bulow, C. L. Johnson, and P. M. Shearer. New events
discovered in the apollo lunar seismic data. Journal of Geophysical Research: Planets (1991–2012), Vol. 110, No. E10,
2005.
B. Knapmeyer-Endrun and C. Hammer. Identification of
new events in apollo 16 lunar seismic data by hidden markov
model-based event detection and classification. Journal of
Geophysical Research: Planets, Vol. 120, No. 10, pp. 1620–
1645, 2015.
笠原敬司, 酒井慎一, 森田裕一, 平田直, 鶴岡弘, 中川茂樹, 楠城
一嘉, 小原一成. 首都圏地震観測網 (meso-net) の展開. 東京大
學地震研究所彙報, Vol. 84, No. 2, pp. 71–88, 2010.
五十子幸樹, 井上範夫. 複素剛性モデルを用いた免震構造物の
地震時応答変位制御. 日本建築学会構造系論文集, Vol. 75, No.
655, pp. 1653–1660, 2010.
金明哲, 村上征勝. ランダムフォレスト法による文章の書き手の
同定. 統計数理, Vol. 55, No. 2, pp. 255–268, 2007.
真樹村田, 清貴内元, 馬青, 均井佐原. 学習による文節まとめ
あげ −決定木学習,最大エントロピー法,用例ベースによる
手法と排反な規則を用いる新手法の比較−. Technical Report
99(1998-NL-128), 郵政省通信総合研究所, 郵政省通信総合研究
所, 郵政省通信総合研究所, 郵政省通信総合研究所, nov 1998.
D. Kingma and J. Ba. Adam: A method for stochastic
optimization. arXiv preprint arXiv:1412.6980, 2014.
S. Tokui, K. Oono, S. Hido, and J. Clayton. Chainer: a
next-generation open source framework for deep learning.
In LearningSys Workshop on Machine Learning Systems at
Neural Information Processing Systems (NIPS), 2015.
F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel,
B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss,
V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau,
M. Brucher, M. Perrot, and E. Duchesnay. Scikit-learn:
Machine learning in Python. Journal of Machine Learning
Research, Vol. 12, pp. 2825–2830, 2011.
Fly UP