発表資料

by user

on 28 марта 2017

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download 発表資料

Transcript

発表資料

慢性肝炎データセットの解析
への取り組み
A02-(5)班
大阪大学産業科学研究所元田研究室
解析のシナリオ
n
データの可視化
Spotfire利用
データの傾向，特徴の把握
抽象化(グループ化）
グラフ表現
n
グラフ構造データからのパタン抽出
GBI，AGM使用
属性間の時系列相関と疾患，治療との
関係抽出
医療データよりは化学物質群からのリスク分子発見
への寄与大の見通し
n JAISTグループ(Tu Bao Ho) からの寄与
n
データ可視化ツールの利用
• Spotfire
– http://www.spotfire.com/
– 可視化ツール
• データの傾向把握
• 前処理、後処理
(例）映画情報の可視化
属性：
Year
: Integer
Length
: Integer
Title
: String
Subject
: String
Actor
: String
Actress
: String
Director : String
Popularity : Integer
Awards
: String
*Image
: String
事例数：1740
(例）映画情報の可視化
属性間の相関の可視化
クラスターの検知
各軸は属性から選択
(例）映画情報の可視化 Cont.
Award受賞の映画
Subject別のPie Chart
株価の可視化の例
生検結果の可視化の例
生検結果の可視化の例
生検結果の可視化の例
外注検査データの可視化の例
Graph-Based Induction（GBI法）
グラフ中に頻繁に現れるパターンをペアの逐次拡張（チ
ャンキング）により抽出することによって特徴的なパター
ンを発見するためのアルゴリズム
1
2
1
2
3
7
1
2
5
4
6
1
2
4
3
7
3
8
5
3
11
4
6
9
1
2
3
2
7
7
5
10
4
11
11
8
5
9
11
これまでの GBI のアルゴリズム
チャンクするペア
12
1
1
4
1
2
2
4
1
3
2
33
1
3
3
1
3
5
21
1
33
2
4
3
1
3
3
1
1
4
43
1
35
4
5
5
1
3
3
3
3 3
5
1
3
34
23
2
3 2
2
11
1
1
1
1
数え上げたペアから得る情報は“どのペアが最も多いか”
ということのみ
GBI アルゴリズムの改良
チャンクするペア
12
1
1
2
2
4
4
1
3
2
33
1
3
3
1
33
2
4
3
1
3
3
1
1
4
3 3
2 1
3
43
1
35
1
4
5
5
1
3
3
3
4
3
3
1
1
1
2 1
3
5
1
21
1
33
43
特徴的なペア
特徴的なペア
3 3
5
1
3
34
23
2
3 2
2
11
1
1
1
1
数え上げたペアからより多くの情報を得ることができるようになる
チャンクするペアを選択する評価関数と同じ必要はない
変異原性物質データへの適用
• 230個の芳香族ニトロ化合物，複素環芳香族ニトロ化
合物
–
–
–
–
Inactive = 22 個
Low = 68 個
Medium = 105 個
High = 35 個
• 頂点のラベル･･･ C, H, N, N +, O, O -, F, Cl, Br, I, S
• 辺のラベル･･･１, ２, ３, ４
• グラフのサイズ･･･平均頂点数２５.６（１３∼４０）
変異原性物質データへの適用
• 抽出された特徴的なパターンとLogP 値, LUMO
値を属性として化合物を表現し, C4.5 の入力とし
た
C4.5 による分類 → Inactive Low
Inactive
77
Low
88
Medium
1
High
0
n
n
Medium
11
11
36
36
23
23
1
High
4
21
21
69
69
18
18
0
3
12
12
16
16
正解（
黄色）２点, 隣のクラス（水色）１点,
それ以外０点で評価 → １.５２点
これ以外の結果の得点
1.43点, １.４９点, １.４６点
過去の解析例
時系列を含む膠原病データの解析
ID
1
2
…
… 診断(Diagnosis)
…
RA
…
PSS
…
…
トランザクション
ID 治療日（Date)
GOT
GPT
T-BIL
1
1日目
多い
多い
多い
1
…
2日目
…
多い
…
少ない
…
多い
…
2
…
1日目
…
少ない
…
多い
…
多い
…
ステップ数３
Diagnosis ; RA
Dummy
Dummy
Dummy
一日の診断
GOT；多い
GPT；多い
T‐BIL；多い
GOT；多い
GPT；少ない
T‐BIL；多い
GOT；多い
GPT；多い
T‐BIL；多い
n 患者の治療歴の全ての
治療日を基準として複数の
トランザクションを得る．
（トランザクション数；４７６５２，
ノードの種類数；２１６）
Diagnosis ; RA
GOT；多い
GPT；多い
T‐BIL；多い
Dummy
Dummy
GOT；多い
GPT；少ない
T‐BIL；多い
GOT；多い
Diagnosis ; RA
Dummy
Dummy
GPT；多い
GOT；多い T‐BIL；多い
GPT；多い
T‐BIL；多い
Dummy
GOT；多い
GPT；少ない
ID
Date
GOT
GPT
T-BIL
1
1日目
多い
多い
多い
1
1
2日目
3日目
多い
多い
少ない
多い
多い
多い
1
1
4日目
5日目
多い
多い
少ない
多い
多い
多い
T‐BIL；多い
GOT；多い
Dummy
GPT；多い
T‐BIL；多い
Diagnosis ; RA
Dummy
Dummy
GOT；多い
GPT；多い
T‐BIL；多い
GOT；多い
GPT；少ない
T‐BIL；多い
Dummy
GOT；多い
GPT；多い
T‐BIL；多い
n
得られた多頻度グラフの例１
Diagnosis ; SLE
Dummy
Dummy
support=5.0％
GPT；[0.0,64.5]
GOT；[3.0,49.0]
GPT；[0.0,64.5]
GOT；[3.0,49.0]
同じグラフ構造を示したDiagnosis
Diagnosis
RA
SJS
BEHCET
support
1.70%
1.60%
1.10%
計算時間；約20000秒
GPTが[0.0,64.5]の範囲を示し，かつGOTが[3.0,49.0]の範囲を
示す事例が２ステップ続くことと，診断結果がSLEであることに
相関がある．
n
得られた多頻度グラフの例２
Dummy
Dummy
Dummy
GPT；[0.0,64.5]
GOT；[3.0,49.0]
GPT；[0.0,64.5]
GOT；[3.0,49.0]
T-BIL；[0.1,0.87]
sup=59.0％
GPT;[0.0,64.5]かつGOT；[3.0,49.0]を示す事例が２ステップ続く，
かつ３ステップ目にT-BIL；[0.1,0.87]を示す事例が存在する
というパターンが現れやすい．
n
得られた多頻度グラフの例３
Dummy
Dummy
GPT；[0.0,64.5]
GOT；[3.0,49.0]
GPT；[0.0,64.5]
GOT；[3.0,49.0]
T-BIL；[0.87,26.1]
sup=6.3％
GPT;[0.0,64.5]かつGOT；[3.0,49.0]を示す事例の次のステップに，
GPT;[0.0,64.5],GOT；[3.0,49.0]そして T-BIL；[0.87,26.1]を示す
事例が存在するというパターンが現れやすい．
グラフ構造データからのパタン抽出
での課題
• グラフ構造化
– ノードのラベル
• 属性値の離散化
• 属性のグループ化
– 辺
• 時系列の扱い方
• データ変換
– RDBでのテーブル形式への変換
– Spotfireでの可視化 → グループ化