Comments
Description
Transcript
発表資料
慢性肝炎データセットの解析 への取り組み A02-(5)班 大阪大学産業科学研究所 元田研究室 解析のシナリオ n データの可視化 Spotfire利用 データの傾向,特徴の把握 抽象化(グループ化) グラフ表現 n グラフ構造データからのパタン抽出 GBI,AGM使用 属性間の時系列相関と疾患,治療との 関係抽出 医療データよりは化学物質群からのリスク分子発見 への寄与大の見通し n JAISTグループ(Tu Bao Ho) からの寄与 n データ可視化ツールの利用 • Spotfire – http://www.spotfire.com/ – 可視化ツール • データの傾向把握 • 前処理、後処理 (例)映画情報の可視化 属性: Year : Integer Length : Integer Title : String Subject : String Actor : String Actress : String Director : String Popularity : Integer Awards : String *Image : String 事例数:1740 (例)映画情報の可視化 属性間の相関の可視化 クラスターの検知 各軸は属性から選択 (例)映画情報の可視化 Cont. Award受賞の映画 Subject別のPie Chart 株価の可視化の例 生検結果の可視化の例 生検結果の可視化の例 生検結果の可視化の例 外注検査データの可視化の例 Graph-Based Induction(GBI法) グラフ中に頻繁に現れるパターンをペアの逐次拡張(チ ャンキング)により抽出することによって特徴的なパター ンを発見するためのアルゴリズム 1 2 1 2 3 7 1 2 5 4 6 1 2 4 3 7 3 8 5 3 11 4 6 9 1 2 3 2 7 7 5 10 4 11 11 8 5 9 11 これまでの GBI のアルゴリズム チャンクするペア 12 1 1 4 1 2 2 4 1 3 2 33 1 3 3 1 3 5 21 1 33 2 4 3 1 3 3 1 1 4 43 1 35 4 5 5 1 3 3 3 3 3 5 1 3 34 23 2 3 2 2 11 1 1 1 1 数え上げたペアから得る情報は“どのペアが最も多いか” ということのみ GBI アルゴリズムの改良 チャンクするペア 12 1 1 2 2 4 4 1 3 2 33 1 3 3 1 33 2 4 3 1 3 3 1 1 4 3 3 2 1 3 43 1 35 1 4 5 5 1 3 3 3 4 3 3 1 1 1 2 1 3 5 1 21 1 33 43 特徴的なペア 特徴的なペア 3 3 5 1 3 34 23 2 3 2 2 11 1 1 1 1 数え上げたペアからより多くの情報を得ることができるようになる チャンクするペアを選択する評価関数と同じ必要はない 変異原性物質データへの適用 • 230個の芳香族ニトロ化合物,複素環芳香族ニトロ化 合物 – – – – Inactive = 22 個 Low = 68 個 Medium = 105 個 High = 35 個 • 頂点のラベル ・・・ C, H, N, N +, O, O -, F, Cl, Br, I, S • 辺のラベル ・・・ 1, 2, 3, 4 • グラフのサイズ ・・・ 平均頂点数 25.6(13∼40) 変異原性物質データへの適用 • 抽出された特徴的なパターンとLogP 値, LUMO 値を属性として化合物を表現し, C4.5 の入力とし た C4.5 による分類 → Inactive Low Inactive 77 Low 88 Medium 1 High 0 n n Medium 11 11 36 36 23 23 1 High 4 21 21 69 69 18 18 0 3 12 12 16 16 正解( 黄色)2点, 隣のクラス(水色)1点, それ以外0点で評価 → 1.52点 これ以外の結果の得点 1.43点, 1.49点, 1.46点 過去の解析例 時系列を含む膠原病データの解析 ID 1 2 … … 診断(Diagnosis) … RA … PSS … … トランザクション ID 治療日(Date) GOT GPT T-BIL 1 1日目 多い 多い 多い 1 … 2日目 … 多い … 少ない … 多い … 2 … 1日目 … 少ない … 多い … 多い … ステップ数3 Diagnosis ; RA Dummy Dummy Dummy 一日の診断 GOT;多い GPT;多い T‐BIL;多い GOT;多い GPT;少ない T‐BIL;多い GOT;多い GPT;多い T‐BIL;多い n 患者の治療歴の全ての 治療日を基準として複数の トランザクションを得る. (トランザクション数;47652, ノードの種類数;216) Diagnosis ; RA GOT;多い GPT;多い T‐BIL;多い Dummy Dummy GOT;多い GPT;少ない T‐BIL;多い GOT;多い Diagnosis ; RA Dummy Dummy GPT;多い GOT;多い T‐BIL;多い GPT;多い T‐BIL;多い Dummy GOT;多い GPT;少ない ID Date GOT GPT T-BIL 1 1日目 多い 多い 多い 1 1 2日目 3日目 多い 多い 少ない 多い 多い 多い 1 1 4日目 5日目 多い 多い 少ない 多い 多い 多い T‐BIL;多い GOT;多い Dummy GPT;多い T‐BIL;多い Diagnosis ; RA Dummy Dummy GOT;多い GPT;多い T‐BIL;多い GOT;多い GPT;少ない T‐BIL;多い Dummy GOT;多い GPT;多い T‐BIL;多い n 得られた多頻度グラフの例1 Diagnosis ; SLE Dummy Dummy support=5.0% GPT;[0.0,64.5] GOT;[3.0,49.0] GPT;[0.0,64.5] GOT;[3.0,49.0] 同じグラフ構造を示したDiagnosis Diagnosis RA SJS BEHCET support 1.70% 1.60% 1.10% 計算時間;約20000秒 GPTが[0.0,64.5]の範囲を示し,かつGOTが[3.0,49.0]の範囲を 示す事例が2ステップ続くことと,診断結果がSLEであることに 相関がある. n 得られた多頻度グラフの例2 Dummy Dummy Dummy GPT;[0.0,64.5] GOT;[3.0,49.0] GPT;[0.0,64.5] GOT;[3.0,49.0] T-BIL;[0.1,0.87] sup=59.0% GPT;[0.0,64.5]かつGOT;[3.0,49.0]を示す事例が2ステップ続く, かつ3ステップ目にT-BIL;[0.1,0.87]を示す事例が存在する というパターンが現れやすい. n 得られた多頻度グラフの例3 Dummy Dummy GPT;[0.0,64.5] GOT;[3.0,49.0] GPT;[0.0,64.5] GOT;[3.0,49.0] T-BIL;[0.87,26.1] sup=6.3% GPT;[0.0,64.5]かつGOT;[3.0,49.0]を示す事例の次のステップに, GPT;[0.0,64.5],GOT;[3.0,49.0]そして T-BIL;[0.87,26.1]を示す 事例が存在するというパターンが現れやすい. グラフ構造データからのパタン抽出 での課題 • グラフ構造化 – ノードのラベル • 属性値の離散化 • 属性のグループ化 – 辺 • 時系列の扱い方 • データ変換 – RDBでのテーブル形式への変換 – Spotfireでの可視化 → グループ化