Comments
Description
Transcript
不等式女性男性
非ユークリッド関係性データの 局所的な視覚化 大阪府立大学 大学院 工学研究科 ○山本剛史 本多克宏 野津亮 市橋秀友 目次 I. はじめに II. Fuzzy c-Medoidsに基づく線形クラスタリング III. 関係性データの局所的な視覚化 IV.数値実験 V. おわりに 目次 I. はじめに II. Fuzzy c-Medoidsに基づく線形クラスタリング III. 関係性データの局所的な視覚化 IV.数値実験 V. おわりに はじめに 研究背景 リレーショナルクラスタリング: 関係性データに内在するデータ構造を抽出 Relational Fuzzy c-Means(RFCM) [Hathaway and Bezdek 1989] Fuzzy c-Meansの関係性データへの拡張版 Non Euclidean Relational Fuzzy(NERF) c-Means [Hathaway and Bezdek 1994] 非ユークリッドな関係性データへ対応 Fuzzy c-Medoids(FCMdd)に基づく線形クラスタリング [Haga et al. 2010] 関係性データから線形構造を抽出 非ユークリッドな関係データからの 線形構造の抽出できるように拡張 [Yamamoto et al. 2010] はじめに 本研究の目的 関係性データの局所的な視覚化 抽出した線形構造を利用 クラスターにおける局所的な主成分得点よ る低次元マップを作成 低次元マップからの知識発見 FCMddに基づく線形クラスタリングを非ユークリッド な関係性データに実行,クラスターごとに視覚化 目次 I. はじめに II. Fuzzy c-Medoidsに基づく線形クラスタリング III. 関係性データの局所的な視覚化 IV.数値実験 V. おわりに 関係性データ 2 D { d 各データ間の関係を表す行列 ij } i, j 1,2,..., n 非類似度:どれだけデータが似ていないか データ間の距離のみ: プロトタイプ計算が困難 体重(kg) 65 男性 class 1 ⑤ ④ ⑥ 60 55 ② ① プロトタイプ ③ 50 女性 class 160 165 170 175 180 身長 (cm) 1 2 3 4 5 6 2 3 4 5 6 0.0 5.00 11.2 11.2 14.1 20.6 5.00 0.0 7.1 7.1 11.2 15.8 11.2 7.1 0.0 10.0 15.0 14.1 11.2 7.1 10.0 0.0 5.00 10.0 14.1 11.2 15.0 5.00 0.0 11.2 20.6 15.8 14.1 10.0 11.2 0.0 関係データは通常の方法では,クラスタリング困難 Fuzzy c-Medoids (FCMdd) [Krishnapuram et al. 2001] 体重 (kg) 65 Medoid 男性 class 60 プロトタイプ:データ点から選択 距離のみで表現 Medoid 55 女性 class 50 160 165 170 Medoids 175 180 身長 (cm) 関係性データに適用可能 Medoidを2点選択 プロトタイプを直線に拡張 Prototype Line FCMddに基づく線形クラスタリング [Haga et al. 2010] 直線プロトタイプの定義 x c2 を通る直線 2つのmedoids xc1 , Linec (xc1 , xc2 ) {x | x xc1 t (xc2 xc1 ); t R} d (xi , Linec ) : 直線 Linecとデータ点 x i の距離 xi d c1i xc1 d ( xi , Linec ) 2 d c2 i dc1c2 x c2 2 d c1i (d c21i d c22i d c21c2 ) 2 4d c21c2 Linec 関係性データで線形クラスタリング可能 FCMddに基づく線形クラスタリング [Haga et al. 2010] アルゴリズム:以下の2stepの繰り返し 1. 直線プロトタイプを定義するMedoidを2点選択 2. 各クラスのメンバシップ(所属度合い)更新 直線プロトタイプとデータ点との誤差の総和の最小化 C n min L fcmdd uci Dci : fuzzifier c 1 i 1 C s.t. uci 0,1 uci 1 c 1 Dci d 2 ( xi , Linec ) d c21i ( d c21i d c22i d c21c2 ) 2 uci 4d c21c2 C Dci l 1 Dli 1 1 1 非ユークリッド関係データの問題点 問題点 : 三角不等式が不成立 dc1i dc2i dc1c2 xi d c1i xc1 d 2 ( xi , Linec ) d c21i d c2 i dc1c2 dc1i dc2i dc1c2 (d c21i d c22i d c21c2 ) 2 4d c21c2 x c2 Linec 非ユークリッドな関係データ ユークリッド - spread transformation β-spread transformation [Hathaway and Bezdek 1994] 関係性データ D の非対角成分に を追加 D D (M I ) 1 1 I :単位行列 M 1 1 P I (1 / n)M もし が PDP の最大固有値ならば, D は完全にユークリッド が最大固有値よりもずっと小さい値でも クラスタリングの性能は向上 β-spread transformation [Hathaway and Bezdek 1994] xi d c2 i d c1i dc1i dc2i dc1c2 Linec dc1i dc2i dc1c2 x c1 dc1c2 x c2 • 三角不等式が成立 • ユークリッド空間に存在 非ユークリッドな関係データ ユークリッド クラスタリング基準が負にならないために, 三角不等式を満たすように を自動的に更新 目次 I. はじめに II. Fuzzy c-Medoidsに基づく線形クラスタリング III. 関係性データの局所的な視覚化 IV.数値実験 V. おわりに 関係データの局所的な視覚化 Hagaらは線形ファジィクラスタリングとファジィ主成分分析 との類似性から,関係性データの低次元視覚化法を提案 各クラスターの局所的な主成分得点を使って視覚化 medoids 直線プロトタイプ f ci2 (d ci21 d ci2 2 d c212 ) 2 :第cクラスターの主成分得点 2 4d c12 関係性データに内在するデータ構造を1次元視覚化 アルゴリズム Step.1 0 とし,プロトタイプmedoidsの初期化. Step.2 クラスタリング基準 Dci の計算 Step.3 もし,Dci 0 なら, を更新. max{ dc1c2 dc1i dc2i } Step.4 Step.5 Step.6 Step.7 メンバシップ uci の更新 各々のクラスターのmedoids xc1 , xc2 探索 収束条件を満たすまでStep2-5の繰り返し 結果から関係データの局所的な視覚化 目次 I. はじめに II. Fuzzy c-Medoidsに基づく線形クラスタリング III. 関係性データの局所的な視覚化 IV.数値実験 V. おわりに 数値実験 局所的な視覚化をテキストマイニングに適用 テキストの非ユークリッドな関係性データを FCMddに基づく線形クラスタリングに適用 クラスタリング結果から局所的な視覚化 視覚化されたデータからの知識発見 数値実験 夏目漱石「こころ」のText Map 2 夏目漱石「こころ」 上36節,中18節,下56節 10個キーワードの出現回 数に関するテキストデータ Extended Jaccard係数で関 係性データを作成 作成したこころの非ユークリッドな関係性データ -2 にFCMddに基づく線形クラスタリングを適用 -1 0 1 2 上 中 下 0 -2 Extended Jaccard係数:類似度を計算するための係数 キーワードの出現頻 k 1 度で類似度計算 10 10 10 k 1 xik2 k 1 x2jk k 1 xik x jk 類似度を非類似度に 変換 xik:節iでのキーワードkの出現回数 10 sij xik x jk 数値実験(クラスタリング結果) :クラスター1 :クラスター2 :あいまいなメンバシップ :medoids 2 1 0 線形構造の抽出に成功 上,中と下の節に分類 - spread transformation 実行 0.3313997 -1 -2 -3 -2 -1 0 1 2 クラスタリング結果 抽出した線形構造から低次元視覚化を実行 数値実験(局所的な視覚化) 節番号 クラスター1 2 40 1 0 -1 -2 :上 :中 0 0.5 1 局所主成分得点の1次元マップ 20 : 上 : 中 0 0 0.5 1 • 上に属する節と,中に属する節がきれいに分割 • 前後の節と内容が乖離した外れ値が一部存在 • 中に属する節では,節番号とクラスター1 における主成 分得点の間に-0.50051 の負の相関 数値実験(局所的な視覚化) 節番号 クラスター2 2 100 1 90 0 -1 -2 :下 0 0.5 1 80 70 :下 局所主成分得点の1次元マップ 0 0.5 1 • それぞれの節は下における中心的人物である「K」 というキーワードに強い影響 • 「K」の登場前(第72 節まで)と,登場後の節で分割 目次 I. はじめに II. Fuzzy c-Medoidsに基づく線形クラスタリング III. 関係性データの局所的な視覚化 IV.数値実験 V. おわりに おわりに 非ユークリッドな関係データの局所的な視覚化 局所的な主成分得点による低次元マップ作成 テキストマイニングに適用 低次元マップによってデータの直感的理解が可能 低次元マップから局所的な相関関係を抽出 今後の課題 実世界のデータでの低次元視覚化の適用, 多次元プロトタイプへの拡張 Extended Jaccard係数(予備資料) Jaccard係数: キーワードの共起情報による類似 とあるキーワードに関する2者間の共起 度計算方法 sij a abc 1 0 total 1 0 total a b ab c ac bd m d cd Extended Jaccard係数:Jaccard係数を拡張 sij m k 1 2 xik m xik x jk k 1 m x 2jk k 1 m k 1 xik x jk xik :節iでのキーワードkの出現回数 dij max skl sij 類似度から非類似度へと変換 k ,l