統計的信頼区間を用いた特徴的な部分データの効率的探索

by user

on 28 марта 2017

Category: Documents

>> Downloads: 5

views

Report

Comments

Description

Download 統計的信頼区間を用いた特徴的な部分データの効率的探索

Transcript

統計的信頼区間を用いた特徴的な部分データの効率的探索

DEIM Forum 2016 D3-4
統計的信頼区間を用いた特徴的な部分データの効率的探索
水野陽平†
鬼塚真†
†大阪大学情報科学研究科〒565-0871 大阪府吹田市山田丘 1-5
E-mail: †{mizuno.yohei, onizuka}@ist.osaka-u.ac.jp
全商品
全体の傾向を把握したり，例外的なデータを発見する
男性が購入した商品
2014年12月
2014年11月
2014年10月
2014年9月
2014年8月
元からデータベースを集約・グループ化してデータの
2014年7月
れている． OLAP 型の分析を用いることで，様々な次
2014年6月
解析においては OLAP 型の分析処理 []が頻繁に用いら
2014年5月
が重要な課題となっている．特に，ビジネスデータの
2014年4月
して考え，有益な情報を抽出する手法を適用すること
2014年3月
つ多様性に富んだデータであるビッグデータを資源と
正規化した月毎の売り上げ
2014年2月
これまで企業が扱ってきたデータ以上に大規模か
0.25
0.2
0.15
0.1
0.05
0
2014年1月
1. まえがき
正規化した売り上げ
あらましビジネスデータの解析においては，データ全体の特徴を分析する OLAP(online analytical processing) 型の
集約・グループ化の分析処理が頻繁に用いられているが，販売データの地域性や時期性の影響を見て販売戦略を決
める場合などでは，ユーザが指定した分析クエリに対して，有用性が高い分析結果を生み出す部分データを探索す
ることが重要である（これを特徴部分データ探索問題と呼ぶ）
．この問題を処理するためには，総当りで部分データ
を探索して分析クエリを実行して分析結果の有用性を判定する必要があるため，膨大な時間を要する．そこで本稿
では，特徴部分データ探索処理の高速化に取り組む．具体的には，統計的信頼区間を用いることで，有用性が高い
分析結果の候補になり得ない部分データの探索の足きりを行い高速化を図る．実際の販売データに対して提案技術
を適用した結果，95％の信頼水準において最大 3 倍の高速化を確認した．
キーワードマイニング，可視化
衣服
ことができる．特に，データ全体の傾向とは異なる傾
図 1.1：全商品，男性が購入した商品，衣服の正規化し
向を示す部分データを特定することで，特徴的な部分
た月毎の売り上げ
データを発見できる場合がある．例えば，販売データ
はないが，衣服に関する商品の月間総売り上げの遷移
の地域性や時期性の影響を見て販売戦略を決めたい場
は全商品の月間総売り上げの遷移と乖離が大きいため，
合などでは，分析処理に対して有用性が高い分析結果
全商品と比較して衣服の売り上げは販売時期の影響を
を生み出す部分データを探索することが重要である．
大きく受けていると判断できる．そのため，衣服の
本稿ではこれを特徴部分データ探索問題と呼ぶ．
2014年 3月の売上が高い要因を分析し，その要因を他の
具体例として，企業の販売データの分析を用いて，
特徴部分データ探索問題の重要性を説明する．
企業の販売データの分析
商品販売に水平展開することによって，他の商品の売
り上げも伸ばすことができる可能性がある．
上記の分析を行うためには，任意の条件を満たす部
販売データを分析する場合，商品全体の売り上げの傾
分データを選択し，部分データ毎に分析処理を行い，
向からの乖離が大きい商品を見つけることが重要であ
部分データの分析結果と全データの分析結果の乖離が
る．なぜならば，例えば商品全体の月毎の売上げ傾向
どの程度かを判断する必要がある．分析する部分デー
と異なる商品の場合，その商品は時期の影響が大きい
タの数は，部分データの条件に用いる属性の取り得る
と判断できるためである．この判断に基づいて，該当
値の件数となり膨大である．そのため，条件を満たす
の商品の調達量を月毎に調整し，また売り上げが低い
部分データを手動で総当りするには多くの時間を要す
月に新商品の投入や PR を行うなどの販売方針を戦略
る．
的に決定することができる．例えば，図 1.1は全商品，
本稿では上記の問題に対して，特徴的な部分データ
男性が購入した商品，衣服に関する商品の月毎の売り
を自動で高速に探索する手法を提案する．
上げの遷移の可視化結果である（但し， 1 年の売り上
自動化する技術：有用性が高い分析結果を生み出す部
げの総和が 1 になるよう正規化している）．男性が購
分データとは，全体データの分析結果との乖離の程度
入した商品の月間総売り上げの遷移は全商品の月間総
が大きいと仮定する．利用者は集約・グループ化によ
売り上げの遷移と乖離が小さいため，特徴的な情報で
る分析クエリを事前に与え，更に分析処理を全体デー
タおよび部分データに実行して得た分析結果同士の乖
𝑃𝑟(𝑡)に対して， t > 0 において以下の式で上界を与え
離の程度を数値化する関数を事前に与える．解くべき
ることができる．
技術課題は，分析処理を全体データに実行して得た分
析結果に対して，特徴的な部分データの上位 𝑘件を自
𝑃𝑟(𝑡) ≤ 𝑒𝑥𝑝[−2𝑛𝑡 2 ⁄(1 − 𝑓𝑛 )(𝑏 − 𝑎)2 ]
但し， 𝑓𝑛 = (𝑛 − 1)⁄𝑁， 𝑎 = min 𝑋𝑖 ， 𝑏 = max 𝑋𝑖 である．
1≤𝑖≤𝑁
動で求めることである．
(2.2)
1≤𝑖≤𝑁
高速化する技術：本稿では，特徴部分データ探索問題
に対して，統計的信頼区間推定の技術を用いることで，
2.1. Hoeffding の確率不等式を用いた区間推定
上位 𝑘件の部分データの探索範囲を削減するアプロー
信頼区間は，母数がどのような数値の範囲にあるか
チで高速化に取り組む．具体的には，分析対象のデー
を確率的に示す方法である．母数とは，確率変数の分
タの処理の途中において，統計的信頼区間推定の技術
布を特徴付ける数である．式 (2.2)より平均値 𝜇の信頼区
を適用することで分析結果の上限値と下限値を推定し，
間の式を導出する．区間を推定するので， 𝑥̅ の値が 𝜇の
上位 𝑘件の候補になり得ない部分データの探索を足き
値より大きくなる場合だけでなく，小さくなる場合も
りする．更に，足きりの可能性を高めるため，分析対
仮定する必要があり，考える確率は式 (2.1)の 𝑥̅ − 𝜇に絶
象の値に関する分布に基づいて外れ値のデータ集合を
対値を付けた以下の式になる．
𝑃𝑟 ′ (𝑡) = 𝑃𝑟 ′ [|𝑥̅ − 𝜇| ≥ 𝑡]
特定し，外れ値のデータ集合に対して事前に部分デー
(2.3)
タの乖離度を計算してから，外れ値以外のデータ集合
式 (2.3)は，式 (2.1)の 𝑥̅ − 𝜇に絶対値を付けた式なので，
を対象に統計的信頼区間推定の技術を適用して特徴部
確率 𝑃𝑟 ′ (𝑡)は，式 (2.2)の確率 𝑃𝑟(𝑡)の 2 倍となり，t > 0 に
分データの探索を行う．本稿では，提案手法のプロト
おいて以下の式で上界 𝛼を与えることができる．
タイプを実装し実データを用いた評価実験を行った．
𝑃𝑟 ′ (𝑡) ≤ 2 ∙ 𝑒𝑥𝑝[−2𝑛𝑡 2 ⁄(1 − 𝑓𝑛 )(𝑏 − 𝑎)2 ] = 𝛼
(2.4)
評価実験により， 95％の信頼水準において上位 1 件の
式 (2.3), (2.4)より，母集団の平均値 𝜇の 100 ∙ (1 − 𝛼)%信頼
特徴部分データを探索する場合，最大で 3 倍の高速化
区間（ 𝛼は信頼区間の有意水準）の式 (2.5)を導出するこ
が可能であることを確認した．
とができる．
𝑥̅ − 𝑡 < 𝜇 < 𝑥̅ + 𝑡
本稿の構成は，以下の通りである．2章にて前提知識
(2.5)
について説明し， 3章において提案手法の詳細を示し，
式 (2.4)を 𝑡について整理すると， 𝑡の値は以下の式で計
4章にて提案手法の評価と分析について説明する． 5章
算することができる．
にて関連研究について述べ，6 章にて本稿をまとめ，
今後の課題について論ずる．
𝑡 = √(1 − 𝑓𝑛 )(𝑏 − 𝑎)2 (log 2 − log 𝛼)⁄2𝑛
(2.6)
導出した信頼区間の式の適用例を示す．データ数 50
の母集団（ 0 ≤ 𝑥𝑖 ≤ 1）から非復元抽出で 10(= 𝑛)の標本
をサンプリングする．
（標本：{0.5, 0.3, 0.4, 0.6, 0.9, 0.5, 0.1,
2. 事前知識
本章では提案手法に用いた信頼区間と信頼区間の
0.2, 0.4, 0.4}）．標本平均は，𝑥̅ = 0.43である．母集団の最
推定に用いている確率不等式について説明する．2.1節
小値は， 𝑎 = 0，最大値は 𝑏 = 1とした場合，式 (2.6)に各
では Hoeffding の確率不等式について， 2.2 節では
値を代入すると，母集団の平均値 𝜇の 95%(𝛼 = 0.05)信頼
Hoeffding の確率不等式を用いた平均値の区間推定に
区間は以下のように計算できる．
ついて説明する．
𝑡 = √(1 −
2.1.Hoeffding の確率不等式
確率不等式は，母集団の確率変数に対して，具体的
な確率分布を想定せず，期待値や分散などの限定的な
10 − 1
) (1 − 0)2 (log 2 − log 0.05)⁄(2 × 10)
50
𝑡 = 0.041
∴ 0.389 < 𝜇 < 0.471
情報だけに基づいて，それらの確率変数の和あるいは
平均に関する上限確率の上界を評価するものである．
3. 提案手法
Hoeffding の確率不等式は，確立変数の期待値や有限
本章では提案手法について説明する．3.1節で特徴部
の定義域が判明しているときに，確率変数の上限確率
分データ特定問題の概要，3.2節で問題を解く工程の説
の上界を与える有用な確率不等式として知られている．
明，3.3節でその工程の高速化の際に，部分データの足
分布系が未知の場合に，非復元抽出した標本の平均値
きりに Hoeffding の確率不等式を用いた区間推定の技
が母集団の平均値を超える確率は以下の式で表せる．
術を適用する手法について説明する．
𝑃𝑟(𝑡) = 𝑃𝑟[𝑥̅ − 𝜇 ≥ 𝑡]
1
1
𝑛
𝑁
但し，𝑥̅ = ∑𝑛𝑖=1 𝑥𝑖 ，𝜇 =
(2.1)
∑𝑁
𝑖=1 𝑋𝑖 であり，n はサンプリ
ングサイズ，N は母集団のデータ数である．この確率
3.1.問題定義
利用者は集約・グループ化による分析処理を事前に
与え，更に分析処理を全体データおよび部分データに
実行して得た分析結果同士の乖離度を数値化する関数
図 3.1：設定した問題を解く工程
を事前に与える．特徴部分データ探索問題は，分析処
を取得する処理である．
理を全体データに実行して得た分析結果に対して，有
𝑎𝑟𝑔 top-k 𝑈 (𝑉(𝐷), 𝑉(𝑆(𝐷, 𝑎, 𝑋)))
用性が高い分析結果を生み出す部分データの上位 𝑘件
(3.5)
𝑆
を求める問題である．全体データを 𝐷，集約・グループ
化処理を 𝑉，部分データを選択するクエリを 𝑆とする．
𝑉, 𝑆は以下の形式で定義される．
S(𝐷, 𝑎, 𝑋) ≡ 𝜎(𝑎=𝑋) (𝐷)
𝐷
V(𝐷, 𝑏, 𝑓, 𝑚) ≡ 𝑊𝑏,𝑓(𝑚)
但し， 𝑎𝑟𝑔 top-k 𝑓(𝑥)は 𝑥を変化させた際に 𝑓(𝑥) が最大
𝑆
(3.1)
(3.2)
の値を返却する上位 𝑘個の 𝑥を返却する関数であり， 𝑈
但し，𝑎, 𝑏, 𝑚は 𝐷の属性，𝑋は属性 𝑎の値，𝑓は属性 𝑚に対
は 2つのシーケンスを入力として，シーケンスを構成す
する集約関数である． 𝜎はリレーショナル代数におけ
る各要素の乖離の総和を計算する関数である．乖離度
る選択演算，𝑊は 𝑏でグループ化し各グループごとに集
を数値化する具体的な関数として，ユークリッド距離
約関数 𝑓を 𝑚に適用する処理である．例えば，図 1.1の衣
を用いる．
服に関する商品の月毎の売り上げを計算する処理は，
3.2.問題を解く行程の概要
𝑊
𝜎(カテゴリ =衣服 ) (𝐷)
受注年月 ,𝑆𝑈𝑀(販売金額 )
(3.3)
特徴部分データ探索問題を解く工程を具体例と図
3.1を用いて，説明する．
と表現される．以後，集約・グループ化処理は事前に
①
決められているため引数を省略する．Vが集約・グルー
全体データ 𝐷に対して事前に与えられた集約・グルー
プ化処理であるため，その結果はシーケンス型であり，
プ化処理 𝑉を実行する．（図 3.1の下側の 𝑉(𝐷)に該当す
以下の形式で表現する．
る）．例えば 1章で説明した企業の販売データを分析す
𝑉(𝐷) = [(𝐵1 , 𝑌1 ), ⋯ , (𝐵ℎ , 𝑌ℎ )] (3,4)
但し，{𝐵1 , ⋯ , 𝐵ℎ } = 𝜋𝑚 (𝐷)，𝑌𝑖 (𝐷) = 𝑓 (𝜋𝑚 (𝜎𝑏=𝐵𝑖 (𝐷))) (1 ≤
𝑖 ≤ ℎ)である． 𝐵𝑖 に属するデータを， 𝑌𝑖 の入力である
𝜋𝑚 (𝜎𝑏=𝐵𝑖 (𝐷))に属するデータと定義する．また，𝐷 = 𝐻 ∪
𝑇とすると 𝑌𝑖 (𝐷) = 𝑓 (𝜋𝑚 (𝜎𝑏=𝐵𝑖 (𝐻 ∪ 𝑇)))である． σと πに
対して ∪ は分配則が適用可能であるため， 𝑌𝑖 (𝐷) =
𝑓 (𝜋𝑚 (𝜎𝑏=𝐵𝑖 (𝐻)) ∪ 𝜋𝑚 (𝜎𝑏=𝐵𝑖 (𝑇)))である． 𝑓 が SUM や
COUNT の場合は， +によって 𝑓を分解可能であり，
𝑌𝑖 (𝐷) = 𝑓 (𝜋𝑚 (𝜎𝑏=𝐵𝑖 (𝐻))) + 𝑓 (𝜋𝑚 (𝜎𝑏=𝐵𝑖 (𝑇)))となる．提
全体データ集約・グループ化処理ステップ
る場合では， 𝑉が月毎の売り上げを計算する処理であ
る． 𝑉 は SQL 言語により以下のように記述できる．
SELECT 受注年月 , SUM(販売金額 )
FROM テーブル名
GROUP BY 受注年月
②部分データ検索ステップ
全体データ 𝐷に対して部分データを検索するクエリ 𝑆
を実行する．（図 3.1の 𝑆(𝐷, 𝑎1 , 𝑋1 ), 𝑆(𝐷, 𝑎1 , 𝑋2 ), … ,
𝑆(𝐷, 𝑎𝑛 , 𝑋𝑚 )に該当する）．例えば 1章で説明した場合で
は，𝑆は全商品から男性が購入した商品を選択する処理
である．
③部分データ集約・グループ化処理ステップ
様々な部分データ 𝑆(𝐷, 𝑎1 , 𝑋1 ), 𝑆(𝐷, 𝑎1 , 𝑋2 ), … , 𝑆(𝐷, 𝑎𝑛 , 𝑋𝑚 )
に対して，事前に与えられた集約・グループ化処理 Vを
案手法では，集約関数として SUM や COUNT を仮定す
実行する．（図 3.1の 𝑉(𝑆(𝐷, 𝑎1 , 𝑋1 )), 𝑉(𝑆(𝐷, 𝑎1 , 𝑋2 )) , … ,
る．
𝑉( 𝑆(𝐷, 𝑎𝑛 , 𝑋𝑚 ))に該当する）．例えば 1章で説明した場合
次に，全体データと部分データに同じ集約・グルー
では，男性が購入した商品に関する月毎の売り上げを
プ化処理をした結果同士の乖離度を数値化する関数を
計算する例が挙げられる．
𝑈としたときに，式 (3.5)により上位 𝑘件の部分データを
④乖離度数値化ステップ
取得する．式 (3.5)は，乖離度を数値化した値の上位 𝑘件
各部分データの分析結果 𝑉(𝑆(𝐷, 𝑎1 , 𝑋1 )), 𝑉(𝑆(𝐷, 𝑎1 , 𝑋2 )), …,
𝑉( 𝑆(𝐷, 𝑎𝑛 , 𝑋𝑚 ))と全体データの分析結果 𝑉(𝐷)に関して，
関数 𝑈を用いて，乖離度を数値化する．例えば ① と ③ の
例で挙げた全商品に関する月毎の売り上げと男性が購
入した商品に関する月毎の売り上げとのユークリッド
距離を計算する例が挙げられる．
⑤可視化ステップ
乖離度数値化ステップで計算した数値が上位 𝑘件の結
果を可視化する．
（図 3.1では 𝑘 = 2である）．例えばユー
クリッド距離の値が大きい部分データの分析結果を折
れ線グラフとして表示する例が挙げられる．
3.3.高速化
本節では，特徴部分データ探索問題に対して，統計
的信頼区間推定の技術を用いることで，上位 𝑘件の部
分データの探索範囲を削減する手法について説明する．
3.3.1.概要
特徴部分データ探索問題における特徴として，大半
の部分データの分析結果の傾向は，全体データの分析
結果の傾向に類似していることが挙げられる．このよ
うな全体データの分析結果からの乖離が小さい部分デ
ータは，上位 𝑘件の候補になり得ないため，分析対象の
データの処理の途中において足きりすることが望まし
い．そのため，統計的信頼区間推定の技術を適用して，
上位 𝑘件の候補になり得ない部分データを早期に判断
して，候補となる部分データの探索を足きりをするこ
とで処理の高速化を図る．
具体的には，分析対象のデータの処理の途中におい
て，統計的信頼区間推定の技術を適用することで分析
結果の上限値と下限値を推定し，上位 𝑘件の候補にな
り得ない部分データの探索を足きりする．更に，足き
りの可能性を高めるため，分析対象の値に関する分布
に基づいて外れ値のデータ集合を特定し，外れ値のデ
ータ集合に対して事前に部分データの集約・グループ
化処理をしてから，外れ値以外のデータ集合を対象に
統計的信頼区間推定の技術を適用して特徴部分データ
の探索を行う．
提案手法の処理の流れは以下の通りである．
・事前処理として，集約対象のデータに関する分布に
基づいて，分析対象である入力データを外れ値のデー
タと残りのデータの 2つに分割する．
・外れ値のデータに対して，部分データ毎に分析処理
を実行する．
・外れ値以外のデータに対して，データを M 個のパー
ティションに分割し，パーティション毎に段階的に統
計的信頼区間推定の技術を適用して，分析結果の上限
値と下限値を更新し，上位 𝑘件の候補になり得ない部
分データの探索を足きりする．具体的には， 1) 各部
分データ毎に，全体件数と平均値の統計的信頼区間を
推定し，これらの積によって外れ値以外の部分データ
の集約結果（総和）の統計的信頼区間を導出する．導
出した統計的信頼区間の値に外れ値の部分データの集
約結果の値を加算することにより部分データの集約結
果の統計的信頼区間を求める．2) 得られた集約結果の
統計的信頼区間を用いて，全体データの集約・グルー
Algorithm1: 信頼区間の技術を用いた部分データの足
きり方法
Input: 𝐴𝑙𝑙, 𝐻, 𝑇, 𝑎1 , ⋯ 𝑎𝑙 , 𝑏, 𝑚, 𝑓, 𝛼, 𝑘
Output: 𝑅𝑒𝑠𝑢𝑙𝑡
1 ∶ 𝑂𝑢𝑡𝑙𝑖𝑒𝑟 = 𝑃𝑟𝑒𝐺𝑟𝑜𝑢𝑝𝐵𝑦𝐴𝑔𝑔𝑟𝑒𝑔𝑎𝑡𝑒(𝐻, 𝑚, 𝑏, 𝑓)
2 ∶ 𝑇𝑀 ← 𝑃𝑎𝑡𝑖𝑡𝑖𝑜𝑛(𝑇)
3 ∶ 𝐟𝐨𝐫 𝐞𝐚𝐜𝐡 𝑇𝑖 ∈ 𝑇 𝐝𝐨
4 ∶ 𝐺𝑟𝑜𝑢𝑝𝐵𝑦𝐴𝑔𝑔𝑟𝑒𝑔𝑎𝑡𝑒(𝑅𝑒𝑠𝑢𝑙𝑡, 𝑇𝑖 , 𝑚, 𝑏, 𝑓, )
5 ∶ 𝐟𝐨𝐫 𝐞𝐚𝐜𝐡 𝑎𝑗 ∈ 𝑎1 , ⋯ 𝑎𝑙 𝐝𝐨
6 ∶ 𝐟𝐨𝐫 𝐞𝐚𝐜𝐡 𝑋𝑜 ∈ 𝑎𝑗 𝐝𝐨
7∶
𝐟𝐨𝐫 𝐞𝐚𝐜𝐡 𝐵𝑝 ∈ 𝑅𝑒𝑠𝑢𝑙𝑡[𝑎𝑗 = 𝑋𝑜 ] 𝐝𝐨
//各部分データ毎に件数と平均値の信頼区間を推定
8∶
𝑡𝑎𝑣𝑒 ← 𝐶𝑎𝑙𝑐𝑢𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝐴𝑣𝑒(𝑅𝑒𝑠𝑢𝑙𝑡, 𝛼)
9∶
𝑡𝑛𝑢𝑚 ← 𝐶𝑎𝑙𝑐𝑢𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑁𝑢𝑚(𝑅𝑒𝑠𝑢𝑙𝑡, 𝛼)
10:
𝑈𝑛𝑢𝑚 = 𝑅𝑒𝑠𝑢𝑙𝑡[𝑎𝑗 = 𝑋𝑜 ][𝐵𝑝 ]. 𝐶𝑜𝑢𝑛𝑡
+(𝑥̅𝑛𝑢𝑚 + 𝑡𝑛𝑢𝑚 ) ∗ 𝑈𝑛𝑝𝑟𝑜𝑐𝑒𝑠𝑠𝑒𝑑𝐷𝑎𝑡𝑎𝑁𝑢𝑚
11:
𝐿𝑛𝑢𝑚 = 𝑅𝑒𝑠𝑢𝑙𝑡[𝑎𝑗 = 𝑋𝑜 ][𝐵𝑝 ]. 𝐶𝑜𝑢𝑛𝑡
+(𝑥̅𝑛𝑢𝑚 − 𝑡𝑛𝑢𝑚 ) ∗ 𝑈𝑛𝑝𝑟𝑜𝑐𝑒𝑠𝑠𝑒𝑑𝐷𝑎𝑡𝑎𝑁𝑢𝑚
// 件数と平均値の積によって集約結果の信頼区間を
導出
12:
𝑅𝑒𝑠𝑢𝑙𝑡[𝑎𝑗 = 𝑋𝑜 ][𝐵𝑝 ]. 𝑈𝑝𝑝𝐵𝑜𝑢𝑛𝑑
= 𝑂𝑢𝑡𝑙𝑖𝑒𝑟[𝑎𝑗 = 𝑋𝑜 ][𝐵𝑝 ] + (𝑥̅𝑎𝑣𝑒 + 𝑡𝑎𝑣𝑒 ) ∗ 𝑈𝑛𝑢𝑚
13:
𝑅𝑒𝑠𝑢𝑙𝑡[𝑎𝑖 ][ 𝑋𝑖 ][𝐵𝑝 ]. 𝐿𝑜𝑤𝐵𝑜𝑢𝑛𝑑
= 𝑂𝑢𝑡𝑙𝑖𝑒𝑟[𝑎𝑗 = 𝑋𝑜 ][𝐵𝑝 ] + (𝑥̅𝑎𝑣𝑒 − 𝑡𝑎𝑣𝑒 ) ∗ 𝐿𝑛𝑢𝑚
14: 𝐞𝐧𝐝 𝐟𝐨𝐫
15: 𝐟𝐨𝐫 𝐞𝐚𝐜𝐡 𝐵𝑝 ∈ 𝑅𝑒𝑠𝑢𝑙𝑡[𝑎𝑗 = 𝑋𝑜 ] 𝐝𝐨
16:
𝑦𝑚𝑎𝑥 ← 𝐿𝑎𝑟𝑔𝑒(𝑅𝑒𝑠𝑢𝑙𝑡[𝑎𝑗 = 𝑋𝑜 ][𝐵𝑝 ], 𝐴𝑙𝑙[𝐵𝑝 ])
17:
𝑦𝑚𝑖𝑛 ← 𝑆𝑚𝑎𝑙𝑙(𝑅𝑒𝑠𝑢𝑙𝑡[𝑎𝑗 = 𝑋𝑜 ][𝐵𝑝 ], 𝐴𝑙𝑙[𝐵𝑝 ])
//全体データの集約結果との乖離度の上限値を計算
18:
𝑆𝑐𝑜𝑟𝑒[𝑎𝑗 = 𝑋𝑜 ]. 𝐵𝑒𝑠𝑡 += 𝑈𝑡𝑖𝑙𝑖𝑡𝑦(𝐴𝑙𝑙[𝐵𝑝 ], 𝑦𝑚𝑎𝑥 )
//全体データの集約結果との乖離度の下限値を計算
19:
𝑆𝑐𝑜𝑟𝑒[𝑎𝑗 = 𝑋𝑜 ]. 𝑊𝑜𝑟𝑠𝑡 += 𝑈𝑡𝑖𝑙𝑖𝑡𝑦(𝐴𝑙𝑙[𝐵𝑝 ], 𝑦𝑚𝑖𝑛 )
20: 𝐞𝐧𝐝 𝐟𝐨𝐫
21: 𝐞𝐧𝐝 𝐟𝐨𝐫
22: 𝐞𝐧𝐝 𝐟𝐨𝐫
// 全部分データにおいて乖離度の下限値が上位から k 番
目の値を閾値として設定
23: 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 ← 𝐺𝑒𝑡𝑇𝑜𝑝𝑘(𝑆𝑐𝑜𝑟𝑒, 𝑘)
24: 𝐟𝐨𝐫 𝐞𝐚𝐜𝐡 𝑎𝑗 ∈ 𝑎1 , ⋯ 𝑎𝑙 𝐝𝐨
25: 𝐟𝐨𝐫 𝐞𝐚𝐜𝐡 𝑋𝑜 ∈ 𝑎𝑗 𝐝𝐨
26: 𝐢𝐟 𝑆𝑐𝑜𝑟𝑒[𝑎𝑗 = 𝑋𝑜 ]. 𝐵𝑒𝑠𝑡 < 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 𝐭𝐡𝐞𝐧
//閾値を超えない部分データに関して足きりを行う
27:
𝑅𝑒𝑠𝑢𝑙𝑡. 𝑟𝑒𝑚𝑜𝑣𝑒( 𝑎𝑗 = 𝑋𝑜 )
28: 𝐞𝐧𝐝 𝐢𝐟
29: 𝐞𝐧𝐝 𝐟𝐨𝐫
30: 𝐞𝐧𝐝 𝐟𝐨𝐫
31: 𝐞𝐧𝐝 𝐟𝐨𝐫
32: 𝑟𝑒𝑡𝑢𝑟𝑛 𝑅𝑒𝑠𝑢𝑙𝑡
プ化結果からの乖離度の下限値（乖離が小さい）を計
算し，全部分データにおいて上位から 𝑘番目の値を閾
値として設定する．3) 各部分データ毎に，全体データ
からの乖離度の上限値（乖離が大きい）を計算し，閾
値を超えない部分データに関して足きりを行う．
3.3.2.適用方法
信頼区間の技術を用いた部分データの足きりの適用
方法を Algorithm1に示す．事前に全体データに対して
集約・グループ化処理を実行する（図 3.1の ① ： 𝑉(𝐷)）
と共に，分析対象である入力データを外れ値のデータ
𝐻と残りのデータ 𝑇の 2つに分割する（ 𝐷 = 𝐻 ∪ 𝑇）．集約・
グループ化処理の際，部分データの区間推定に用いる
ために，シーケンスを構成している各要素の最小値や
集約したデータ数などの統計情報を取得する．また結
果の正規化を行う．外れ値のデータ 𝐻を入力として，各
部分データ毎に集約・グループ化結果を実行する（ 1行
目，𝑉 (𝜎(𝑎=𝑋) (𝑇))）．1行目の 𝑂𝑢𝑡𝑙𝑖𝑒𝑟の型は 2次元連想配
列であり， 𝑎 = 𝑋と 𝐵で特定される．途中で足きりの判
定を行うために外れ値以外のデータ Tに対して，デー
タ M個のブロックに分割する（ 2行目）．各ブロックの
集約・グループ化処理が終了後に足きりの判定を行う．
まず，ブロック 𝑇1 の各部分データに対して，集約・グ
ループ化処理を実行する（4行目，図3の③：
𝑉(𝑆(𝐷, 𝑎1 , 𝑋1 )), 𝑉(𝑆(𝐷, 𝑎1 , 𝑋2 )) , … , 𝑉( 𝑆(𝐷, 𝑎𝑛 , 𝑋𝑚 ))．その際
にデータ数も取得する．4行目の 𝑅𝑒𝑠𝑢𝑙𝑡の型は集約結果
（総和）の信頼区間の上限値（ 𝑈𝑝𝑝𝐵𝑜𝑢𝑛𝑑）と集約結果
の信頼区間の下限値（ 𝐿𝑜𝑤𝐵𝑜𝑢𝑛𝑑）のクラスの 2次元連想
配列であり， 𝑎 = 𝑋と 𝐵で特定される．部分データの集
約・グループ化結果に対して，足きり判定を行うため，
全体データと部分データの集約・グループ化結果の乖
𝜋𝑚 (𝜎𝑏=𝐵1 (𝜎(𝑎1=𝑋1) (𝑇1 ))) に属するデータ数に
𝜋𝑚 (𝜎𝑏=𝐵1 (𝜎(𝑎1=𝑋1) (𝑇)))に属するデータ数の割合の上限
値と未処理のデータ数を乗算した値を加算することで
計算できる（ 10行目）．同様に， 𝜋𝑚 (𝜎𝑏=𝐵1 (𝜎(𝑎1=𝑋1) (𝑇)))
に属するデータ数の信頼区間の下限値は，
𝜋𝑚 (𝜎𝑏=𝐵1 (𝜎(𝑎1=𝑋1) (𝑇1 ))) に属するデータ数に
𝜋𝑚 (𝜎𝑏=𝐵1 (𝜎(𝑎1=𝑋1) (𝑇)))に属するデータ数の割合の下限
値と未処理のデータ数を乗算した値を加算することで
計算できる（ 11行）．𝑌1 (𝜎(𝑎1=𝑋1) (𝐷))の信頼区間の上限値
は
，
事
前
に
計
算
し
た
𝑌1 (𝜎(𝑎1=𝑋1) (𝐻)) に
𝜋𝑚 (𝜎𝑏=𝐵1 (𝜎(𝑎1=𝑋1) (𝑇)))に属するデータの平均値の上限
離度 𝑈 (𝑉((𝐷)), 𝑉 (𝜎(𝑎=𝑋) (𝐷))) の信頼区間を計算する
値と 𝜋𝑚 (𝜎𝑏=𝐵1 (𝜎(𝑎1=𝑋1) (𝑇)))に属するデータ数の上限値
（ 15~20行目）．乖離度 𝑈 (𝑉((𝐷)), 𝑉 (𝜎(𝑎=𝑋) (𝐷)))の信頼区
を乗算した値を加算することで計算できる（ 12行目）．
同様に， 𝑌1 (𝜎(𝑎1=𝑋1) (𝐷)) の信頼区間の下限値は，
間を計算するために，𝑉 (𝜎(𝑎=𝑋) (𝐷))により返却されるシ
ーケンスの 𝑌𝑖 (𝜎(𝑎=𝑋) (𝐷)) = 𝑓 (𝜋𝑚 (𝜎𝑏=𝐵𝑖 (𝜎(𝑎=𝑋) (𝐷))))
(1 ≤ 𝑖 ≤ ℎ)の各信頼区間をそれぞれ計算する（ 7~14 行
目）． 𝑌𝑖 (𝜎(𝑎=𝑋) (𝐷)) = 𝑓 (𝜋𝑚 (𝜎𝑏=𝐵𝑖 (𝜎(𝑎=𝑋) (𝐻)))) +
𝑓 (𝜋𝑚 (𝜎𝑏=𝐵𝑖 (𝜎(𝑎=𝑋) (𝑇))))であるため，例外値のデータ 𝐻
と処理済のブロックまでのデータを利用して，データ
全体 𝐷に対する 𝑌𝑖 (𝜎(𝑎=𝑋) (𝐷))の各信頼区間を推定する．
尚，信頼区間の計算は式 (2.5), (2.6)を用いる．以下の説
明では，𝑌1 (𝜎(𝑎1=𝑋1) (𝑇1 ))を用いて，𝑌1 (𝜎(𝑎1=𝑋1) (𝑇))の信頼
𝑌1 (𝜎(𝑎1=𝑋1) (𝐻))に 𝜋𝑚 (𝜎𝑏=𝐵1 (𝜎(𝑎1=𝑋1) (𝑇)))に属するデータ
の平均値の下限値と 𝜋𝑚 (𝜎𝑏=𝐵1 (𝜎(𝑎1=𝑋1) (𝑇)))に属するデ
ータ数の下限値を乗算した値を加算することで計算で
きる（ 13 行目）．同様に，
𝑌2 (𝜎(𝑎1=𝑋1) (𝐷)) , ⋯ , 𝑌ℎ (𝜎(𝑎1=𝑋1) (𝐷)) の信頼区間を計算し
た後，乖離度の信頼区間の上限値，下限値を求める．
（ 15~20行目，図 3.1の ④：𝑈 (𝑉(𝐷), 𝑉(𝑆(𝐷, 𝑎1 , 𝑋1 )))）．まず，
計算した 𝑌1 (𝜎(𝑎1=𝑋1) (𝐷)) , ⋯ , 𝑌ℎ (𝜎(𝑎1=𝑋1) (𝐷)) の信頼区間
区間を計算する場合とする（ 8~11 行目）．まず，
の正規化を行う．乖離度の上限値を計算する際は，同
じグループ化属性の値に属する正規化した
𝑌1 (𝐷), ⋯ , 𝑌ℎ (𝐷) と比較し，正規化した
𝜋𝑚 (𝜎𝑏=𝐵1 (𝜎(𝑎1=𝑋1) (𝑇1 )))に属するデータの平均値の信頼
𝑌1 (𝜎(𝑎1=𝑋1) (𝐷)) , ⋯ , 𝑌ℎ (𝜎(𝑎1=𝑋1) (𝐷)) の信頼区間の中で差
区間を計算するために，式 (2.5), (2.6)の 𝑡（ 8行目の 𝑡𝑎𝑣𝑒 ）
を計算する（ 8行目）．区間推定に用いる母集団の最小
値は，事前に取得した 𝜋𝑚 (𝜎𝑏=𝐵1 (𝐷))に属するデータの
異の絶対値が大きい値を採択する（ 16行）．正規化し
た 𝑌1 (𝐷), ⋯ , 𝑌ℎ (𝐷)と採択した値で乖離度を計算する（ 18
最小値，最大値は 𝐻と 𝑇を分割した際に用いた閾値であ
る．サンプリングサイズは，𝜋𝑚 (𝜎𝑏=𝐵1 (𝜎(𝑎1=𝑋1) (𝑇1 )))に属
するデータ数．信頼区間推定の母集団となる
𝜋𝑚 (𝜎𝑏=𝐵1 (𝜎(𝑎1=𝑋1) (𝑇)))に属するデータ数（式 (2.6)の 𝑓𝑛 =
(𝑛 − 1)⁄𝑁の 𝑁）は，𝜋𝑚 (𝜎𝑏=𝐵1 (𝐷))から 𝑇1 の処理が終了時
点で 𝜋𝑚 (𝜎𝑏=𝐵1 (𝜎(𝑎1=𝑋1) (𝑇1 ))) に属していないデータ数
ℎ
行）．乖離度の下限値を計算する際も同様に比較し，
正規化した 𝑌1 (𝜎(𝑎1=𝑋1) (𝐷)) , ⋯ , 𝑌ℎ (𝜎(𝑎1=𝑋1) (𝐷)) の信頼区
間の中で差異の絶対値が小さい値を採択する（ 17行）．
正規化した 𝑌1 (𝐷), ⋯ , 𝑌ℎ (𝐷)と採択した値で乖離度を計
算する（ 19行）．最後に，足きりの判定を行う．（ 23
行～ 30行）．足きりの判定を行う閾値は 𝑘番目に大きい
乖離度の信頼区間の下限値とする．ある部分データの
乖離度の信頼区間の上限値が閾値を下回った場合，そ
の部分データの 𝑇2 での集約・グループ化処理と判定処
∑𝑖=2 𝜋𝑚 (𝜎𝑏=𝐵𝑖 (𝜎(𝑎1=𝑋1) (𝑇1 )) に属するデータ数 ) を引いて
理を打ち切る． 𝑇2 のデータを処理した後の判定時は，
見積もる．次に，𝜋𝑚 (𝜎𝑏=𝐵1 (𝜎(𝑎1=𝑋1) (𝑇)))に属するデータ
式 (2.5), (2.6)の母集団のデータ数を順次更新する．それ
により，区間推定の精度を上げることができ，より多
くの部分データの足きりが可能である．
数の 𝐻のデータ数に対する割合の信頼区間を計算する
ために，式 (2.5), (2.6)の 𝑡（ 9行目の 𝑡𝑛𝑢𝑚 ）を計算する（ 9
行目）． 𝑇のデータの中で 𝜋𝑚 (𝜎𝑏=𝐵1 (𝜎(𝑎1=𝑋1) (𝑇)))に属す
るデータの値は 1，属さないデータの値は 0とする．つ
まり区間推定に用いる母集団の最小値は 0，最大値は 1
となる．サンプリングサイズは 𝐻1 のデータ数，母集団
の数は 𝐻のデータ数である．𝜋𝑚 (𝜎𝑏=𝐵1 (𝜎(𝑎1=𝑋1) (𝑇)))に属
するデータ数の信頼区間の上限値は，
4. 評価実験
本章では提案手法の高速化の効果を評価する．4.1 節
で実験方法について， 4.2 節で実験結果について説明
する．
4.1.実験方法
処理全体の実行時間
術を用いた部分データの足きりを適用した場合として
いない場合における処理全体（図 3.1 の ① ， ② ， ③ ，
④）の実行時間を計測する実験を行った．乖離度を数
値化する関数としてユークリッド距離を用いた．本実
time(sec)
提案手法の有効性を検証するために，信頼区間の技
験のデータセットは以下のとおりである．
90
80
70
60
50
40
30
20
10
0
足きり判定あり
足きり判定なし
販売データ：経営科学系研究部会連合協議会主催，平
成 27年度データ解析コンペティションで提供されたデ
ータである．レシート情報，レシート行番号，税込金
額，点数，店舗，日付情報，時間帯，会員区分，性別
集約・グループ化処理
区分など商品の受注に関する情報で構成されている．
レコード数は 52,038,260（ 1 年），属性数は 32 である．
図 4.1：店舗毎の売り上げ・販売点数，時間帯毎の売り
本実験では，乖離度が大きい分析結果を生み出す部分
上げ・販売点数における処理全体の実行時間
データの探索をする際に，提案手法を適用する場合と
有意水準変更時の実行時間
しない場合の処理時間を比較する．実験で選択した集
50
は以下のとおりである．
集約・グループ化処理：店舗毎の売り上げ（ 9店舗），
店舗毎の販売点数（ 9店舗），時間帯毎の売り上げ（ 19
time(sec)
約・グループ化処理，部分データの条件に用いる属性
40
30
足きり判定あり
20
時間帯），時間帯毎の販売点数（ 19時間帯）を集約・グ
10
ループ化処理とする．集約属性が税込金額のときは，
0
α = 0.05
税込金額の値が 1980より大きい 112848レコードを事前
処理した．集約属性が点数のときは点数の値が 5より大
α = 0.4
α = 0.6
有意水準（α）
きい 100650レコードを事前処理した．
図 4.2：店舗毎の売り上げにおける有意水準変更時の
部分データの条件に用いる属性：部分データの条件に
実行時間
用いる属性は，店舗（ 9），時間帯（ 19），会員区分（ 2），
性別区分（ 4），分類１コード（ 8），分類２コード（ 25），
販売点数における乖離度が大きい部分データ上位 10
分類３コード（ 164）の 7つとする 1 ．分類１コード，分
件を探索する処理の実行時間である．信頼区間の有意
類２コード，分類３コードは商品のカテゴリ区分の単
水準 αは 0.05である．店舗毎の売り上げでは 2.02倍，店
位である．それぞれ分類１コードは分類２コードの，
舗毎の販売点数では 2.12倍，時間帯毎の売り上げでは
分類２コードは分類３コードの上位となっている．グ
1.41倍，時間帯毎の販売点数では 1.31倍の高速化に成功
ループ化属性が店舗の集約・グループ化処理では，時
している．全ての集約・グループ化処理で，足きり判
間帯，会員区分，性別区分，分類１コード，分類２コ
定を行った場合の上位 10 件の結果は，足きり判定を
ード，分類３コードを部分データの条件として設定し
行っていない場合の上位 10 件の結果と同じである．
た．グループ化属性が時間帯の集約・グループ化処理
図 4.2 は店舗毎の売り上げにおける有意水準（ α）変
では，店舗，会員区分，性別区分，分類１コード，分
更時の乖離度が大きい部分データ上位 10 件を探索す
類２コード，分類３コードを部分データの条件として
る処理の実行時間である． α = 0.4の場合は 2.18倍， α =
設定した．
0.6の場合は 2.22倍の高速化にそれぞれ成功している．
本実験には， CPU が Intel(R) Core(TM) i7-4702MQ，
α = 0.4の場合は，足きり判定を行っていない場合と上
クロック周波数は 2.20GHz，コア数は 4，メモリは 16GB
位 10 件の結果は変わらず， α = 0.6の場合は上位 10 件
の PC を使用し，データベース管理システムとして
中 9 件の結果が一致していた．実験結果から，有意水
SQLServer2014 を用いた．
準の値を大きくするとより高速化を期待できるが，上
位 𝑘件にあてはまる部分データを誤って足きりする確
4.2.実験結果
図 4.1 は集約・グループ化処理が店舗毎の売り上げ，
店舗毎の販売点数，時間帯毎の売り上げ，時間帯毎の
率が高くなると予想される．図 4.3 は店舗毎の売り上
げにおける上位 𝑘件変更時の乖離度が大きい部分デー
タを探索する処理の実行時間である．信頼区間の有意
1括弧内の数字は部分データの条件に用いる属性の具体的な値の件数である．
上位k件変更時の実行時間
80
time(sec)
70
60
50
40
30
足きり判定あり
20
10
0
0
10
20
k の値
30
40
50
図 4.3：店舗毎の売り上げにおける上位 k 件変更時の
図 5.1：店舗毎の売り上げにおける全商品との乖離度が
大きい部分データの分析結果 ① （性別区分＝ 2）
実行時間
time(sec)
店舗毎の売り上げの実行時間
90
80
70
60
50
40
30
20
10
0
足きり判定あり
足きり判定なし
0
20,000
40,000
レコード数（103）
60,000
図 4.4：店舗毎の売り上げにおけるデータサイズ変更
時の実行時間
水準 αは 0.05である．𝑘 = 1の場合は 3.26倍，k = 20の場合
は 1.56倍， 𝑘 = 50の場合は 1.12倍の高速化に成功してい
る．全て足きり判定を行った場合の上位 𝑘件の結果は，
足きり判定を行っていない場合の上位 𝑘件の結果と同
じである． 𝑘の値を小さくすると部分データの足きり
の判定に用いる閾値が大きくなるので，より多くの部
分データの足きりが可能となる．
図 4.4 は店舗毎の売り上げにおけるデータサイズ変
更時の乖離度が大きい部分データ上位 10 件を探索す
る処理の実行時間である．信頼区間の有意水準 αは 0.05
である．レコード数が 4,406,363（ 1 ヶ月）の場合は 1.61
倍，レコード数が 26,524,815（ 6 ヶ月）の場合は 1.77倍の
高速化にそれぞれ成功している．全て足きり判定を行
った場合の上位 10 件の結果は，足きり判定を行って
いない場合の上位 10 件の結果と同じである．サンプ
リングサイズが大きくなると信頼区間の精度が向上す
るため，データサイズが大きくなるほど高速化の効果
が期待できる．
5. 分析可視化結果
本章では提案手法によって得られた分析結果につい
て説明する．図 5.1,5.2は店舗毎の売り上げにおいて全
商品との乖離度が大きい部分データの分析可視化結果
の一例である．データセットは 2年分である．右軸は
図 5.2：店舗毎の売り上げにおける全商品との乖離度が
大きい部分データの分析結果 ② （時＝ 22）
全商品の売り上げ，左軸は部分データの売り上げの値
である．図 5.1の部分データは女性が購入した商品，図
5.2の部分データは 22時台に売れた商品，図 5.1,5.2など
の分析結果から他店舗と比べ，D店，E店，F店，H店は
以下の共通の特徴を持つ．
・女性の購入金額が少ない（他店舗に比べて男性の割
合が大きい）
・夜遅い時間帯の売り上げの割合が大きい
・非会員の購入金額が多い
共通の特徴をもつ D店，E店，F店，H店の中で最も売り
上げが少ない店舗は D店，最も売り上げが多い店舗は H
店である．D店の売り上げ少ない要因と H店の売り上げ
が多い要因をより詳しく分析するため，それぞれ部分
データの条件を D店で売れた商品かつその他の部分デ
ータの条件， H店で売れた商品かつその他の部分デー
タの条件と設定し，月毎の売り上げにおいて全商品と
の乖離度が大きい分析結果を探索した．その分析可視
化結果の一例が図 5.3,5.4である．図 5.3の部分データは
D店で売れた商品かつ 23時台に売れた商品，図 5.4の部
分データは H店で売れた商品かつ鮮魚に関する商品で
ある．図 5.3を見ると D店は夜遅い時間帯の売り上げの
割合が大きい店舗にもかかわらず， 2014年 11月から急
激に 23時台の売り上げが落ちていることがわかる．こ
の原因を分析し，改善することで似た特徴をもつ H店
の売り上げまでは D店の売り上げを伸ばすことが期待
できる．また，図 5.4を見ると H店の鮮魚に関する商品
の売り上げは全商品の売り上げと異なる遷移を示して
おり，微増ながら 1年目の売り上げと比較して 2年目の
売り上げが増加している．この傾向は D店においては
あまり見られなかった．そのため，D店において鮮魚に
関する商品展開に力を入れることで D店の売り上げを
伸ばすことができる可能性がある．
した際に乖離の程度が大きいまたは小さい部分データ
を探索することである．
複数のソースからデータを収集・統合・可視化とい
う一連の処理を自動化する技術として Google Fusion
Tables[11]，DEVise[12]などがある．Google fusion tables
は，web 上から様々なデータを収集し，統合すること
によりテーブルを作成し，その分析結果を可視化する．
図 5.3：月毎の売り上げにおける全商品との乖離度が大
きい部分データの分析結果 ① （ D店，時＝ 23）
7. おわりに
本稿では，有用性が高い分析結果を生み出す部分デ
ータを効率的に探索する手法を提案した．提案手法で
は，まず問題設定を定義し，乖離度を数値化する関数
としてユークリッド距離を用いることにより解く行程
を説明した．さらに統計的信頼区間推定の技術を用い
て部分データの足きりを行い，探索範囲を削減するこ
とで高速化を実現した．今後は有用性に関して更なる
議論を行い，より詳細な分析のもと上位 k件の分析可視
化結果をユーザに提案する機能を実装する予定である．
参
考
文
献
[1] R. J. Serfling et al. Probability inequalities for the sum
図 5.4：月毎の売り上げにおける全商品との乖離度が大
きい部分データの分析結果 ② （ H店，分類２名称＝鮮
魚）
6. 関連研究
データ解析ツールには，Spotfire[2]，Polaris[3]などが
ある．Spotfire は，散布図をベースとした可視化システ
ムである．Polaris は基本的なデータベースクエリとテ
ーブル代数による可視化の仕様を統合したシステムで
ある．両者ともデータセットに最適な可視化設定を自
動的に選択するが，分析者が設定することも可能であ
る．これらのツールは分析者が着目したい全ての属性
を手動で選択する必要がある．
自動で分析結果を可視化する機能を持つデータ解析
ツールには，Profiler[4]，Vizdeck[5]，SEEDB[6,7] など
がある．Profiler はデータの異常を自動で検出し，いく
つかの可視化結果を表示する． Vizdeck はダッシュボ
ード上に 2 次元で表示し得る全ての可視化結果を表示
する．また，SEEDB の研究の目的は，OLAP 型の分析
において，分析者が試行錯誤を通して有用性の高い分
析結果を探索する工程を自動化することにある．
OLAP によるデータブラウジングは分析者のデータセ
ットへの理解の一助となる [8,9,10]．本論文の提案手法
と SEEDB の相違点は SEEDB が事前に与えられた部分
データに集約・グループ化処理を実行した際に，有用
性が高い分析結果を生み出す集約・グループ化処理を
探索するのに対して，提案手法は事前に与えられた集
約・グループ化処理を全体データと部分データに実行
in sampling without replacement. The Annals of
Statistics, 2(1):39–48, 1974.
[2] C. Ahlberg. Spotfire: An information exploration
environment. In SIGMOD Conference, pages 25–29,
1996.
[3] C. Stolte, D. Tang, and P. Hanrah an, “Polaris: a system
for
query,
analysis,
and
visualizationof
multidimensional databases,” Communications of the
ACM - Remembering Jim Gray 51(11), 1990.
[4] S. Kandel et al. Profiler: integrated statistical analysis
and visualization for data quality assessment. In AVI,
pages 547–554, 2012.
[5] A. Key, B. Howe, D. Perry, and C. Aragon. Vizdeck:
Self-organizing dashboards for visual analytics. In
SIGMOD Conference, pages 681 –684, 2012.
[6] A. Parameswaran, N. Polyzotis, and H. Garcia -Molina.
Seedb: Visualizing database queries efficiently.
PVLDB, 7(4), 2013.
[7] M. Vartak, S. Madden, A. G. Parameswaran, and N.
Polyzotis. SEEDB: automatically generating query
visualizations. PVLDB, 7(13), 2014.
[8] S.
Sarawagi,
“Explaining
Differences
in
Multidimensional Aggregates ,” Proceedings of VLDB,
1999.
[9] S.
Sarawagi,
“User-adaptive
exploration
of
multidimensional data,” Proceedings of
VLDB,
2000.
[10] G. Sathe and S. Sarawagi, “Intelligent Rollups in
Multidimensional OLAP Data,” Proceedings of VLDB,
2001.
[11] H. Gonzalez et al. Google fusion tabl es: web-centered
data management and collaboration. In SIGMOD
Conference, pages 1061–1066, 2010.
[12] M.Livny,
C.
S.Jensen,
K.Beyer,
G.Chen,
D.Donjerkovic,
S.Lawande,
J.Myllymaki,
and
K.Wenger, “Devise: integrated querying and visual
exploration
of
largedatasets,”
In
SIGMOD
Conference, pages 301-312, 1997.