...

多次元複合データ分析から時空間多次元集合 データ解析技術へ

by user

on
Category: Documents
3

views

Report

Comments

Transcript

多次元複合データ分析から時空間多次元集合 データ解析技術へ
時空間データ解析
集
機械学習
特
データマイニング
機械学習・データ科学センタが推進するビッグデータ技術の横断的研究開発
多次元複合データ分析から時空間多次元集合
データ解析技術へ
本稿ではWeb上のデータやアプリログ,IoT(Internet of Things)センサ
データなど,複数の属性を含む多種多様なデータから,データ間に現れる
有意味な横断的特徴を効率的に抽出することのできる多次元複合データ分
析技術について紹介します.基本的なアルゴリズムの仕組みと口コミサイ
トデータへの適用事例について紹介するとともに,時空間の関係性をモデ
ル化し,事象の発生個所と時期を予測する時空間多次元集合データ解析技
術への展開について紹介します.
な
や
ふとし † 1
さ わ だ
ひろし † 2
納谷 太 /澤田 宏
NTTコミュニケーション科学基礎研究所
†2
NTTサービスエボリューション研究所
†1
が蓄積されています.例えば,ECサ
います(図 1(a))
.また,
最近のスマー
イトでの購買ログには,いつ,どこで,
トフォンアプリの中には,ユーザの許
どのような年代,性別の顧客が,どの
諾を得たうえで,アプリを利用してい
ような商品を購入したのかといった
る際の位置情報をGPSやWi-Fi,ビー
IoT(Internet of Things)デバイスな
データが含まれており,膨大に蓄積さ
コンなどで取得するものもあり,購買
どの普及に伴い,ヒトの行動やモノの
れたこれらのデータから特徴的な顧客
ログと組み合わせることにより,外出
動きなどに付随する多種多様なデータ
層や商品群を抽出する分析が行われて
先なのか自宅なのかなど,どのような
多種多様なデータを組み合わせた
分析
ユーザ
年代性別
品目
コンビニ
Aさん
30代男性
コーヒー
2015年 2 月 5 日
18:03
スーパー
Bさん
40代女性
牛乳
2015年 2 月 8 日
17:51
スーパー
Cさん
20代男性
ベーコン
2015年 2 月11日
12:18
ドラッグストア Aさん
30代男性
シャンプー
2015年 2 月11日
13:03
スーパー
Dさん
30代女性
チョコレート
…
…
…
場所
07:31
…
時間
2015年 2 月 5 日
…
(a) 購買ログ
年月日
…
ECサイト,スマートフォンアプリ,
回数
20000
15000
10000
5000
0
12000
10500
9000
6000
4500
…
3000
ドラッグストア
品目
(b) クロス集計
200000
150000
0
100000
…
紅茶
牛乳
コーヒー
ヨーグルト
冷凍食品
豆腐
惣菜パン
スーパー
0
1500
コンビニ
50000
場所
7500
自販機
回数
図 1 購買ログデータのクロス集計例
NTT技術ジャーナル 2015.12
15
機械学習・データ科学センタが推進するビッグデータ技術の横断的研究開発
2 次元で集計
行列
品目
2015年 2 月 5 日 07:31
コンビニ
Aさん
30代男性
コーヒー
2015年 2 月 5 日 18:03
スーパー
Bさん
40代女性
牛乳
2015年 2 月 8 日 17:51
スーパー
Cさん
20代男性
ベーコン
2015年 2 月11日 12:18
ドラッグストア Aさん
30代男性
シャンプー
2015年 2 月11日 13:03
スーパー
Dさん
30代女性
チョコレート
…
場所
K個に分解
2
1 軸で集計
(個別に傾向が見える)
自販機
クラスタ 2
牛乳
品目
コンビニ
スーパー
1
場所
品目
クラスタ 1
品目
場所
品目
惣菜パン
場所
1
行列
品目
コーヒー 紅茶
…
場所
場所
場所
…
品目
品目
品目
…
…
行列
1
( 3 次元以上も可)
ユーザ
行列
…
ユーザ 年代性別
…
時間
場所
場所
…
元データ
年月日
クラスタK
スーパー
図 2 多次元データ分析の概念
状況で購買がなされるのかといった詳
り,集計数の多い組合せのみにデータ
では牛乳がトップなど,各クラスタで
細な分析も可能になりつつあります.
が集中するため,例えば図 1(b)の赤
どのような傾向があるのかがより把握
従来,このような顧客層や商品群の
丸で示すような,
「紅茶は自販機でも
しやすくなります.
特徴を抽出する手法として,クロス集
比較的売上が多い」といった特徴が抽
計が活用されています.クロス集計で
出しにくくなってしまいます.
は,例えば,場所と品目の各組合せで
売上個数が集計され,その結果は表形
多次元データ分析技術
ここで行列の分解の仕方がポイント
になります.元の集計データをI行×J
列の行列Tとし,これをT1〜TKのK個
の行列の和で近似できるように分解す
式,もしくは行列で表現できます(図
前述の問題を解決する手法の 1 つ
るとします(T≅T1+T2+…+TK)
.上記
1(b))
.店舗の種類や,商品の品目な
が多次元データ分析技術です.多次元
例では,Iは場所の数,Jは品目の数で
どを「属性」または「軸」と呼び,図
データ分析技術では, 2 次元の集計
す.このとき,分解した個々のTi(i
1 の場合は,場所と品目の 2 種類の
データである行列をK個の行列の和と
= 1 …K)もI行×J列の行列です.こ
属性,すなわち 2 次元の軸を持つデー
なるように分解します(図 2 )
.K個
のような分解の仕方は任意性がありま
タといえます.また,各属性はさまざ
に 分 解 さ れ た 個 々 の 行 列T1〜TKの
すが,多次元データ分析では,分解後
まな値(場所ならばスーパーやコンビ
データをそれぞれクラスタと呼びま
の 各 行 列Ti(i= 1 …K) を,I行 1 列
ニ,品目ならコーヒーなど)を持ちま
す.多次元データ分析技術によって分
の列ベクトルaiと 1 行J列の行ベクト
す.集計結果からは,ある特定の場所
解された個々のクラスタは,特定の場
ルbiの積であるように分解します.す
に着目してどのような品目の売上個数
所や特定の品名に集計値が偏るデータ
なわち,Ti=ai×bi.ただし,各ベクト
が多いのか,または,ある特定の品目
になるため,例えばクラスタ 1 では自
ルの要素は非負( 0 以上の値)を取る
がどのような場所で売れているのかな
販機で良く売れている品目が抽出さ
よ う な 制 約 を 課 し ま す. す る と,
ど,単一の属性値での傾向を把握する
れ,クラスタ 2 では惣菜パンの売上は
T1+T2+…+TK=a1×b1+a2×b2+…+aK×bK
ことはできます.しかし,属性の取り
スーパーが大半でコンビニがその半数
=(a1 a2…aK)×(b1 b2…bK) =A×B
得る値が増えるほど結果は複雑にな
程度,クラスタKではスーパーの売上
のように表現できます.これは,元の
16
NTT技術ジャーナル 2015.12
特
集
元データ
年月日
時間
2015年 2 月 5 日 07:31
場所
ユーザ 年代性別 品目
コンビニ
Aさん
2015年 2 月 5 日 18:03
スーパー
Bさん
40代女性 牛乳
2015年 2 月 8 日 17:51
スーパー
Cさん
20代男性 ベーコン
スパース性が高すぎて
意味のある分析ができない
…
…
…
30代女性 チョコレート
…
30代男性 シャンプー
…
ドラッグストア Aさん
スーパー
…
2015年 2 月11日 12:18
2015年 2 月11日 13:03
Dさん
5 次元で集計
30代男性 コーヒー
3 つの軸(= 3 次元)で集計× 2 ,
うち 1 軸(ユーザ属性)を共通させる
時間
時間
ユーザ
軸を共有
場所
分解,集計
スパース性の問題を緩和し,
意味のある分析が可能
場所
ユーザ
ユーザ
品目
年代性別
ユーザ
年代性別
品目
軸を共有したまま分析を行うため,
ユーザの因子行列は同一となる
図 3 多次元複合データ分析の概念
I行J列の行列Tを,I行K列の行列Aお
値 テ ン ソ ル 因 子分解法(NTF: Non-
通り)
」×「場所(100通り)
」×「ユー
よびK行J列の行列Bの積で近似するこ
negative Tensor Fac­tor­iz­ a­tion)と呼ば
ザ(1000人)
」×「品名(100種類)
」の
とにほかなりません(T≅A×B)
.こ
れます.
4 つの属性(軸)と値の組合せで集計
こで,KはIおよびJよりも非常に小さ
く取ります(K≪I, J)
.ここでA,B
を因子行列と呼びます.このような因
多次元「複合」データ分析技術へ
の拡張
する場合,組合せ数は24×100×1000×
100 = 2 億4000万通りとなり,データ
の種類にもよりますが, 4 つ以上の属
子行列を求めるには,AとBの因子行
NTFは,さまざまな属性の組合せ
性の組合せでは,実に99.9%以上の要
列に最初ランダムな値を設定し,A×
で集計した行列(テンソル)データを,
素が 0 となります.つまり,集計デー
B=T ’として再構成した行列T ’と,元
因子行列の積として分解することによ
タの中で 0 でない要素は全体の0.1%に
の行列Tとの誤差が少なくなるような
り,データに潜む特徴的なクラスタを
満たず,
このようなスパースな集計デー
基準に基づき,因子行列AとBを更新
抽出することができます.しかし,各
タを因子分解しても満足のいく分析結
します.上記の作業を誤差が収束する
属性の「値」のバリエーションが多い
果を得ることが難しくなります.
まで繰り返すことにより最終的な因子
ほど,集計データには偏りが生じやす
NTT研究所では,このスパース性
行列A,Bを得ます.上述の分解例で
くなります.また,場所と品目に加え
の問題を解決する手法として,複合非
はAが「場所に相当する因子」
,
Bが「品
て,ユーザの年代という新たな属性を
負値テンソル因子分解法(NMTF: Non-
目に相当する因子」として抽出されま
加えて集計したデータを分解すること
negative Multiple Tensor Factorization)
す.上記手法は,機械学習技術の 1 つ
により,どのようなユーザ層がどのよ
を開発しました.この手法は,元デー
で 非 負 値 行 列 因 子 分 解 法(NMF:
うな場所でどのような品目を購入する
タを高次元(ここでは 5 次元)のテン
Non-neg­a­tive Matrix Factorization)
傾向があるのかといった顧客クラスタ
ソルとして集計する代わりに,属性
と呼ばれ,データマイニングの分野で
を抽出することもできますが,このよ
(軸)数を 3 つ以下に絞ったスパース
うな属性の数を増やせば増やすほど,
ではない( 0 でない要素の多い)集計
また,上記の考え方は 2 次元の行列
その組合せ数が爆発し,ほとんどの組
データ(テンソルまたは行列)を複数
データだけでなく,属性数を 3 つ以上
合せで集計値が 0 となる疎な(スパー
作成し,集計データ間で共通する属性
で集計した高次元のデータ
(テンソル)
スな)データとなります.図 1 に示す
(図ではユーザの軸)に相当する因子行
にも適用可能であり,その手法は非負
購買ログを,
「時間( 1 時間ごとの24
(1)
広く活用されています .
列を仮定して分解を行います(図 3 )
.
NTT技術ジャーナル 2015.12
17
機械学習・データ科学センタが推進するビッグデータ技術の横断的研究開発
複数の集計データを組み合わせて多次
時間×緯度経度…値はチェックイ
元のデータを分析するため,多次元複
ン回数
(3)に譲りますが,上記 3 つのテンソ
ルに対してNMTFを適用することに
③ 単語頻度テンソル:ユーザ×カテ
より,図 5 に示すような「週末午前に
ゴリ×単語…値は単語の出現回数
レジャー活動」や「日本食レストラン
テンソル間には,
ユーザ,
店舗といっ
での食事」がさかんな商業施設,利用
多次元複合データ分析技術NMTF
た共通する軸を含んでいます.詳しい
されることの多い曜日 ・ 時間帯,地理
の有効性を検証するため,米国のレ
分解アルゴリズムや結果は参考文献
的分布,口コミでよく使われる単語な
合データ分析技術と呼んでいます.
Yelpデータセットを用いた解析例
ビューサイトYelp(図 4 )のオープ
ンデータセットに適用した事例を紹介
します.Yelpデータセットは学術目的
店舗名
で一般公開(2)されており,それぞれの
位置情報
カテゴリ
レストラン
ファーストフード
ラーメン
ランチ
…
商業施設ごとの口コミ情報として,店
舗名,カテゴリ,店舗位置,ユーザ,レー
ティング,レビューに含まれる単語,
Burger
チェックインの曜日,時間など,多様
ユーザ
な属性データを含んでいます.
このデー
評価点
訪問曜日時間
口コミ
(単語)
○○が
おいしい!
△△時は
空いてる!
タから,例えば,次の 3 種類のテンソ
ルデータを集計することができます.
① レビューテンソル:ユーザ×店
舗×曜日…値はレビュー数
図 4 Yelpデータセット
② チェックインテンソル:店舗×
(a) 週末午前のレジャー活動
0
商業施設名
Roka Akor
weekdays
Sakana Sushi & Grill
Hana Japanese Eatery
weekends
Yasu Sushi Bistro
CherryBlossom Noodle Cafe
Geisha A Go Go
PearlSushiLounge & Bomber
Bar
Hiro Sushi
5
10
15
20
25
Postino Arcadia
Pure Sushi
カテゴリ
Active Life
Parks
Hiking
Climbing
Zoos
Amusement Parks
Arts & Entertainment
Museums
Dog Parks
Local Flavor
0
weekdays
weekends
5
10
15
20
25
カテゴリ
park
hike
trail
mountain
people
dog
water
top
parking
zoo
公園・ハイキング・
山歩き・動物園など
レビュー内の
単語頻度
レジャー施設
の多いエリア
sushi
roll
rolls
happy
hour
fish
restaurant
ordered
fresh
bar
Sushi Bars
Restaurants
Japanese
Steakhouses
Asian Fusion
Tea Rooms
Korean
Italian
Karaoke
Seafood
Location Value:Jy
日本食レストラン
の多いエリア
NTT技術ジャーナル 2015.12
すし,
巻物,
魚,
注文,
新鮮など
レビュー内の
単語頻度
Location Value:Jy
図 5 多次元複合データ分析によって得られるクラスタ例
18
チェックイン時刻
チェックイン回数
チェックイン時刻
チェックイン回数
商業施設名
Camelback Mountain
South Mountain Park
Piestewa Peak
Phoenix Zoo
mick-stillmanRailroad
park
Pinnacle Pesk
s Museum Of Phoenix
Scottsdale Green Belt
Papago Park
our Peaks Brewing Co
(b) 日本食レストランでの食事
特
集
多次元複合
データ解析
購買店舗
×
位置
時空間多次元集合データ解析
ユーザ
×
電車乗降
ユーザ
×
購買店舗
事象の発生
個所・時期
予測に対応
多次元の軸で時間と空間を
考慮
時空間の影響をモデル化
し,事象の発生個所・時期
を予測
特徴的なパターンの抽出
事象の発生予測は不可
図 6 時空間多次元集合データ解析技術への拡張
ど,多くの属性の組合せで特徴をとら
来の事象を予見 ・ 洞察することを目指
えたクラスタが抽出できていることが
しています(図 6 )
.
「集合」とあるの
分かります.このように,NMTFは
は,メッシュ当りの人口や車両数など
データの持つ多次元の属性を活用しな
のように,個々を識別できない,集合
がらも,スパース性の問題を緩和し,
としての集計データのみからでも,時
分析結果として意味のあるクラスタを
空間的な人流や交通流の流れを推定す
効率的に抽出することができます.
ることを意図したものです.
今後の展開
2020年に向けて,大規模イベント
会場などでの混雑緩和や通信インフラ
NMTFによる多次元複合データ分
の安定化のために,リアルタイムに観
析は,データに潜む特徴的なクラスタ
測されたデータを活用し,近未来に起
を効率的に抽出できますが,集計した
こり得る混雑などの事象を時空間多次
データ要素間の時間的な因果関係や空
元集合データ解析技術によって検知
間的な隣接性などの関係性を考慮して
し,先行的に集団を誘導する技術(4)の
いません.特に,ユーザや車などの位
実現に向けて研究開発を進めていき
置データの解析では,空間メッシュで
ます.
区切ったエリアおよび時間帯ごとに観
測された人口や車両数をベースに分析
が行われることがありますが,このよ
うなデータにNMTFを適用しても,
例えば混雑などの事象が発生する時期
や場所を予測するといった用途に見合
う分析結果は得られません.そこで,
多次元データの時空間的な関係性をモ
デル化し,将来の予測を可能にする革
新的解析技術として,時空間多次元集
合データ解析技術の研究開発を進めて
います.時空間多次元集合データ解析
技術はデータの「時間」
「空間」
「多次
元」
「集合」の 4 要素を考慮し,近未
■参考文献
(1) 澤田:“非負値行列因子分解NMFの基礎とデー
タ / 信 号 解 析 へ の 応 用,” 信 学 誌, Vol.95,
No.9, pp.829-833, 2012.
(2) https://www.yelp.com/academic_dataset
(3) K. Takeuchi, R. Tomioka, K. Ishiguro, A.
Kimura, and H. Sawada: “Non-negative
Multiple Tensor Factorization,” Proc. of
ICDM 2013, pp.1199-1204, Dallas, U.S.A.,
Dec. 2013.
(4) N. Ueda, F. Naya, H. Shimizu, T. Iwata, M.
Okawa, and H. Sawada: “Real-time and
Proactive Navigation via Spatio-temporal
Prediction,” Proc. of the First International
Workshop on Smart Cities: People,
Technology and Data, in conjunction with
Ubicomp2015, pp.1559-1566, Osaka, Japan,
Sept. 2015.
(左から)
納谷 太/ 澤田 宏
多種多様なリアルタイムセンサデータか
ら,潜在的な時空間特徴を即時にとらえ,
将来を予測し,先行的に人々の誘導や機器
を制御し,安心 ・ 安全な社会インフラ構築
に貢献する技術の確立を目指します.ご意
見,ご要望をお待ちしています.
◆問い合わせ先
NTTコミュニケーション科学基礎研究所
協創情報研究部/
機械学習 ・ データ科学センタ
TEL 0774-93-5272
FAX 0774-93-5155
E-mail naya.futoshi lab.ntt.co.jp
NTT技術ジャーナル 2015.12
19
Fly UP