...

参考になる事案(位置情報以外)の整理案

by user

on
Category: Documents
4

views

Report

Comments

Transcript

参考になる事案(位置情報以外)の整理案
資料3
Q1~Q4で議論をする上で、参考になる事案(可能
であれば、位置情報以外の事案)の整理案
筑波CS
佐久間 淳
1
購買履歴: ビジネスモデル
データ例
•
ID age
gender
1
23
M
ジャンプ
焼き肉弁当
新聞
ペットお茶
…
プリン
2
41
M
新聞
唐揚げ弁当
焼き肉弁当
ペットお茶
…
プリン
…
…
…
…
…
…
…
…
…
N
30
F
ペットお茶
チョコレート
紅茶
プリン
…
ファッション
雑誌
シナリオ
1. コンビニエンスストアのPOSデータを収集
•
ポイントカードで名寄せして、一定期間(e.g. 1ヶ月間)、個人毎にログを取る
2. 本部で匿名化し、外部に販売(e.g., 食品会社のマーケティング)
3. データ購入者の解析
A. 特定のアイテムを買う傾向が高いユーザー属性は何か?
–
20‐40代男性は焼き肉弁当
B. 同時に買われる傾向が高いアイテムの組みあわせは何か?
–
ペットお茶と弁当はセット
C.
D.
あるユーザ属性には買われるが、別のユーザ属性には買われないアイテムの組み
合わせは何か?
–
男性は(焼き肉弁当,プリン)を買うが女性は(焼き肉弁当,プリン)は買わない
ある曜日に買われるアイテムは何か、ある時期に急に売れだすアイテムは何か? 2
購買履歴:匿名化措置
3‐匿名化データ例 (ユーザ属性付き)
#record
age
gender
3
20
M
おにぎり
ペットお茶
15
20‐50
M
たばこ
コーヒー
5
20
M
唐揚げ弁当
ペットお茶
3
20‐40
M
ペットお茶
おにぎり
7
30
F
サンドイッチ
紅茶
3
50‐60
F
おにぎり
ペットお茶
…
…
…
…
…
ジャンプ
ガム
…
…
3‐匿名化データ例 (ユーザ属性なし)
#record
13
おにぎり
ペットお茶
21
たばこ
コーヒー
7
唐揚げ弁当
ペットお茶
9
ペットお茶
おにぎり
8
サンドイッチ
紅茶
21
おにぎり
ペットお茶
…
…
…
{おにぎり、ペットお茶、ジャンプ}を
買った人は13人いた、という意味
ジャンプ
ガム
…
…
3
購買履歴:匿名化措置
• 解析例3A
– ユーザ属性付き匿名化データから実現
• 解析例3B
– ユーザ属性なし匿名化データから実現
• 解析例3C
– 買われないアイテム(=k‐匿名化データに出現しない
データ)の情報が必要
– 実現不可能
• 解析例3D
– 匿名化情報には時系列情報が付与されていないの
で実現不可能
4
購買履歴:Q1−Q4への対応
• Q1: 「個人を識別できない」、を、「各レコードと
実在の人物を確率1で結びつけることができ
ない」と考えるならば、識別できない
• Q2‐Q4: Q1と同様
• ただし、本当に守りたいのは、個人の再識別
なのか?
5
購買履歴:残存する課題
3‐匿名化データ例 (ユーザ属性なし)
#record
13
おにぎり
ペットお茶
ジャンプ
21
たばこ
コーヒー
7
唐揚げ弁当
ペットお茶
9
ペットお茶
おにぎり
ガム
2
つくば店限定サンド
イッチ
ポルノDVD
10/1のミュージシャン
Aのライブチケット
21
おにぎり
ペットお茶
…
…
…
…
…
• ターゲットxはFacebookで10/1のミュージシャンAのライブに行ったこと
をレポートしていた
• 昨日のお昼、ターゲットxはつくば店限定サンドイッチを食べていた
• そのようなターゲットxは、この世に2人いるらしいが、それがだれであ
れ(つまり、個人再識別できなくても)、ポルノDVDを買ったことは確率1
で推定できる
6
視聴履歴: ビジネスモデル
データ例
ID age
gender
1
23
M
twitter
facebook
b.tsukuba.ac.jp
…
Porn.com
2
41
M
b.tsukuba.ac.jp
google
porn.com
…
Asahi.com
…
…
…
…
…
…
…
…
N
30
F
mixi
ameblo
@cosme
…
Nikkei.com
•
シナリオ
1. プロバイダがweb視聴履歴を収集
2. 収集元で匿名化し、外部に販売(e.g., ターゲティング広告)
3. データ購入者の解析
E. 特定のweb pageを見る傾向が高いユーザー属性は何か?
– 20‐40代男性はgoogle
F. 同時に見られる傾向が高いweb pageの組みあわせは何か?
–
Facebookとtwitterはセット
G. ある曜日に見られるpageは何か、ある時期に急に見られだすpageは何
か?
7
購買履歴:匿名化措置
2‐匿名化データ例 (ユーザ属性付き)
#record
age
gender
2
20‐50
M
google
yahoo
3
20
F
yahoo
mixi
…
…
…
…
…
b.tsukuba.ac.jp
Porn.com
…
…
2‐匿名化データ例 (ユーザ属性なし)
#record
2
google
yahoo
b.tsukuba.ac.jp
30
yahoo
twitter
16
Google
Yahoo
twitter
…
…
…
…
Porn.com
…
• 解析例3E
– ユーザ属性付き匿名化データから実現
• 解析例3F
– ユーザ属性なし匿名化データから実現
• 解析例3G
– 匿名化情報には時系列情報が付与されていないので実現不可能
8
視聴履歴: 残存する課題
データ例
ID age
gender
1
23
M
yahoo
facebook
b.tsukuba.ac.jp
…
Porn.com
2
41
M
b.tsukuba.ac.jp
google
porn.com
…
Asahi.com
…
…
…
…
…
…
…
…
N
30
F
mixi
ameblo
@cosme
…
Nikkei.com
2‐匿名化データ例 (ユーザ属性付き)
age
gender
#record
20‐50
M
2
google
yahoo
20
F
3
yahoo
mixi
…
…
…
…
…
b.tsukuba.ac.jp
Porn.com
…
…
• もしb.tsukuba.ac.jpにアクセスできるユーザ属性が限られた人間だったら
• 筑波大学からポルノサイトにアクセスしたと推定
• もしb.tsukuba.ac.jpにアクセスできる人間が限られた数しかいなかったら
• e.g., b.tsukuba.ac.jpは男性は二人しかいない部署
• どちらの男性もポルノサイトにアクセスしたと推定
9
まとめ
•
ポルノサイトの例は何が問題か?
– 個人の所属とある属性値が確率1で結びついていた
– 前の例ではb.tsukuba.ac.jpの視聴履歴は、あるユーザの所属と強く結びついていた
•
ポルノDVDの例は何が問題か?
– 強い背景知識を持つ攻撃者に、個人識別を経ず、ある属性値が、確率1で推定された
– 前の例では、facebookの情報と、特定性が高いターゲットの昼食
•
要するに
– Q1/Q2にある個人識別は、1/k以上の確率では達成されない
– Q3/Q4:第三者による個人再識別も、1/k以上の確率で達成されない
– しかし、機微情報は漏洩しているとも言える
• E.g., 特定の疾患に結びつく病気の薬、放射能汚染区域の住所に結びつく情報、
思想信条・宗教を表す情報
– 「何が守られるべきか」を明確にし、それを守ることができる技術を導入すること
• 何もかもを守ることはできない
•
議論
– あるレコードと実在する人物が確率1で結びつくことを妨げたい
• 識別推定を防ぐK‐匿名化でOK
– ある属性値とある属性値が確率1で結びつくことを妨げたい
• 識別推定を防ぐK‐匿名化ではNG、属性推定を防ぐ属性値の多様化が必要
– 後者まで守る必要はあるのか?
10
補足:購買履歴の解析例3D, 3G 時間とともに項目が増えるデータの匿名化
データ例
ID age
gender
5日
6日
7日
8日
25日
…
1
23
M
ジャンプ
焼き肉弁当
新聞
ペットお茶
…
プリン
…
2
41
M
新聞
唐揚げ弁当
焼き肉弁当
ペットお茶
…
プリン
…
…
…
…
…
…
…
…
…
…
…
N
30
F
ペットお茶
チョコレート
紅茶
プリン
…
ファッション
雑誌
…
アイテム組み合わせ数
テーブルが含む項目数
タイムスタンプを匿名化テーブルに残す必要がある (解析例3‐D,3‐G )
時間
時間
{(おにぎり,2日), (ペットお茶, 3日)}と
{(おにぎり,3日), (ペットお茶, 4日)}は
別のアイテム組み合わせと見なされる
→アイテム組み合わせ数の指数関数
的増加
→匿名化できるほど、同一のアイテム
組み合わせを持つレコードが存在でき
ず、匿名化テーブルがスカスカに
→望んだ解析の実現は期待できない
11
Fly UP