Comments
Description
Transcript
参考になる事案(位置情報以外)の整理案
資料3 Q1~Q4で議論をする上で、参考になる事案(可能 であれば、位置情報以外の事案)の整理案 筑波CS 佐久間 淳 1 購買履歴: ビジネスモデル データ例 • ID age gender 1 23 M ジャンプ 焼き肉弁当 新聞 ペットお茶 … プリン 2 41 M 新聞 唐揚げ弁当 焼き肉弁当 ペットお茶 … プリン … … … … … … … … … N 30 F ペットお茶 チョコレート 紅茶 プリン … ファッション 雑誌 シナリオ 1. コンビニエンスストアのPOSデータを収集 • ポイントカードで名寄せして、一定期間(e.g. 1ヶ月間)、個人毎にログを取る 2. 本部で匿名化し、外部に販売(e.g., 食品会社のマーケティング) 3. データ購入者の解析 A. 特定のアイテムを買う傾向が高いユーザー属性は何か? – 20‐40代男性は焼き肉弁当 B. 同時に買われる傾向が高いアイテムの組みあわせは何か? – ペットお茶と弁当はセット C. D. あるユーザ属性には買われるが、別のユーザ属性には買われないアイテムの組み 合わせは何か? – 男性は(焼き肉弁当,プリン)を買うが女性は(焼き肉弁当,プリン)は買わない ある曜日に買われるアイテムは何か、ある時期に急に売れだすアイテムは何か? 2 購買履歴:匿名化措置 3‐匿名化データ例 (ユーザ属性付き) #record age gender 3 20 M おにぎり ペットお茶 15 20‐50 M たばこ コーヒー 5 20 M 唐揚げ弁当 ペットお茶 3 20‐40 M ペットお茶 おにぎり 7 30 F サンドイッチ 紅茶 3 50‐60 F おにぎり ペットお茶 … … … … … ジャンプ ガム … … 3‐匿名化データ例 (ユーザ属性なし) #record 13 おにぎり ペットお茶 21 たばこ コーヒー 7 唐揚げ弁当 ペットお茶 9 ペットお茶 おにぎり 8 サンドイッチ 紅茶 21 おにぎり ペットお茶 … … … {おにぎり、ペットお茶、ジャンプ}を 買った人は13人いた、という意味 ジャンプ ガム … … 3 購買履歴:匿名化措置 • 解析例3A – ユーザ属性付き匿名化データから実現 • 解析例3B – ユーザ属性なし匿名化データから実現 • 解析例3C – 買われないアイテム(=k‐匿名化データに出現しない データ)の情報が必要 – 実現不可能 • 解析例3D – 匿名化情報には時系列情報が付与されていないの で実現不可能 4 購買履歴:Q1−Q4への対応 • Q1: 「個人を識別できない」、を、「各レコードと 実在の人物を確率1で結びつけることができ ない」と考えるならば、識別できない • Q2‐Q4: Q1と同様 • ただし、本当に守りたいのは、個人の再識別 なのか? 5 購買履歴:残存する課題 3‐匿名化データ例 (ユーザ属性なし) #record 13 おにぎり ペットお茶 ジャンプ 21 たばこ コーヒー 7 唐揚げ弁当 ペットお茶 9 ペットお茶 おにぎり ガム 2 つくば店限定サンド イッチ ポルノDVD 10/1のミュージシャン Aのライブチケット 21 おにぎり ペットお茶 … … … … … • ターゲットxはFacebookで10/1のミュージシャンAのライブに行ったこと をレポートしていた • 昨日のお昼、ターゲットxはつくば店限定サンドイッチを食べていた • そのようなターゲットxは、この世に2人いるらしいが、それがだれであ れ(つまり、個人再識別できなくても)、ポルノDVDを買ったことは確率1 で推定できる 6 視聴履歴: ビジネスモデル データ例 ID age gender 1 23 M twitter facebook b.tsukuba.ac.jp … Porn.com 2 41 M b.tsukuba.ac.jp google porn.com … Asahi.com … … … … … … … … N 30 F mixi ameblo @cosme … Nikkei.com • シナリオ 1. プロバイダがweb視聴履歴を収集 2. 収集元で匿名化し、外部に販売(e.g., ターゲティング広告) 3. データ購入者の解析 E. 特定のweb pageを見る傾向が高いユーザー属性は何か? – 20‐40代男性はgoogle F. 同時に見られる傾向が高いweb pageの組みあわせは何か? – Facebookとtwitterはセット G. ある曜日に見られるpageは何か、ある時期に急に見られだすpageは何 か? 7 購買履歴:匿名化措置 2‐匿名化データ例 (ユーザ属性付き) #record age gender 2 20‐50 M google yahoo 3 20 F yahoo mixi … … … … … b.tsukuba.ac.jp Porn.com … … 2‐匿名化データ例 (ユーザ属性なし) #record 2 google yahoo b.tsukuba.ac.jp 30 yahoo twitter 16 Google Yahoo twitter … … … … Porn.com … • 解析例3E – ユーザ属性付き匿名化データから実現 • 解析例3F – ユーザ属性なし匿名化データから実現 • 解析例3G – 匿名化情報には時系列情報が付与されていないので実現不可能 8 視聴履歴: 残存する課題 データ例 ID age gender 1 23 M yahoo facebook b.tsukuba.ac.jp … Porn.com 2 41 M b.tsukuba.ac.jp google porn.com … Asahi.com … … … … … … … … N 30 F mixi ameblo @cosme … Nikkei.com 2‐匿名化データ例 (ユーザ属性付き) age gender #record 20‐50 M 2 google yahoo 20 F 3 yahoo mixi … … … … … b.tsukuba.ac.jp Porn.com … … • もしb.tsukuba.ac.jpにアクセスできるユーザ属性が限られた人間だったら • 筑波大学からポルノサイトにアクセスしたと推定 • もしb.tsukuba.ac.jpにアクセスできる人間が限られた数しかいなかったら • e.g., b.tsukuba.ac.jpは男性は二人しかいない部署 • どちらの男性もポルノサイトにアクセスしたと推定 9 まとめ • ポルノサイトの例は何が問題か? – 個人の所属とある属性値が確率1で結びついていた – 前の例ではb.tsukuba.ac.jpの視聴履歴は、あるユーザの所属と強く結びついていた • ポルノDVDの例は何が問題か? – 強い背景知識を持つ攻撃者に、個人識別を経ず、ある属性値が、確率1で推定された – 前の例では、facebookの情報と、特定性が高いターゲットの昼食 • 要するに – Q1/Q2にある個人識別は、1/k以上の確率では達成されない – Q3/Q4:第三者による個人再識別も、1/k以上の確率で達成されない – しかし、機微情報は漏洩しているとも言える • E.g., 特定の疾患に結びつく病気の薬、放射能汚染区域の住所に結びつく情報、 思想信条・宗教を表す情報 – 「何が守られるべきか」を明確にし、それを守ることができる技術を導入すること • 何もかもを守ることはできない • 議論 – あるレコードと実在する人物が確率1で結びつくことを妨げたい • 識別推定を防ぐK‐匿名化でOK – ある属性値とある属性値が確率1で結びつくことを妨げたい • 識別推定を防ぐK‐匿名化ではNG、属性推定を防ぐ属性値の多様化が必要 – 後者まで守る必要はあるのか? 10 補足:購買履歴の解析例3D, 3G 時間とともに項目が増えるデータの匿名化 データ例 ID age gender 5日 6日 7日 8日 25日 … 1 23 M ジャンプ 焼き肉弁当 新聞 ペットお茶 … プリン … 2 41 M 新聞 唐揚げ弁当 焼き肉弁当 ペットお茶 … プリン … … … … … … … … … … … N 30 F ペットお茶 チョコレート 紅茶 プリン … ファッション 雑誌 … アイテム組み合わせ数 テーブルが含む項目数 タイムスタンプを匿名化テーブルに残す必要がある (解析例3‐D,3‐G ) 時間 時間 {(おにぎり,2日), (ペットお茶, 3日)}と {(おにぎり,3日), (ペットお茶, 4日)}は 別のアイテム組み合わせと見なされる →アイテム組み合わせ数の指数関数 的増加 →匿名化できるほど、同一のアイテム 組み合わせを持つレコードが存在でき ず、匿名化テーブルがスカスカに →望んだ解析の実現は期待できない 11